Praxis der Testkonstruktion - Aufgabenkonstruktion Flashcards

1
Q
  1. Aufgabenarten

a Antwortformate:

A

Gebundene Antwortformate:
Definition: Aufgaben, die dem Probanden ein Problem stellen und ihm zugleich verschiedene Lösungen anbieten.
Vorteile: Eindeutige Vergleichbarkeit der Antworten (bessere Objektivität), ökonomischer (in Auswertung und in der Regel Bearbeitung)
Nachteile:
• Items dieser Art erfassen eher reaktives als kreatives Verhalten
• schwieriger in der Konstruktion
o benötigen u.U. gute Distraktoren
o Vollständigkeit der Antwortalternativen (zumindest bei Persönlichkeitstests; bei Leistungstests nicht möglich)
o Disjunktheit der Antwortalternativen (eindeutige Beantwortbarkeit): Antwortalternativen müssen sich gegenseitig ausschließen. Wenn nur eine richtige Antwort vorhanden sein soll, dürfen nicht zwei Antwortalternativen plausibel sein.
• Evtl. Rateverzerrung in Leistungstests
• Bei Stufenantwortaufgaben (Ratingskalen), die in Persönlichkeitstests sehr häufig eingesetzt werden, ergeben sich einige speziellere Aspekte:
o Allgemeine Gestaltung (unipolar vs. bipolar, Analogskala vs. Skalenstufen, Art der Verankerung, Anzahl der Stufen)

Analogskala: stimme zu X stimme nicht zu

Skalenstufen: stimme zu 1 2 3 4 5 6 stimme nicht zu
o Verwendung einer Mittenkategorie (Problem der Tendenz zur Mitte, Problem der Interpretierbarkeit)
o „Weiß-nicht“-Kategorie? Problem, dass Menschen bei Fragen, die sie nicht beantworten wollen, immer „Weiß-nicht“ ankreuzen.
o Ausweichkategorien, Auslassmöglichkeit für bestimmte Fragenabschnitte. Beispiel: Eine Frau, die keine Kinder hat, kann eine Frage nach Problemen bei der Kindeserziehung nicht beantworten. Sie kann z.B.: eine vorhandene Mittenkategorie/“Weiß-nicht“-Kategorie ankreuzen. Man kann Fragen nach Kindeserziehung auch unter die Bedingungen „Haben sie Kinder – Ja, Nein“ stellen. Bei Nein überspringt man dann den weiteren Fragenteil.
o Asymmetrische Skalen/Itemspezifische Formate: z.B.: Wie häufig haben sie Kopfschmerzen
□täglich □mehrmals pro Woche □ 1x pro Woche □1x pro Monat □seltener
Beispiele
1. Alternativantworten
Ich bin gern allein ja nein
231 - 102 = 129 R F
2. Mutliple choice-Aufgaben
Ein Kommentar ist ein/eine
a. Gerichtsurteil
b. Verordnung
c. Erläuterung
d. Feststellung
e. Beschluss
3. Stufen-Antwort-Aufgaben (z.B. Likert-skaliert)
Ich bin ängstlich nie (1) selten (2) manchmal (3) oft (4) immer (5)
4. Zuordnungsaufgaben
Was wurde von wem geschrieben?
1. Die Räuber a. Goethe 1. a b c d e
2. Der grüne Heinrich b. Schiller 2. a b c d e
3. Schulmeisterlein Wuz c. Freytag 3. a b c d e
4. Werthers Leiden d. Keller 4. a b c d e
5. Wilhelm Tell e. Jean Paul 5. a b c d e
6. Maria Stuart 6. a b c d e
5. Unordnungsaufgaben: Geben sie die richtige Wortfolge durch Einsetzen von Zahlen in die unter den Worten stehenden Klammern an!
seinen ein rettete treuer Herrn Hund
( ) ( ) ( ) ( ) ( ) ( )
6. Adjektiv-Checklisten: Kreuzen sie die auf sie zutreffenden Eigenschaften an
□ Fröhlich □ Interessiert□ Zurückhaltend

Freie Antwortformate:
Definition: Aufgaben, die ein Problem vorgeben, aber keine Lösungen anbieten.
Vorteile:
• Erfassung einer großen Verhaltensbreite möglich
• Erlauben größere Vielfalt an Antworten
o V.a. auch unerwartete und kreative Antworten möglich
o Bei Leistungstests: keine Rateverzerrung möglich
o Antwort stellt komplexere Leistungen dar  hohe Validität
• In der Konstruktion (zunächst) einfacher (z.B.: keine Erarbeitung von Distraktoren)
Nachteile:
• Nimmt i.d.R. mehr Zeit in Anspruch (Auswertung und Bearbeitung)
• Auswertung
o Nicht nur aufwendiger, sondern v.a. fehleranfälliger  geringere Objektivität
Jeder gibt individuell andere Antworten. Schwierigkeit unterschiedliche (aber richtige) Antworten gleich zu gewichten.
o Entwicklung eines guten Kodierschemas erforderlich
Beispiele
1. Ergänzungsaufgaben
a. Eindeutige Fragen bzw. offene Sätze, z.B.:
In welchem land liegt die Stadt Lima?  Peru
Der absolute Nullpunkt liegt bei…  -273°C
Apfel verhält sich zu Obst wie Weizen zu…  Getreide
b. Lückentexte
Auf der Grundlage der ____ Einzelfallen gewonnenen Erfahrungen erhebt ____ häufig die Frage, ob ____ …
2. Kurzaufsatz, Essay, offene Fragen: z.B.: Wozu wäscht man seien Kleidung?
 wird hauptsächlich verwendet, wenn es keine einzig richtige Antwort gibt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Atypische Aufgabenformate

A
  1. Kombination von gebundenen und freien Antwortformaten
    z. B.: Mehrfachwahlaufgabe (gebunden) mit Begründung der Wahl (frei)
  2. andere Aufgabentypen, z.B.
    a. Army Alpha: Nur gerade Zahlen markieren, die in Kreisen oder Dreiecken stehen.

b. D2: Man soll nur d markieren unter denen zwei Striche stehen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. Aufgabenarten

b Reizvorlage:

A
Reizvorlage: 
•	Überwiegend sprachliche/schriftliche Reizvorlagen (= Fragen, Statements etc.)
 relativ einfach und ökonomisch 
•	Seltener: 
o	Bildvorlagen (auch Video) 
	Rorschachtests (Rorschach, 1954) 

 Thematischer Apperzeptionstest (TAT; Murray, 1936) 

 Picture Frustration Test (Rosenzweig/Rauchfleisch)

 Multi-Motiv-Gitter (Schmalt et al., 2000)

o Symbole
o Andere („echte“) Materialien , z.B.: Drahtwiegeprobe
o Verhaltenssimulationen/Rollenspiele

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Entscheidungshilfen bei der Auswahl von Reizvorlage/Antwortformat/usw.

A

Entscheidungshilfen bei der Auswahl von Reizvorlage/Antwortformat/usw.
Alle Aufgaben haben Vor- und Nachteile  z.T. ergeben sich Einschränkungen aus dem zu messenden Konstrukt
• z.B.: Ist es für den Pbn verbal zugänglich?
• Z.B.: Kreativitätstest mit gebundenen Antworten?  Nein! Freie Antwortformate
• Z.B.: welche allgemeine Theorie liegt zugrunde? TAT = Motive sind unbewusst und können nicht verbalisiert werden.
 wichtig ist v.a., dass die Items das relevante Konstrukt erfassen: Es kann durchaus sinnvoll sein „ungewöhnliche“ Aufgabenarten zu nutzen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. Auswahlstrategien/Konstruktionsstrategien
A

• Übernahme aus vergleichbaren Verfahren
o Evtl. Übersetzungen (sehr häufig)
o Operationalisierungen aus Forschungsliteratur
o Probleme:
 Evtl. nicht alle Aspekte des Konstrukts repräsentiert
 Angemessenheit für angestrebte Zielgruppe
• Eigenkonstruktion
o Theoriegeleitet
o Intuitiv
o Unterstützung durch Voruntersuchungen
Bei Itemkonstruktion ist zu beachten, dass
o Bezug zum Konstrukt gewahrt ist
o Konstrukt in seiner Breite repräsentiert ist  Grundlage: Merkmalsanalyse
o Formulierung angemessen ist (v.a. bei Persönlichkeitsfragebögen wichtig)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
  1. Itemformulierung und –Gestaltung

a sprachliche Gestaltung

A

Sprachliche Gestaltung
• Vermeidung von mehrdeutigen Begriffen
• Vermeidung von „schwierigen“ Begriffen
o Gestaltungsbereich beachten, z.B.: Bildungsniveau (für wen ist der Test?)
o Auch: Vermeidung von psych. Fachtermini
o Allenfalls mit vorheriger Definition und anschließender Frage (wenn unbedingt nötig)
• Verwendung positiver Formulierungen
• V.a. keine doppelten Verneinungen
• Vermeidung von Verallgemeinerungen („immer“, „nie“)
• Vermeidung umständlich langer Items, aber auch kein Telegrammstil  kann zu Missverständnissen führen
• Nur ein inhaltlicher Aspekt pro Item: schlecht ist „Ich werde leicht ärgerlich und schlage dann zu“
besser: 1. Ich werde leicht ärgerlich
2. Ich schlage zu, wenn ich ärgerlich bin.
• Eindeutigkeit bei Angabe von Zeiträumen: z.B. „In letzter Zeit…“ vs. „Im letzen Jahr…“

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
  1. Itemformulierung und –Gestaltung

b Antworttendenzen

A

Antworttendenzen
• Positions- und seriale Effekte
Gegenmaßnahmen bei Testkonstruktion?  Überprüfung durch Umstellung der Items
• Tendenz zur unkritischen Zustimmung (Ja-Sage-Tendenz)
• Tendenz zur unkritischen Ablehnung (Nein-Sage-Tendenz)
Gegenmaßnahmen bei Testkonstruktion?
o Mischung von positiven und negativ gepolten Items
o Konkrete Verhaltensfragen/eindeutige Verankerung
• Soziale Erwünschtheit, Simulation/Dissimulation
Gegenmaßnahmen bei Testkonstruktion?  Kontrollskalen (Offenheitsskalen, SD-Skalen, „Lügenskalen“) (SD = social desirability)
• Tendenz zur Mitte
• Tendenz zu extremen Antworten
Gegenmaßnahmen bei Testkonstruktion?
o Alternativantworten (ja – nein; stimme zu – stimme nicht zu)
o Explizite, ausführliche Charakterisierung der Kategorien
Beispiel: (Krauth, 1995, S. 47): Geben Sie an wie Sie sich fühlen.
 Ich fühle mich so elend, dass ich keine Zukunft mehr sehe.
 Ich fühle mich sehr schlecht, aber da muss ich durch
 Ich fühle mich schlecht, aber ich bin sicher, dass das nicht so bleibt.
 Ich fühle mich nicht besonders gut, aber es fehlt mir auch an nichts.
 …

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Zwischen 2 & 3. Provisorischer Testentwurf

A

Provisorischer Testentwurf
• Für den Zweck der weiteren Konstruktion muss eine vorläufige Fassung des Tests zusammengestellt werden, die möglichst weitgehend der endgültigen Version entspricht.
o Erstellen einer Testanweisung (inkl. Spezialanweisungen für verschiedene Aufgabenblöcke
o Evtl. Gruppierung der Items
 Nach Spezialanweisung/Aufgabentyp
 Nach Schwierigkeit: Beispiele
 bei Leistungstests stehen u.a. aus motivationalen Gründen leichte Aufgaben zu Beginn
 bei Speed-tests (man schaut hauptsächlich auf die Zeit: wie schnell kann man den Test bewältigen, bzw. wie viele Aufgaben schafft man in einer bestimmten Zeit?) ebenfalls leichte Aufgaben am Anfang  möglichst gute und möglichst schnelle Lösung
 bei Leistungstests oft auch nach Inhalt (Subtests); bei Persönlichkeitsfragebögen eher gemischt, um Konsistenzeffekte zu vermeiden.
• Provisorischer Test wird von einer Konstruktionsstichprobe bearbeitet
o Repräsentativität der Stichprobe
o Dient v.a. der Generierung von Daten für weitere Konstruktionsschritte
o Aber auch: Feedback der Probanden (Verständnisschwierigkeiten, Probleme mit Antwortformat etc.)
 Retrospektive Befragung
 Verhaltensbeobachtung, evtl. mit gezielten Nachfragen im Anschluss an Testbearbeitung
 Während der Testbearbeitung: Technik des lauten Denkens (Testdaten selbst können dann aber nicht verwendet werden!)
• Erprobungs-Ernstfall-Dilemma: Für Probanden der Konstruktionsstichprobe ist Test „bedeutungslos“ (keine persönlichen Konsequenzen)
 kann zu anderem Antwortverhalten führen.
 Bearbeitung des vorläufigen Tests soll der späteren Anwendungssituaiton möglichst ähnlich sein (z.B. Einstreuen in echte Testbatterie; aber: ethische Problematik)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

zwischen 2 & 3. Wahl einer Konstruktionsstrategie
Fakoranalyse
Skalenwerte Bestimmung

A

Frage: Welche Items sollen zu einem Test zusammengefasst werden?
Es gibt 3 prototypische Strategien, die eine Zuordnung von Items zu Skalen erlauben.
Kombinationen sind möglich und werden für gewöhnlich auch vorgenommen, z.B.:
• Vorläufige Konstruktion per intuitiver Strategie mit anschließender faktorenanalytische Verfeinerung
• Faktorenanalytische Konstruktion mit rational geleiteten Ergänzungen (z.B. FPI)
• Kontrolle rationaler Konstruktion per empirischen Methoden
1. Rationale Strategie: Ausgehend von einem vorgegebenen theoretischen Konzept werden Items formuliert, die dann weiteren Prüfungen unterzogen werden
• Rationale Strategie ordnet Items auf Grundlage vorliegender Theorien zum Konstrukt zu
o Setzt gute theoretische Vorkenntnisse voraus
o Z.B.: Wechsler Intelligenztest für Erwachsene (WIE-II; Aster et al., 2006)
o Z.B. Manifest Anxiety Scale (MAS; Taylor, 1953)
• Intuitive Strategie als „abgespeckte“ Form
o Konstruktion ist von Intuition und Erfahrung des Testautors geleitet (da keine ausführlichen theoretischen Modelle zur Verfügung stehen)
o V.a. zu Beginn eines Forschungszweiges und ergänzt durch empirische Strategien
2. Externale, kriteriumsorientierte Strategie
• Auswahl der Items erfolgt empirisch unter Bezugnahme auf externe Kriterien: Es werden die Items ausgewählt, die zwischen einer Kriteriumsgruppe und einer Kontrollgruppe unterscheiden.
• Die Aussagen des Tests ergeben sich aus dem Merkmal, das die Kriteriumsgruppe charakterisiert (und das die Kontrollgruppe nicht besitzt).  Inhalt der Items irrelevant. Unsinnige und subtile Items bleiben in der Skala (Warum die Items differenzieren ist irrelevant!)
• Z.B.: Minnesota Multiphasic Personality Inventory (MMPI-2; Hataway et al., 2000): verschiedene klinisch auffällige Gruppen (z.B.: Depression) wurden mit einer unauffälligen Gruppe verglichen.
3. Internale Strategie
• Ein (a)theoretisch gebildeter Itemsatz wird einer Stichprobe vorgelegt.
• Statistisch zusammengehörige Items werden als Skala zusammengefügt.
• Inhalt der Skala wird über die Items bestimmt.
• Geschieht per Faktorenalayse:
o Baut auf den Interkorrelationen der Items auf
o Items, die hoch miteinander & gering mit anderen korrelieren bilden einen gem. Faktor
o Faktor repräsentiert ein hypothetisches Konstrukt, das von anderen Konstrukten (Faktoren) abzugrenzen ist
o Inhaltliche Interpretation (und Benennung) des Konstruktes anhand der Items, die „hoch laden“
Vergleich:
• Alle drei Strategien führen zu ähnlichen Ergebnissen, zu Skalen, die brauchbare psychometrische Qualitäten aufweisen.
• Am besten beginnt man mit einer rationalen Strategie und sucht dann empirische Befunde der Richtigkeit der erstellten Skala über die zwei anderen Strategien.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly