Praxis der Testkonstruktion - Aufgabenkonstruktion Flashcards
- Aufgabenarten
a Antwortformate:
Gebundene Antwortformate:
Definition: Aufgaben, die dem Probanden ein Problem stellen und ihm zugleich verschiedene Lösungen anbieten.
Vorteile: Eindeutige Vergleichbarkeit der Antworten (bessere Objektivität), ökonomischer (in Auswertung und in der Regel Bearbeitung)
Nachteile:
• Items dieser Art erfassen eher reaktives als kreatives Verhalten
• schwieriger in der Konstruktion
o benötigen u.U. gute Distraktoren
o Vollständigkeit der Antwortalternativen (zumindest bei Persönlichkeitstests; bei Leistungstests nicht möglich)
o Disjunktheit der Antwortalternativen (eindeutige Beantwortbarkeit): Antwortalternativen müssen sich gegenseitig ausschließen. Wenn nur eine richtige Antwort vorhanden sein soll, dürfen nicht zwei Antwortalternativen plausibel sein.
• Evtl. Rateverzerrung in Leistungstests
• Bei Stufenantwortaufgaben (Ratingskalen), die in Persönlichkeitstests sehr häufig eingesetzt werden, ergeben sich einige speziellere Aspekte:
o Allgemeine Gestaltung (unipolar vs. bipolar, Analogskala vs. Skalenstufen, Art der Verankerung, Anzahl der Stufen)
Analogskala: stimme zu X stimme nicht zu
Skalenstufen: stimme zu 1 2 3 4 5 6 stimme nicht zu
o Verwendung einer Mittenkategorie (Problem der Tendenz zur Mitte, Problem der Interpretierbarkeit)
o „Weiß-nicht“-Kategorie? Problem, dass Menschen bei Fragen, die sie nicht beantworten wollen, immer „Weiß-nicht“ ankreuzen.
o Ausweichkategorien, Auslassmöglichkeit für bestimmte Fragenabschnitte. Beispiel: Eine Frau, die keine Kinder hat, kann eine Frage nach Problemen bei der Kindeserziehung nicht beantworten. Sie kann z.B.: eine vorhandene Mittenkategorie/“Weiß-nicht“-Kategorie ankreuzen. Man kann Fragen nach Kindeserziehung auch unter die Bedingungen „Haben sie Kinder – Ja, Nein“ stellen. Bei Nein überspringt man dann den weiteren Fragenteil.
o Asymmetrische Skalen/Itemspezifische Formate: z.B.: Wie häufig haben sie Kopfschmerzen
□täglich □mehrmals pro Woche □ 1x pro Woche □1x pro Monat □seltener
Beispiele
1. Alternativantworten
Ich bin gern allein ja nein
231 - 102 = 129 R F
2. Mutliple choice-Aufgaben
Ein Kommentar ist ein/eine
a. Gerichtsurteil
b. Verordnung
c. Erläuterung
d. Feststellung
e. Beschluss
3. Stufen-Antwort-Aufgaben (z.B. Likert-skaliert)
Ich bin ängstlich nie (1) selten (2) manchmal (3) oft (4) immer (5)
4. Zuordnungsaufgaben
Was wurde von wem geschrieben?
1. Die Räuber a. Goethe 1. a b c d e
2. Der grüne Heinrich b. Schiller 2. a b c d e
3. Schulmeisterlein Wuz c. Freytag 3. a b c d e
4. Werthers Leiden d. Keller 4. a b c d e
5. Wilhelm Tell e. Jean Paul 5. a b c d e
6. Maria Stuart 6. a b c d e
5. Unordnungsaufgaben: Geben sie die richtige Wortfolge durch Einsetzen von Zahlen in die unter den Worten stehenden Klammern an!
seinen ein rettete treuer Herrn Hund
( ) ( ) ( ) ( ) ( ) ( )
6. Adjektiv-Checklisten: Kreuzen sie die auf sie zutreffenden Eigenschaften an
□ Fröhlich □ Interessiert□ Zurückhaltend
Freie Antwortformate:
Definition: Aufgaben, die ein Problem vorgeben, aber keine Lösungen anbieten.
Vorteile:
• Erfassung einer großen Verhaltensbreite möglich
• Erlauben größere Vielfalt an Antworten
o V.a. auch unerwartete und kreative Antworten möglich
o Bei Leistungstests: keine Rateverzerrung möglich
o Antwort stellt komplexere Leistungen dar hohe Validität
• In der Konstruktion (zunächst) einfacher (z.B.: keine Erarbeitung von Distraktoren)
Nachteile:
• Nimmt i.d.R. mehr Zeit in Anspruch (Auswertung und Bearbeitung)
• Auswertung
o Nicht nur aufwendiger, sondern v.a. fehleranfälliger geringere Objektivität
Jeder gibt individuell andere Antworten. Schwierigkeit unterschiedliche (aber richtige) Antworten gleich zu gewichten.
o Entwicklung eines guten Kodierschemas erforderlich
Beispiele
1. Ergänzungsaufgaben
a. Eindeutige Fragen bzw. offene Sätze, z.B.:
In welchem land liegt die Stadt Lima? Peru
Der absolute Nullpunkt liegt bei… -273°C
Apfel verhält sich zu Obst wie Weizen zu… Getreide
b. Lückentexte
Auf der Grundlage der ____ Einzelfallen gewonnenen Erfahrungen erhebt ____ häufig die Frage, ob ____ …
2. Kurzaufsatz, Essay, offene Fragen: z.B.: Wozu wäscht man seien Kleidung?
wird hauptsächlich verwendet, wenn es keine einzig richtige Antwort gibt.
Atypische Aufgabenformate
- Kombination von gebundenen und freien Antwortformaten
z. B.: Mehrfachwahlaufgabe (gebunden) mit Begründung der Wahl (frei) - andere Aufgabentypen, z.B.
a. Army Alpha: Nur gerade Zahlen markieren, die in Kreisen oder Dreiecken stehen.
b. D2: Man soll nur d markieren unter denen zwei Striche stehen.
- Aufgabenarten
b Reizvorlage:
Reizvorlage: • Überwiegend sprachliche/schriftliche Reizvorlagen (= Fragen, Statements etc.) relativ einfach und ökonomisch • Seltener: o Bildvorlagen (auch Video) Rorschachtests (Rorschach, 1954)
Thematischer Apperzeptionstest (TAT; Murray, 1936)
Picture Frustration Test (Rosenzweig/Rauchfleisch)
Multi-Motiv-Gitter (Schmalt et al., 2000)
o Symbole
o Andere („echte“) Materialien , z.B.: Drahtwiegeprobe
o Verhaltenssimulationen/Rollenspiele
Entscheidungshilfen bei der Auswahl von Reizvorlage/Antwortformat/usw.
Entscheidungshilfen bei der Auswahl von Reizvorlage/Antwortformat/usw.
Alle Aufgaben haben Vor- und Nachteile z.T. ergeben sich Einschränkungen aus dem zu messenden Konstrukt
• z.B.: Ist es für den Pbn verbal zugänglich?
• Z.B.: Kreativitätstest mit gebundenen Antworten? Nein! Freie Antwortformate
• Z.B.: welche allgemeine Theorie liegt zugrunde? TAT = Motive sind unbewusst und können nicht verbalisiert werden.
wichtig ist v.a., dass die Items das relevante Konstrukt erfassen: Es kann durchaus sinnvoll sein „ungewöhnliche“ Aufgabenarten zu nutzen.
- Auswahlstrategien/Konstruktionsstrategien
• Übernahme aus vergleichbaren Verfahren
o Evtl. Übersetzungen (sehr häufig)
o Operationalisierungen aus Forschungsliteratur
o Probleme:
Evtl. nicht alle Aspekte des Konstrukts repräsentiert
Angemessenheit für angestrebte Zielgruppe
• Eigenkonstruktion
o Theoriegeleitet
o Intuitiv
o Unterstützung durch Voruntersuchungen
Bei Itemkonstruktion ist zu beachten, dass
o Bezug zum Konstrukt gewahrt ist
o Konstrukt in seiner Breite repräsentiert ist Grundlage: Merkmalsanalyse
o Formulierung angemessen ist (v.a. bei Persönlichkeitsfragebögen wichtig)
- Itemformulierung und –Gestaltung
a sprachliche Gestaltung
Sprachliche Gestaltung
• Vermeidung von mehrdeutigen Begriffen
• Vermeidung von „schwierigen“ Begriffen
o Gestaltungsbereich beachten, z.B.: Bildungsniveau (für wen ist der Test?)
o Auch: Vermeidung von psych. Fachtermini
o Allenfalls mit vorheriger Definition und anschließender Frage (wenn unbedingt nötig)
• Verwendung positiver Formulierungen
• V.a. keine doppelten Verneinungen
• Vermeidung von Verallgemeinerungen („immer“, „nie“)
• Vermeidung umständlich langer Items, aber auch kein Telegrammstil kann zu Missverständnissen führen
• Nur ein inhaltlicher Aspekt pro Item: schlecht ist „Ich werde leicht ärgerlich und schlage dann zu“
besser: 1. Ich werde leicht ärgerlich
2. Ich schlage zu, wenn ich ärgerlich bin.
• Eindeutigkeit bei Angabe von Zeiträumen: z.B. „In letzter Zeit…“ vs. „Im letzen Jahr…“
- Itemformulierung und –Gestaltung
b Antworttendenzen
Antworttendenzen
• Positions- und seriale Effekte
Gegenmaßnahmen bei Testkonstruktion? Überprüfung durch Umstellung der Items
• Tendenz zur unkritischen Zustimmung (Ja-Sage-Tendenz)
• Tendenz zur unkritischen Ablehnung (Nein-Sage-Tendenz)
Gegenmaßnahmen bei Testkonstruktion?
o Mischung von positiven und negativ gepolten Items
o Konkrete Verhaltensfragen/eindeutige Verankerung
• Soziale Erwünschtheit, Simulation/Dissimulation
Gegenmaßnahmen bei Testkonstruktion? Kontrollskalen (Offenheitsskalen, SD-Skalen, „Lügenskalen“) (SD = social desirability)
• Tendenz zur Mitte
• Tendenz zu extremen Antworten
Gegenmaßnahmen bei Testkonstruktion?
o Alternativantworten (ja – nein; stimme zu – stimme nicht zu)
o Explizite, ausführliche Charakterisierung der Kategorien
Beispiel: (Krauth, 1995, S. 47): Geben Sie an wie Sie sich fühlen.
Ich fühle mich so elend, dass ich keine Zukunft mehr sehe.
Ich fühle mich sehr schlecht, aber da muss ich durch
Ich fühle mich schlecht, aber ich bin sicher, dass das nicht so bleibt.
Ich fühle mich nicht besonders gut, aber es fehlt mir auch an nichts.
…
Zwischen 2 & 3. Provisorischer Testentwurf
Provisorischer Testentwurf
• Für den Zweck der weiteren Konstruktion muss eine vorläufige Fassung des Tests zusammengestellt werden, die möglichst weitgehend der endgültigen Version entspricht.
o Erstellen einer Testanweisung (inkl. Spezialanweisungen für verschiedene Aufgabenblöcke
o Evtl. Gruppierung der Items
Nach Spezialanweisung/Aufgabentyp
Nach Schwierigkeit: Beispiele
bei Leistungstests stehen u.a. aus motivationalen Gründen leichte Aufgaben zu Beginn
bei Speed-tests (man schaut hauptsächlich auf die Zeit: wie schnell kann man den Test bewältigen, bzw. wie viele Aufgaben schafft man in einer bestimmten Zeit?) ebenfalls leichte Aufgaben am Anfang möglichst gute und möglichst schnelle Lösung
bei Leistungstests oft auch nach Inhalt (Subtests); bei Persönlichkeitsfragebögen eher gemischt, um Konsistenzeffekte zu vermeiden.
• Provisorischer Test wird von einer Konstruktionsstichprobe bearbeitet
o Repräsentativität der Stichprobe
o Dient v.a. der Generierung von Daten für weitere Konstruktionsschritte
o Aber auch: Feedback der Probanden (Verständnisschwierigkeiten, Probleme mit Antwortformat etc.)
Retrospektive Befragung
Verhaltensbeobachtung, evtl. mit gezielten Nachfragen im Anschluss an Testbearbeitung
Während der Testbearbeitung: Technik des lauten Denkens (Testdaten selbst können dann aber nicht verwendet werden!)
• Erprobungs-Ernstfall-Dilemma: Für Probanden der Konstruktionsstichprobe ist Test „bedeutungslos“ (keine persönlichen Konsequenzen)
kann zu anderem Antwortverhalten führen.
Bearbeitung des vorläufigen Tests soll der späteren Anwendungssituaiton möglichst ähnlich sein (z.B. Einstreuen in echte Testbatterie; aber: ethische Problematik)
zwischen 2 & 3. Wahl einer Konstruktionsstrategie
Fakoranalyse
Skalenwerte Bestimmung
Frage: Welche Items sollen zu einem Test zusammengefasst werden?
Es gibt 3 prototypische Strategien, die eine Zuordnung von Items zu Skalen erlauben.
Kombinationen sind möglich und werden für gewöhnlich auch vorgenommen, z.B.:
• Vorläufige Konstruktion per intuitiver Strategie mit anschließender faktorenanalytische Verfeinerung
• Faktorenanalytische Konstruktion mit rational geleiteten Ergänzungen (z.B. FPI)
• Kontrolle rationaler Konstruktion per empirischen Methoden
1. Rationale Strategie: Ausgehend von einem vorgegebenen theoretischen Konzept werden Items formuliert, die dann weiteren Prüfungen unterzogen werden
• Rationale Strategie ordnet Items auf Grundlage vorliegender Theorien zum Konstrukt zu
o Setzt gute theoretische Vorkenntnisse voraus
o Z.B.: Wechsler Intelligenztest für Erwachsene (WIE-II; Aster et al., 2006)
o Z.B. Manifest Anxiety Scale (MAS; Taylor, 1953)
• Intuitive Strategie als „abgespeckte“ Form
o Konstruktion ist von Intuition und Erfahrung des Testautors geleitet (da keine ausführlichen theoretischen Modelle zur Verfügung stehen)
o V.a. zu Beginn eines Forschungszweiges und ergänzt durch empirische Strategien
2. Externale, kriteriumsorientierte Strategie
• Auswahl der Items erfolgt empirisch unter Bezugnahme auf externe Kriterien: Es werden die Items ausgewählt, die zwischen einer Kriteriumsgruppe und einer Kontrollgruppe unterscheiden.
• Die Aussagen des Tests ergeben sich aus dem Merkmal, das die Kriteriumsgruppe charakterisiert (und das die Kontrollgruppe nicht besitzt). Inhalt der Items irrelevant. Unsinnige und subtile Items bleiben in der Skala (Warum die Items differenzieren ist irrelevant!)
• Z.B.: Minnesota Multiphasic Personality Inventory (MMPI-2; Hataway et al., 2000): verschiedene klinisch auffällige Gruppen (z.B.: Depression) wurden mit einer unauffälligen Gruppe verglichen.
3. Internale Strategie
• Ein (a)theoretisch gebildeter Itemsatz wird einer Stichprobe vorgelegt.
• Statistisch zusammengehörige Items werden als Skala zusammengefügt.
• Inhalt der Skala wird über die Items bestimmt.
• Geschieht per Faktorenalayse:
o Baut auf den Interkorrelationen der Items auf
o Items, die hoch miteinander & gering mit anderen korrelieren bilden einen gem. Faktor
o Faktor repräsentiert ein hypothetisches Konstrukt, das von anderen Konstrukten (Faktoren) abzugrenzen ist
o Inhaltliche Interpretation (und Benennung) des Konstruktes anhand der Items, die „hoch laden“
Vergleich:
• Alle drei Strategien führen zu ähnlichen Ergebnissen, zu Skalen, die brauchbare psychometrische Qualitäten aufweisen.
• Am besten beginnt man mit einer rationalen Strategie und sucht dann empirische Befunde der Richtigkeit der erstellten Skala über die zwei anderen Strategien.