4 - Itemanalyse Flashcards
Itemanalyse
Grundlegende Frage: Auf Grundlage welcher Kriterien sollen Items (Aufgaben) ausgeschlossen werden?
- Subjektives Urteil auch erfahrener Testkonstrukteure nicht ausreichend (Conrad, 1947)
- Itemkennwerte/Kriterien:
- Itemschwierigkeit = Ist das Item (die Aufgabe) zu einfach, angemessen, oder zu schwer?
- Itemvarianz = Differenziert das Item (die Aufgabe) in einem ausreichenden Maß zwischen den Probanden?
- Itemtrennschärfe = Inwieweit stimmt die Differenzierung zwischen den Probanden auf Basis des jeweiligen Items mit der Differenzierung zwischen den Probanden auf Basis dem mit allen Items gebildeten Testwertes überein?
Itemschwierigkeit
Leistungstest –> Wie viele Probanden der Stichprobe haben das Item gelöst
Persönlichkeitstest –> Wie viele Probanden haben einer Aussage im Sinne des Kriteriums zugestimmt
Schwierigkeitsindex Pi
- Der Schwierigkeitsindex ist der Quotient aus der bei diesem Item von allen Personen tatsächlich erreichten Punktsumme und der maximal erreichbaren Punktsumme (Wertebereich 0 bis 1). Eigtl ist es ein ‘Leichtigkeitsindex’
- Der Schwierigkeitsindex Pi kann als arithmetischer Mittelwert interpretiert werden. Es handelt sich also um einen Lageparameter
- Wenn die minimal erreichbare Punktzahl nicht null ist, dann wird Pi wie folgt bestimmt:
Pi = (xi − min(xi)) / (max xi − min(xi)) ⋅ 100
- Items, die von allen Probanden gelöst bzw. nicht gelöst werden, enthalten keine Information zur Differenzierung zwischen Personen (denn bei ihnen ist nur eine relativ geringe Varianz möglich) —> Entfernung von Items mit ’extremen’ Schwierigkeitsindizes (z.B. Pi < 0.2 und Pi > 0.8) aus dem Test (nur einige wenige behalten um die Randbereiche zu differenzieren)
- Mittlere Itemschwierigkeit —> Tendenziell höhere Itemvarianz, aber keine Garantie. Theoretisch kann selbst bei p=0,5 die Varianz 0 sein
Itemvarianz
- Die Itemvarianz ist die mittlere quadrierte Abweichung der Antworten vom Mittelwert (Wertebereich 0 bis 1) —> wie unterschiedlich beantworten die Personen das Item
- Nur ein Item, auf das Personen unterschiedlich antworten, kann zur Messung von Unterschieden zwischen Personen beitragen
- Itemvarianz = 0 –> alle Personen haben auf ein Item gleich geantwortet
- Die Zahlenwerte der Itemvarianz hängen von der jeweiligen Antwortskala ab. Die Werte sind daher für sich genommen wenig aussagekräftig, können aber im Vergleich verschiedener Items aufschlussreich sein
- Niedrige Itemvarianz —> tendenziell, aber nicht zwangsläufig, niedrigere Trennschärfe
Itemtrennschärfe
- Die Itemtrennschärfe ist der wichtigste Itemkennwert im Kontext der klassischen Testtheorie
- Die Trennschärfe r eines Items i drückt aus, wie groß der korrelative Zusammenhang zwischen den Itemwerten xvi der Probanden und den Testwerten xv der Probanden ist (Wertebereich von -1 bis +1)
- Der Testwert xv eines Probanden v wird dabei üblicherweise als Zeilensumme sämtlicher Itemwerte xvi des Probanden v gebildet.
- part-whole Korrektur –> das jeweilige Item wird bei der Summenbildung nicht einbezogen, da sonst eine Überschätzung des Zusammenhangs vorläge
- Untergrenzen von r < 0.3 oder r < 0.4 als Ausschlusskriterium üblich
- Bei einer hohen positiven Trennschärfe erfasst das Item etwas Ähnliches wie der Gesamttest (was auch immer dieser erfasst)
- Eine Trennschärfe nahe Null weist darauf hin, dass ein Item mit dem restlichen Test nichts gemeinsam hat
- Eine negative Trennschärfe kann einen Hinweis darauf geben, dass ein Item umgekehrt wie beabsichtigt verstanden oder – wahrscheinlicher –bei der Auswertung nicht richtig gepolt wurde (Invertierung wurde nicht berücksichtigt)
Itemselektion
Ziel der Itemselektion: möglichst hohe Varianz im Testwert (Rohwert)
- schlechte“ Items identifizieren und aus der endgültigen Fassung des Tests ausschließen
- Die Varianz im Testwert steigt…
- …mit steigender Varianz der Items (und die ist maximal bei mittlerer Aufgabenschwierigkeit)
- …mit steigender Trennschärfe der Items
- Die Itemkennwerte Itemschwierigkeit, Itemvarianz und Itemtrennschärfe sind deskriptive Größen. Es gibt daher keine klare Regeln wie etwa bei einem Hypothesentest, ab wann ein Item definitiv aus einem Test ausgeschlossen werden sollte
Gutes Item:
- hohe Trennschärfe (Untergrenzen von .30 oder .40 als Auschlusskriterium üblich)
- Mittlere Schwierigkeit (kleiner 20 oder größer 80 als Ausschlusskriterium üblich. ABER: einige wenige leichte/schwere Items behalten um in den Randbereichen differenzieren zu können)
- hohe Varianz (wird zwar eher selten als Selektionskriterium herangezogen, kann aber in Kombination mit den anderen Kennwerten aufschlussreich sein)
Aber: Bei Itemselektion Iteminhalt und Konstrukt nicht vergessen! Das Item mag zwar grenzwertig sein bzgl Trennschärfe und Schwierigkeit, aber vielleicht erfasst genau dieses Item einen bestimmten Inhalt, der für die Messung des Konstrukts im Sinne der Inhaltsvalidität wichtig ist
Zusammenhänge zwischen den Itemkennwerten
Zwischen den verschiedenen Itemkennwerten bestehen einige systematische Zusammenhänge:
- Ein Item mit extrem hoher oder niedriger Itemschwierigkeit kann nur eine eingeschränkte Varianz aufweisen
- Je niedriger die Varianz eines Items, desto unwahrscheinlicher ist es, dass ein Item noch eine hohe Itemtrennschärfe aufweist
Wegen dieser systematischen Zusammenhänge zwischen den Itemkennwerten kann man bei der Itemselektion eigentlich auch auf die Itemvarianz verzichten
Itemselektion und Faktorenanalyse
Annahme: latentes zugrundeliegendes Merkmal (= Faktor) ist ursächlich für die Beantwortung des Items
- D.h. wenn Items korrelieren, liegt das daran, dass sie einen gemeinsamen Faktor haben
- Faktorladung hoch = das Item stimmt genau mit dem Faktor überein
- Faktorladung niedrig = das Item fragt nach etwas völlig anderem