Praxis der Testkonstruktion - Itemanalyse Flashcards
Itemanalyse Ziel
Ziel: Bestimmung der Qualität eines Items in Bezug auf die Skala.
3 zentrale Itemkennwerte: Schwierigkeit, Trennschärfe, Homogenität
A Schwierigkeitsindex p
Schwierigkeitsindex p (= Index der kategorialen Häufigkeiten)
Ziel eines Tests: Trennung von Probanden mit hoher Merkmalsausprägung von Probanden mit niedriger Merkmalsausprägung. Nicht möglich bei Items, die von allen oder keinem Probanden gelöst werden.
Der Schwierigkeitsindex gibt deswegen an wie groß der Anteil von Probanden ist, die ein Item „richtig“ beantwortet haben.
Berechnung des Schwierigkeitsindex
1. Schwierigkeitsindex bei zweistufigen Antworten (Ja/Nein; Richtig/Falsch)
a. Normal:
NR NR = „Zahl der Richtiglöser“
P = ∙100 N = „Zahl der Probanden“
N p = Schwierigkeitsindex
Bei Persönlichkeitstests: „richtige“ Antwort = Antwort in Indexrichtung
(Negativ gepolte Items müssen vor der Itemanalyse in Indexrichtung umgepolt werden.)
Je einfacher die Aufgabe, desto größer der Schwierigkeitsindex p.
• Ein Item, das von vielen gelöst wird, erhält ein hohes p, es ist leicht.
(Lösen z.B.: alle die Aufgabe ist p = 1)
• Ein Item, das von wenigen gelöst wird, erhält ein niedriges p, es ist schwer.
b. Haben nicht alle Probanden alle Items beantwortet, dann gibt N eine falsche Bezugsgröße an: p fällt zu niedrig aus (p „schwerer“). Lösung: In die Berechnung werden nur die Probanden einbezogen, die das jeweilige Item beantwortet haben (NB):
NR
p =
NB
c. Zufallskorrektur: Bei zweistufig kodierten Leistungstests kann Erraten der Lösung einen erheblichen Einfluss haben. 50% „richtiger“ Antworten können auf Raten zurückgehen.
Formel der Zufallskorrektur nach Guilford (1936): Ratekorrektur
NR - NF/(m-1) pcorr = Korrigierter Schwierigkeitsindex
pcorr = NF = Falschlöser
N m = Zahl der Alternativen in einer Aufgabe.
2. Schwierigkeitsindex bei mehrstufigen Antworten
p ist nur für zweistufige Antworten definiert. Um dennoch Angaben zu gewinnen, kann man unterschiedlich vorgehen:
• Künstliche Dichotomisierung der Items anhand eines best. Kriteriums. Aber: Verzicht von genauerer Differenzierung.
• Mittelwerte der Items als Äquivalent zu p. Achtung: Ohne gleichzeitige Beachtung der Streuung ist ein Mittelwert wenig aussagekräftig.
• Neuer Wert: mehrstufiges p (pm = Schwierigkeitsindex für mehrstufige Items)
a. Bestimmung von p:
_
x – min
pm =
max – min
Alternative Berechnung für
min = 0 (nach Dahl)
b. Itemvarianz
• Wichtige Bestimmung bei Ratingskalen
• Bei Verwendung von Mittelwerten bzw. pm als Indikator der Itemschwierigkeit
Berücksichtigung der Varianz: Je größer Varianz, desto höher Differenzierung
Extremfall: Alle Pbn haben mittleren Skalenwert angekreuzt: pm = 0.50, aber s² = 0, d.h. Item differenziert nicht!
• Varianz hängt auch von Antwortskala ab: Werte können nicht als solche zur Bewertung herangezogen werden, sondern lediglich im Vergleich der Items auf gleicher Antwortskala.
• Bei dichtotomen Antworten ist eine eigenständige Betrachtung der Varianz nicht nötig, da s² vollständig durch P festgelegt ist: s² = p ∙ (1-p)
maximale Varianz (s² = 0,25) wird bei P = 50 (bzw. p = 0,50) erreicht
Erwünschte Itemschwierigkeiten
1. Testverfahren dienen der Differenzierung von Einzelpersonen hinsichtlich eines Merkmals
• bei dichotomen Antwortformaten gilt grundsätzlich: max. Differenzierungsfähigkeit bei P = 50
i.d.R. werden Items mit Schwierigkeiten im mittleren Bereich erwünscht
• Problem: Im Extremfall wird nur im Mittelbereich differenziert (Supergute gegen Totalschlechte)
• Um auch in den Randbereichen des Merkmals zu differenzieren, strebt man daher eine gewisse Heterogenität an (z.B. 20 ≤ P ≤ 80)
2. hängt aber auch von Zielsetzung ab:
• will man über die gesamte Breite bzw. im typischen Bereich des Merkmals differenzieren, dann:
o hauptsächlich P ≈ 50
o zusätzlich auch einige Items mit extremeren Schwierigkeiten (hoch und niedrig)
• will man v.a. in einem extremen Merkmalsbereich differenzieren, dann nimmt man hauptsächlich Items mit Schwierigkeiten in dem betreffenden Extrembereich
3. Itemschwierigkeiten verschiedenen Tests
• Schnelligkeitstests (speed tests) Aufgaben sollten leicht sein (Bearbeitungszeit ist begrenzt: Je schneller desto besser - Leistung wird gemessen durch die Zahl der Aufgaben, die in einer bestimmten Zeit gelöst werden.) + Verwendung von Items mit homogenen Schwierigkeiten
• Niveau-Tests (power tests) Aufgaben sollten nach aufsteigender Schwierigkeit angeordnet sein. (Pbn hat so viel Zeit wie er braucht: Je richtiger die Aufgaben, desto besser – Leistung ist allein durch die Zahl der gelösten Items bestimmt.)
• Mischtests: Leistung wird gemessen durch die Zahl der in begrenzter Zeit gelösten Items.
B Trennschärfe r it
Trennschärfe ist der wichtigste Itemkennwert, sie klärt die Position eines Items im Verband der anderen Items, indem sie einen Index liefert, der angibt, wie weit die Menge der Löser über alle Items hinweg identisch bleibt. Frage: Wie gut trennt ein Item Probanden mit niedriger Merkmalsausprägung von Probanden mit hoher Merkmalsausprägung?
• Äußeres Kriterium: Vergleich zweier Urteile (Gesamttests)
• Inneres Kriterium: Als Kriterium für die Merkmalsausprägung wird der Gesamtskalenwert (Test-Score: Summation der möglichen Einzelwerte) herangezogen: Vergleich zwischen Item-Score und Test-Score Inwieweit ist Itemantwort repräsentativ für die Gesamtskala?
Bestimmung der Trennschärfe
• I.d.R. wird die Trennschärfe anhand des inneren Kriteriums ermittelt.
Trennschärfe ist die Korrelation (r) zwischen Itemwert (i) und Test-Score (t) rit
Je nach Datenniveau (Antwortformat)
o Produkt-Moment-Korrelation (bei Ratingformaten)
o Punktbiseriale Korrelation (bei dichotomen Formaten)
o Phi-Koeffizient (selten)
• Problem: Jedes Item geht zweimal in die Berechnung ein: Einmal als Item-Score und einmal als Teil des Test-Score „künstliche“ Erhöhung der Korrelation (Selbstkorrelation)
• Deswegen sollte bei Trennschärfebestimmung eine „Part-Whole-Korrektur“ (Teil-Ganz-Korrektur) vorgenommen werden
o Korrelation des Itemwertes mit korrigiertem Testwert
o Korrigierter Testwert = Gesamttestwert – Itemwert
o V.a. bei Skalen mit wenigen Items wichtig, da hier Einfluss der Selbstkorrelation erheblich
Bewertung der Trennschärfe Je höher, desto besser. Aber: nur bis zu einem bestimmten Grad gültig! Trennschärfe von 1 ist unrealistisch. Daumenregel: rit > .40: in Ordnung .30 - .40: verbesserungswürdig .20 - .30: Verbesserung notwendig < .20: unbrauchbar
Konvergente und diskriminante Trennschärfe:
Die Trennschärfe dient dazu, Items zu identifizieren, die alle (hoch) mit demselben Kriterium korrelieren. (soll sichern, dass alle Items dasselbe Merkmal erfassen).
Problem: So gut wie kein Item erfasst nur ein einziges Merkmal, sondern schließt vielmehr auch andere Merkmalsanteile mit ein.
Item soll deutlich höher mit eigener als mit anderen Skalen korrelieren. = Die konvergente Trennschärfe soll höher ausfallen als die diskriminante Trennschärfe
Beispiel: Intelligenztest, der sich in mehrere Untertests gliedert.
• Konvergente Trennschärfe: Die Items des Untertests 1 sollen vor allem mit dem Test-Score 1 hoch korrelieren, die Items des Untertests 2 mit dem Test-Score 2.
• Diskriminante Trennschärfe: Darüber hinaus lasen sich die Items des Untertests 1 mit dem Test-Score 2 korrelieren, die Items des Untertests 2 mit dem Test-Score 1.
Trennschärfe und andere Itemkennwerte
• Die Trennschärfe steigt, wenn Items hoch miteinander korrelieren. rit =1
Sie fällt, wenn Items niedrig
miteinander korrelieren
• Zusammenhang p und rit - „Potenzial“-Kurve
Wenn p =0,50 und rit =1 ist die Differenzierung zwischen den Probanden am effizientesten.
C Homogenität
- Items einer Skala sollen dasselbe Merkmal messen/erfassen
- Sie erfassen aber nie genau dasselbe, sondern mehr oder weniger unterschiedliche Facetten des Merkmals
- Das Ausmaß, in dem Items tatsächlich dasselbe erfassen, wird als „Homogenität“ der Items bezeichnet
Es gibt verschiedene Konzepte von Homogenität
• Homogenität im Sinne einer Faktorenanalyse: Items lassen sich faktorisieren Homogen sind dann solche Items, die gemeinsam auf denselben Faktor (vergleichsweise) hoch laden.
• Homogenität im Sinne einer Guttman-Skala
• Homogenität im Sinne des Rasch-Modells
• In Testkonstruktion nach KTT versteht man darunter die „Aufgabeninterkorrelation“
o Für einzelnes Item: mittlere Korrelation des Items mit den anderen Items. Ein Item wird mit allen anderen Items korreliert und davon der Mittelwert ermittelt.
o Für Gesamtskala: mittlere Interkorrelation aller Items untereinander. Jedes Item wird mit allen anderen Items korreliert und davon der Mittelwert ermittelt.
o Je höher die Iteminterkorrelation desto homogener sind die Items (bzw. die Skala)
.20 ≤ rM ≤ .40
Homogenität und…
• …Trennschärfe: Homogenität ist eng mit Trennschärfe verbunden. (Drücken etwas ähnliches auf unterschiedliche Weise aus) Eine sehr homogen Skala bedeutet, dass die Items auch überwiegend hohe Trennschärfen aufweisen und umgekehrt.
• … Schwierigkeitsindex: Je mehr p streut, desto niedriger korrelieren die Items miteinander, desto heterogener ist der Test. (Gilt auch umgekehrt)
• … Konstruktionsart: Je nach Konstruktionsart resultieren homogene Skalen mehr oder weniger zwingend
o Bei faktorenanalytische Konstruktion resultieren zwangsläufig homogene Skalen
o Meist auch bei deduktiven Strategien eher homogenen Skalen
o Bei kriteriumsorientierter Konstruktion oft eher heterogene Skalen
Beispiel: (aus: Amelang & Ziellinski, 2006)
eher heterogene Skala
Itemselektion
Umfang der Selektion: Wie viele Items sollen aussortiert werden?
• Festgelegte Maximalzahl: Habe ich vorher beschlossen, dass mein Test nur zehn Fragen beinhalten soll, nehme ich einfach die zehn besten Items man behält nur die besten Items
• Angestrebte Mindestzahl: man behält Items bei soweit sie den Mindestkriterien entsprechen.
Welche Items behalte ich nun?
1. Inhaltliche Kriterien
• Sind bestimmte Items zu behalten, um als Eisbrecher zu dienen?
• Sind Items zu behalten, weil sie einen bestimmten Itemtyp repräsentieren:
• Kann man auf best. Items verzichten, weil genügend andere Items gleichen Inhalts vorliegen?
• Sind Items zu eliminieren, weil sie ethische Normen verletzen?
• Sind Items zu eliminieren, weil sie nicht anschaulich genug sind?
• Sind Items zu behalten, die einen besonders relevanten Inhalt repräsentieren?
2. Statistische Kriterien:
• P je nach Zielsetzung
o Bei einem Test der im Mittelbereich und nach außen differenzieren soll, nimmt man Items die im Mittelwert differenzieren und lässt sehr extreme Items eher weg.
o Bei der Differenzierung von Extremgruppen werden dagegen im Extrembereich differenzierende Items beibehalten
• Möglichst hohe Trennschärfe
• Berücksichtigung von Mindestanforderung
• Hohe Homogenität (falls kein heterogener Test)
• Abwägen von Trennschärfe und Schwierigkeit Selektionskennwert
a. Itemselektion bei homogenen Tests:
• Reine Orientierung an Trennschärfe kann zu übermäßig homogenen Skalen führen. Sel orientiert sich an Trennschärfe und Schwierigkeit.
• Für die Itemselektion gilt: Man wähle jene Items, die einen höheren Selektionskennwert haben.
o Bei gleicher Trennschärfe bevorzugt Sel „extremere“ Items und „lockert“ Skala so auf
o Bei gleicher Itemschwierigkeit bevorzugt Sel das trennschärfere Item
• Ein Item wird eher dann ausgewählt wenn es eine hohe Trennschärfe auch bei geringer Streuung hat. Es werden damit sehr gute Items für Extrembereiche ausgewählt.
• Wichtig: Sel sollte nicht rein schematisch gefolgt werden, sondern auch die Einzelkriterien sollten jeweils beachtet werden
b. Itemselektion bei heterogenen Tests: „Quartilmethode“: Verteilung der Löser über Quartile
(v. a. wenn zwei Items in Schwierigkeit und Trennschärfe übereinstimmen)