Testtheorien:Klassische &Item Response Theorie Flashcards
Was ist Messen
Messen ist die Zuordnung von Zahlen zu Merkmalen von Personen so dass die Zahlen die Relationen dieses Merkmals zwischen den Personen adäquat widerspiegeln
Konstrukte werden auch als
latente Variablen (verborgen) bezeichnet
beobachtbare/manifeste Variablen
Items bzw. Itemantworten
Indikatoren der latenten Variablen
Zentrale Anforderung an eindimensionale Tests bzw.Untertests
Die Beantwortung der Items sollte nur von einer einzigen Fähigkeit/Eigenschaft abhängen d.h. Unterschiede in der Atembeantwortung sind mit Unterschieden zwischen den Personen in der latenten Variable erklärbar
Warum sollten Tests/Untertests eindimensional sein?
Misst ein Test 2 Fähigkeiten oder Eigenschaften auf einmal ist eine klare Diagnosenstellung nicht möglich
Bsp:
Kind schneidet in zeitbegrenzten IQ Test schlecht ab
unklar:kind nicht intelligent oder nicht schnell genug?
Vorteil der KTT
einfache Anwendbarkeit,nützliches Handwerkszeug
in Praxis bewährt
Zentrale Annahme KTT
Jede Person hat einen wahren Wert der den Mittelwert (Erwartungswert) ihrer intraindividuellen Verteilung darstellt
Abweichung kommt durch Messfehler zustande (KTT=Messfehlertheorie)
Messfehler variiert von
Messung zu Messung
Axiom 1 KTT
Verhältnis wahrer Wert,beobachteter Wert,Messfehler
Jeder Beobachtete Wert (Xi) einer Person (i) in einem Test setzt sich additiv zusammen aus dem wahren Wert der Person (Ti) &einem Messfehler (Ei)
Der Messfehler repräsentiert dabei alle unkontrollierten&unsystematischen Störeinflüsse bei der Messung
Xi = Ti+Ei
Axiom 2 KTT
Erwartungswert des Messfehlers ist Null
Für jede Person stellt der Messfehler eine Zufallsvariable mit dem Erwartungswert (Mittelwert) Null &endlicher Varianz se2 dar, der für alle Pwronen gleich ist:
E(Ei)=0
Axiom 3 KTT
Messfehler ist unabhängig vom wahren Wert
Es gibt keinen Zusammenhang (Cov) zwischen dem Messfehler (E) & dem wahren Wert (T) einer Person (i)
Nov(ei,Ti)=0
Axiom 4 KTT
Messfehler sind unkorreliert
Die Korrelation zwischen den Fehlern zweier Tests ist null:
Nov(Ea,Eb)=0
Messfehler (E) eines Tests A (z.B. eines Konzentrationstests) hängt nicht zusammen mit Messfehler E eines Tests B (z.B. eines Leistungsmotivationstests)
Wenn die Fehlerwerte zweier Tests unkorreliert sind, muss Korrelation der beiden Testwerte allein auf wahren Zusammenhang der Merkmale zurückzuführen sein
Axiom 5:
Messfehler sind unabhängig von wahrem Wert in anderen Tests
Die Messfehler eines Tests korrelieren nicht mit den wahren Werten der Personen in einem anderen Test:
Cov (EA, TB) = 0
Beispiel:
Ausprägung in einem Merkmal B (z.B. Depressivität) hat
keinen Einfluss auf die Messgenauigkeit eines Verfahrens zur Messung von Merkmal A (Intelligenztest).
Die Reliabilität eines Tests ist
der Anteil der Varianz der wahren Werte (T) an der Varianz der beobachteten Werte (X):
Beispiel:
Beträgt Test‐Retest‐Reliabilität .80, dann kann man daraus folgern, dass 80% der beobachteten Varianz der Testwerte auf wahren Unterschieden zwischen den Testpersonen beruhen und 20% auf Fehlervarianz
Messpräzision wichtig für Aussagen über
die psychometrische Qualität des Testwerts in Bezug auf Einzelfallaussagen &Gruppenaussagen
Messpräzision
Psychologische Tests sind nicht perfekt messgenau daher kann das Ergebnis einer Person nicht ohne weiteres interpretiert werden (Messwert=Wahrer Wert+Messfehler(schwanken um den wahren Wert))
Vielmehr wird versucht, die mangelnde Messgenauigkeit bei der Interpretation von Testwerten zu berücksichtigen
Dazu wird ein Bereich angegeben, in dem der wahre Wert eines Probanden mit einer gewissen Wahrscheinlichkeit liegt
KI/Vertrauenintervall
das Konfidenzintervall gibt den Bereich an
in dem der wahre Testwert einer Person bei einer zuvor festgelegten Sicherheits‐ bzw.Irrtumswahrscheinlichkeit liegt
Bestimmung des Messfehlers
Se =Sx *Wurzel 1-rtt
Die Beurteilung einer person erfolgt meist
im Vergleich zu einer Normstichprobe
Als Grenzen für über&unterdurchschnittlich wird häufig
eine Standardabweichung gewählt
einfache oder doppelte Minderungskorrektur
Korrektur für Reliabilität bei Berechnung von Korrelationen
Nachteile KTT
Axiome nicht empirisch prüfbar
Axiome nicht durchgängig plausibel (höhere Messfehler bei höherer Merkmalsausprägung)
Nur zufällige Messfehler werden berücksichtigt, wobei systematische Messfehler in der Praxis häufig vorkommen
Parameter der KTT sind populations‐&stichprobenabhängig
„Nur“ eine Messfehlertheorie, keine Aussage über das Zustandekommen von Messwerten
-Ansatzpunkt der Item‐Response Theorie
Kernfrage der Item Response Theorie
Wie kommen Antworten auf Items zustande?
Um das Antwortverhalten auf die latenten Variablen zurückzuführen, müssen
die Items homogen sein, d. h. alle das gleiche Konstrukt messen.
Eindimensionalität gegeben, wenn
alle Items auf die gleiche latente Dimension zurückgehen (keine weitere latente Variable mit den Items gemessen wird) – z.B. unterschiedliche Matheaufgaben nur Konstrukt mathemat. Fähigkeit, nicht aber Textverständnis messen
Um Homogenität zu ermitteln, muss
lokale stochastische Unabhängigkeit der Items untereinander festgestellt werden
Unterschiede zwischen den Personen in latenten Variable sagen Unterschiede
in der Itembeantwortung vorher
Prüfung, indem latente Dimension auf bestimmtem Wert konstant gehalten wird (z.B. Personen mit IQ‐Wert = 100)
Erwartung bei Konstanthaltung:
Keine Korrelation zwischen den Items
Die Items sind lokal unabhängig
Gäbe es dennoch Korrelationen,
wären andere Variablen für das Zustandekommen der Unterschiede im Antwortverhalten verantwortlich und die Items wären nicht lokal unabhängig
unbekannte Personenfähigkeit
θ (Theta)
unbekannte Itemschwierigkeit
σ (Sigma)
Je größer die Differenz (θ − σ) zwischen Personenfähigkeit θ und Itemschwierigkeit σ ausfällt, desto
höher muss die Itemlösungswahrscheinlichkeit ausfallen!
Lösungswahrscheinlichkeit für bestimmtes Item (zu überspringende Latte) hängt ab von
A) Fähigkeit/Merkmalsausprägung der Person („hoch springen“) +
B) Schwierigkeit des Items (vorgegebene Höhe
ein Modell muss Annahmen treffen, welche Parameter an der Itemlösung beteiligt sind, im einfachsten Fall
die Personenfähigkeit θ (Theta) und die Itemschwierigkeit σ (Sigma)
ein Modell muss zudem Annahmen darüber treffen, welcher Zusammenhang zwischen diesen Modellparametern besteht
Sprungfunktion Guttman‐Modell (= deterministisches Modell)
Linearer Zusammenhang Binomialmodell (= probabilistisches Modell)
Logistischer Zusammenhang Rasch‐Modell (= das wichtigste probabilistische Modell)
Sprungfunktion Guttman‐Modell
(= deterministisches Modell)
Linearer Zusammenhang Binomialmodell
(= probabilistisches Modell)
Logistischer Zusammenhang Rasch‐Modell
(= das wichtigste probabilistische Modell)
Rasch‐Modelle
Gruppe von probabilistischen Latent‐Trait‐ Modellen, welche neben der lokalen stochastischen Unabhängigkeit über weitere vorteilhafte Modelleigenschaften verfügen. Zu nennen sind vor allem die erschöpfenden Statistiken, die Stichprobenunabhängigkeit der Parameterschätzungen und die spezifische Objekvität der Vergleiche.“
Dichotomes Rasch‐Modell
Gegenstand des dichotomen Rasch‐Modells sind Items, deren Antworten nur die Werte 1 oder 0 (z. B. Ja oder Nein, Richtig oder Falsch) annehmen können
Itemparameter ist definiert als
die Fähigkeitsausprägung von Personen, wenn die Lösungswahrschein‐ lichkeit eines Items bei p = .50 liegt.
Unterschiedliche Trennschärfen sind beim dichotomen Rasch‐Modell
unerwünscht.
Verletzung der spezifischen Objektivität
Entscheidender Vorteil des Rasch‐Modells liegt in
spezifische Objektivität…
Spezifische Objektivität
dass Vergleiche zwischen Personen gezogen werden können, unabhängig davon, welche Items beantwortet wurden, &dass Vergleiche zwischen Items gezogen werden können, unabhängig davon, welche Personen diese beantworteten.
Stichprobenunabhängig
Adaptives Testen
Testpersonen erhalten unterschiedliche Items
Verwendung von Items, die möglichst viel Information
über eine Person liefern
Ziel = Steigerung der Messeffizienz (Messpräzision/ Testdauer)
Oft nur 40‐60% der Items verglichen mit nicht‐adaptiver Testvorgabe nötig
positive Auswirkungen auf Ökonomie &Zumutbarkeit
taylored („maßgeschneidert“):
Schätzung des Personenparameters nach jedem Item ‐ nur in computerbasierten Testverfahren realisierbar
Beispiel: Frankfurter Adaptiver Konzentrationsleistungs‐ Test FAKT II (
branched („verzweigt“):
verschieden schwierige Itemblöcke, festes Vorgehen, Wahl des nächsten Itemblocks abhängig von Zahl der Lösungen im vorhergehenden Block
Messeffizienz suboptimal, aber bei Papier‐Bleistift‐ Testung möglich
Beispiel: Intelligenztest für Kinder und Jgdl. ‐ Adaptives Intelligenz Diagnostikum AID3
Mögliche Kriterien für die Beendigung des Tests
Unterschied zweier aufeinander folgender Schätzungen hinreichend klein
Standardfehler der Personenparameterschätzung hinreichend klein
bestimmte Maximalzahl von Items dargeboten
maximale Testzeit erreicht
alle Items im Itempool vorgelegt
Item‐Response‐Theorie
Vorteile
Separierbarkeit von Item& Personenparametern ermöglicht empirische Überprüfung von Skalierbarkeit, Eindimensionalität sowie Item‐&
Personenhomogenität
Ansatz überwindet einige Einschränkungen der KTT (nicht nur Annahme der Itemhomogenität wie in KTT, sondern auch Prüfung, spezifische Objektivität)
liefert methodische Grundlage für Adaptives Testen
Item‐Response‐Theorie
Imitationen
hoher Aufwand in Testkonstruktion – ausreichende Menge homogener Items muss gefunden werden – vor allem schwierig bei ungenauer Konstruktdefinition
Prüfung der Modellkonformität teilweise nicht einfach
nach wie vor noch weniger verbreitet
Kenntnis beider testtheoretischer Zugänge in jedem Fall sinnvoll &nützlich!
Annahme Lokale stochastische Unabhängigkeit
Alle Items messen dieselbe Lanzette Vraibale & deshalb korrelieren sie miteinander
Wieviel Informtion liefert ein Item über eine Person (Rasch Modell)
Infomenge abhängig von der Differenz zwischen Fähigkeit&Itemschwirigkeit
Maximale Info bei Itemschwirigkeit = Personenfähigkeit
D.h je mehr Items für eine Person mit gegebener Fähigkeit eine Lösungswahrscheinlichkeit nahe .50 haben,desto höher die Messgenauigkeit des Tests für Personen mit dieser Fähigkeit
—adaptives Testen
Start Adaptives Testen
Lösungswahrscheinlichkeit von 0,5 für durchschnittlichen Probanden (Vorinfo kann genutzt werden)
Oder Eisbrecher item (0,8 SD unterdes Mittelwert)
Adaptives Testen im Test Grundidee
Item gelöst schwieriges
Item nicht gelost leichteres