Klassische Testtheorie Flashcards
Definition KTT
Unter klassischer Testtheorie versteht man ein System syntaktischer Aussagen, an dem sich seit Beginn dieses Jahrhunderts die Konstruktion von Tests orientierte.
„Klassisch“
• da schon vor über 50 Jahren erstmals systematisch formuliert (Gulliksen, 1950)
• von Lord und Novick 1968 erneut überarbeitet und systematisiert
• geht auf pragmatische Überlegungen hinsichtlich der Konstruktion von Tests zurück, die seit Beginn des 20. Jhdt. Entwickelt wurden.
• In Abgrenzung zu „modernen“ Testtheorien (Item-Response-Theorie; probabilistische Modelle)
Trotz aller (theoretischer) Kritik ist KTT nach wie vor sehr weit verbreitet
• Viele Tests wurden (und werden) auf der Grundalge der KTT konstruiert.
• KTT in der Erstellung von Tests einfach und vom Aufwand gering deswegen beliebt
• Tests haben sich in praktischer Anwendung bewährt
KTT orientiert sich an physikalischer Messung
• Reine Messfehlertheorie
• Keine Aussagen zu Zusammenhängen von psychischen Merkmalen und Testverhalten
• Keine Unterscheidung von latenten und manifesten Variablen
Messwert wird mit der Merkmalsausprägung gleichgesetzt (Test als direkte Operationalisierung des in Frage stehenden Merkmals)
Axiomatik der KTT
Axiomatik der KTT
Kern der KTT bildet eine Reihe von Axiomen
• Axiome stellen nicht hinterfragten Grundannahmen dar (Axiom = grundlegende Annahme)
o Bilden ein in sich logisches System
o Nicht beweisbar, nur mehr oder weniger plausibel
• In der KTT beziehen sich die Axiome auf die Eigenschaften des „wahren Wert“ (zu messender Wert) und des Messfehlers
• Die Axiome erlauben praktisch sinnvolle Ableitungen, die im Rahmen der Testkonstruktion nutzbar gemacht werden können Aussagen zu Qualität von Testverfahren
Axiome der KTT
1. Axiom: Grundmodell der Messung
• Verknüpfungsaxiom: Messwert (Xi) setzt sich additiv aus dem wahren Wert (Ti; „true score“) und einem Fehler (Ei; „error“) zusammen. Xi = Ti + Ei
• Beispiel: Ein Intelligenztest (X) erbringt ein Ergebnis, das sich zusammensetzt aus
o Der „wahren“ Intelligenz (T)
o Einem Messfehler (E), z.B.: Müdigkeit, Kopfweh, … unsystematisch, zufällig
• Messfehlerkonzept umfasst alle unsystematischen Einflüsse auf das Testergebnis
2. Axiom: Zufälligkeit der Fehlereinflüsse μE = 0
• Der Erwartungswert, der Mittelwert und die Summe der Fehler sind gleich Null.
• Fehleranteil mittelt sich über viele Messungen aus Im Schnitt macht man keine Fehler
• Nur wenn man in der Lage ist, den wirklichen Wert wirklich zu messen, wenn auch manchmal etwas ungenau
• In Vereinigung mit dem 1. Axiom gilt: μX = μT + μE μX = μT bzw. E(X) = T
Das was wir im Messergebnis erfassen ist der beste Schätzer für den tatsächlichen Wert (Existenzaxiom)
• X ist also erwartungstreuer Schätzer von T
• Voraussetzung: Je Individuum íst der wahre Wert stabil (invariant), während der Fehler variieren kann.
3. Axiom: Unabhängigkeit von Fehler und wahrem Wert ρT,E = 0
Ergibt sich streng genommen bereits aus dem Existenzaxiom, da bei Abhängigkeit der Fehler systematisch wäre.
Zusatzannahmen
4. Axiom: ρE1,E2 = 0 (Unabhängige Messungen sind unabhängig. Der Fehler in Messung 1 hat nichts mit dem Fehler in Messung 2 zu tun.)
5. Axiom: ρE1,T2 = 0 (Fehler einer Messung ist unabhängig vom wahren Wert einer anderen Messung.)
Auch: Unabhängigkeit der Fehlerwerte zweier Personen
Standardmessfehler
Standardmessfehler
• Maß für die Ungenauigkeit, die bei einer Messung, mit einem konkreten Testverfahren zu befürchten ist
• Standardmessfehler berücksichtigt
o Reliabilität eines Instrumentes
o sowie die Merkmalsstreuung, die bei dem Instrument zu beobachten ist
• Standardmessfehler kann genutzt werden zur
o Bestimmung von Konfidenzintervallen bei einer individuellen Messung
o Vergleich zweier Testleistungen
Zwischen Personen
Innerhalb der Person
Zwischen Subtests
Bestimmung von Konfidenzintervallen bei einer individuellen Messung
• Testwert gilt in KTT als Punktschätzung für den wahren Wert
• In Verbindung mit Standardmessfehler kann man darüber hinaus eine Intervallschätzung vornehmen, um die Unsicherheit des Messwertes zu veranschaulichen
Konfidenzintervall (KI):
(mit z(/2) 1.96 bei 95%-KI oder mit z(/2) 2.58 bei 99%-KI)
Vergleich zweier Testleistungen
- Zwischen Personen und innerhalb der Person
• Testwerte aus dem gleichen Testverfahren können miteinander vergleichen werden
• Unterschiede zwischen zwei Personen
• Veränderungen bei wiederholter Messung z.B. Verlaufskontrolle von Behandlung u.ä.
• Vorgehen bei Prüfung auf Überzufälligkeit von Unterschieden ist hierbei identisch
• Statistische Absicherung der Testwertdifferenzen von zwei Testpersonen A und B
• Im Prinzip wie bei Vergleich von Gruppenmittelwerten (z.B. t-Test)
Es muss die Streuung der Differenzen bestimmt werden:
- Parallel gilt für Standardmessfehler:
- Da s²E(A) = s²E(A) (es handelt sich ja um den gleichen Test):
• Signifikanzprüfung des Unterschieds der Testwerte zweier Personen:
- Zwischen Subtests
• V.a. der Vergleich von Subtestleistungen interessiert in der diagnostischen Praxis häufig
• „Profilinterpretationen“
• auch dabei muss die Ungenauigkeit der Messungen berücksichtigt werden: Interpretation kleiner Unterschiede ist nicht stichhaltig, da sie womöglich zufällig sind
Bestimmung kritischer Differenzen
• Überlegung ähnlich wie zuvor, aber:
o Reliabilitäten von Subtests (oder auch verschiedenen Testverfahren) sind i.d.R. nicht identisch
o es müssen also beide Reliabilitätskennwerte berücksichtigt werden
KTT Fazit
Fazit
• Vorsicht: Reliabilität und Standardmessfehler sind Gruppencharakteristika
o Standardmessfehler gibt quasi den „durchschnittlichen“ Messfehler eines Testverfahrens über viele Personen hinweg an!
o Der tatsächliche Messfehler kann bei einer Messung im Einzelfall deutlich niedriger, aber auch deutlich höher sein (man kennt ihn nicht)
• Übertragbarkeit auf den individuellen Fall ist somit durchaus kritikwürdig