VL 2: Klassische Testtheorie, Axiome Flashcards
Warum “Klassische” Testtheorie?
- vor über 50 Jahren entwickelt
- = historisch
- Abgrenzung zur probabilistischen Testtheorie
Warum klassische Testtheorie verwenden?
- theoretischer Hintergrund zur Konstruktion und Interpretation von Testverfahren
- bedeutsame theoretische Basis vieler psychodiagnostischer Testverfahren
KTT
= Klassische Testtheorie
Messfehlertheorie
IRT
= Item-Response-Theorie
Betrachtet Zusammenhang von latenter und manifester Variable
Axiom
Grundannahme, die nicht weiter hinterfragt wird
Axiome der KTT
• jeder Proband hat einen wahren Merkmalswert („true score“ τ )
• jede Messung des Merkmals besteht aus dem wahren Wert und
einem Messfehler („error“ ε )
• Axiome machen Annahmen über τ und ε, um die Genauigkeit einer
Messung einzuschätzen
zunächst Bezug auf den wahren Wert τvi eines einzelnen Pbn v in einem einzelnen Item i
Existenzaxiom
Der true score τvi existiert als Erwartungswert der Messungen xvi einer Person v in Item i.
τvi = E (xvi)
Beispiel: Existenzaxiom
Die wahre Stabhochsprungfähigkeit existiert als mittlere Leistung über unendlich viele Stabhoch- sprung-Durchgänge.
Verknüpfungsaxiom
Jede Messung xvi setzt sich aus einem wahren Wert τvi und einem zufälligen Messfehler εvi zusammen.
xvi = τvi + εvi
Dabei ist der Erwartungswert des Zufallsfehlers εvi Null.
E (εvi) = 0
Beispiel: Verknüpfungsaxiom:
Die Stabhochsprungleistung in einem Wettbewerb setzt sich zusammen aus der wahren Stabhoch- sprungleistung und dem Messfehler der aktuellen Messung.
und
Der Messfehler mittelt sich über unendlich viele Durchgänge aus.
Unabhängigkeitsaxiom
Die Korrelation zwischen den Messfehlern ε und den wahren Werten τ ist bei beliebigen Personen und beliebigen Items Null.
Corr(τvi, εvi) = 0
Beispiel: Unabhängigkeitsaxiom:
Der wahre Stabhochsprungleistungswert ist eine Konstante und korreliert daher auch nicht mit den Messfehlern.
und
Das gilt auch für den Zusammenhang von Messfehlern beim Stabhochsprung und den wahren Stabhochsprungwerten aller Personen einer Population.
Wie heißen die drei Axiome der klassischen Testtheorie?
Existenzaxiom, Verknüpfungsaxiom, Unabhängigkeitsaxiom
Das Existenzaxiom besagt, dass…
…ein “wahrer Wert” existiert. Dieser ist der Erwartungswert der Person.
Das Verknüpfungsaxiom besagt, dass…
…sich das Testergebnis aus wahrem Wert und Messfehler zusammensetzt.
Das Unabhängigkeitsaxiom besagt, dass…
…der wahre Wert und der Messfehler einer Person nicht miteinander korrelieren.
Zusatzannahmen
Paarweise Unabhängigkeit der Fehlervariablen…
a) Unabhängigkeit der Messfehler zwischen Items
Die Fehlerwerte der Messungen in Item i und Item j sind bei derselben Person v unkorreliert:
Corr(εvi, εvj) = 0
Beispiel: Zusatzannahmen:
a) Der Messfehler der Stabhochsprungleistung
bei 4m hängt bei derselben Person nicht mit dem Messfehler der Stabhochsprungleistung bei 4,50m zusammen.
b) Unabhängigkeit der Messfehler zwischen Personen
Die Fehlerwerte der Messungen mit demselben Item i sind bei beliebigen Personen v und w unkorreliert:
Corr(εvi, εwi) = 0
Beispiel: Zusatzannahmen:
b) Der Messfehler der Stabhochsprungleistung von Person A hängt nicht mit dem Messfehler der Stabhochsprungleistung von Person B zusammen.
Zwischen welchen 2 Dingen wird in den Zusatzannahmen ebenfalls eine Unkorreliertheit angenommen?
Messfehler: gleiche Person, unterschiedlicher Test
Messfehler: gleicher Test, unterschiedliche Person
Warum wird gefolgert, dass der Erwartungswert für den Messfehler 0 ist?
Weil der Erwartungswert für das Testergebnis der Person der “true score” ist und sich das Testergebnis aus wahrem Wert und Messfehler zusammensetzt (der somit 0 sein muss, weil der Erwartungswert sonst nicht mehr der wahre Wert sein könnte)
Wie groß ist der wahre Wert?
• wiederholte Messungen problematisch • Ausweg:
- mit verschiedenen Items ein Konstrukt messen - Testwert erstellen
Testwert xv *
• Zeilensumme
xv = Summe xvi
• Erwartungswert des Testwerts entspricht durch das Existenzaxiom dem wahren Wert τv
• Punktschätzer für den wahren Wert einer Person
xv = tv
• empirische Schätzung nicht sicher, daher Vertrauensintervall für τv bilden
Gütekriterien – was ist das?
- Instrument zur Qualitätsbeurteilung psychologischer Testverfahren
- Testhandbuch sollte über die Kriterien zufriedenstellend Auskunft geben
- Unterteilung in Hauptgütekriterien und Nebengütekriterien
Objektivität
Durchführungsobjektivität Auswertungsobjektivität
Interpretationsobjektivität
Das Ergebnis in einem Test ist unabhängig davon, welcher Versuchsleiter den Test durchführt, auswertet und interpretiert.
„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er
misst, unabhängig von Testleiter und Testauswerter misst. Außerdem müssen klare und anwenderunabhängige Regeln für die Ergebnisinterpretation vorliegen.“
Durchführungsobjektivität
- kontrollierte Durchführungsbedingungen (Ort, Zeit, Material) - unabhängig vom Testleiter (Versuchsleitereffekte vermeiden) - Standardisierung: Testperson ist einzige Variationsquelle
hoch bei z.B. PC-gestützten Verfahren
Auswertungsobjektivität
- Testergebnis nicht vom Testauswerter abhängig
- möglichst aufgrund des Testprotokolls direkt erschließbar
- ggf. Übereinstimmungskoeffizienten zwischen verschiedenen
Auswertern bestimmen
hoch bei z.B. Multiple-Choice-Aufgaben
Interpretationsobjektivität
- klare Regeln für die Interpretation der Testwerte
- verschiedene Anwender kommen bei einem Testwert zu
denselben Schlussfolgerungen - Hilfestellungen im Testmanual
Reliabilität
Reliabilität = Messgenauigkeit
Reliabilität bezeichnet das Ausmaß an Messgenauigkeit eines Messwerts bzw. eines Tests.
„Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt d.h. ohne Messfehler misst.“
- Retest-Rel.
- Paralleltest-Rel.
- Split-Half-Rel.
- Interne Konsistenz
Retest-Methode
Korrelation der Tests zu t0 und t1
Paralleltest-Methode
Korrelation der Testversionen
Split-Half-Methode
Halbierung nach: • odd-even • erste/zweite Hälfte • randomisiert • stratifiziert nach Trennschärfe, Schwierigkeit o.Ä
-> Minderungskorrektur per Spearman-Brown-Formel wg. geringerer Testlänge
Interne Konsistenz-Methode
Idee:
Mittlere Korrelation aller Items untereinander
(z.B. Cronbach‘s alpha, mittlere korrigierte Trennschärfe)
Reliabilität … in der KTT
Anteil der Varianz der wahren Werte τ an der Varianz der beobachteten Testwerte x
Rel = Var(τ) / Var(x)
-> Reliabilitätskoeffizient
Reliabilitätskoeffizient
Wertebereich: 0 bis 1
1 = Test misst fehlerfrei 0 = Test misst nur Fehler
• Test ist messgenauer/ reliabler, je größer der wahre Varianzanteil an der Gesamtvarianz ist
• mit zunehmender Fehlervarianz nimmt die Reliabilität ab
Problem
• theoretische Größen
• Schätzung der Reliabilität notwendig
Wie lässt sich die Reliabilität eines Tests steigern?
-> Zusammenhang Reliabilität und Testlänge
Reliabilität steigern, indem der Test um parallele Testteile
verlängert wird
Doppelte Testlänge
-> verdoppelt die Fehlervarianz und vervierfacht die wahre Varianz
• doppelte Testlänge (Hinzunahme eines parallelen Tests gleicher Länge l):
Rel(2l) = 2Rel / 1+Rel
• allgemein (Verlängerung um Faktor k): Spearman-Brown-Formel *
Rel(kl) = kRel / 1+(k-1)Rel