Probablistische Testtheorie Flashcards
Vorteile der KTT
Bislang vorwiegend mit Ideen beschäftigt, die auf die klassische Testtheorie zurückgehen. Warum?
• Auch heute noch überwiegend angewendet
• Relativ einfach in Konstruktion zu übersetzen
Probleme der KTT
• Die klassische Testtheorie beruht auf einer Fehlertheorie, die nicht psychologische fundiert ist. Die Axiome sind nicht abgeleitet aus einer psychologischen Reflexion oder eine psych. Theorie:
Keine Überprüfbarkeit (Plausibilität) der Grundannahmen
o Axiomatik der KTT ist in sich zwar schlüssig, aber stimmen auch die einzelnen Axiome?
o Axiomatik der KTT ist Voraussetzung für die Ableitung; sie sind nicht überprüfbar
• Die KTT setzt Daten auf dem Niveau einer Intervallskala voraus. Es werden zentrale Messwerte – Mittelwerte und Varianzen – berechnet. Es ist fraglich ob Testdaten das Niveau einer Intervallskala erreichen
• Der wahre Wert (latente Variable) wird als invariant (stabil) betrachtet. Doch kommen der psychischen Realität Annahmen näher, die besagen, dass die latenten Merkmale einer Person fluktuieren. Fragwürdig ob Fehlerwert und wahrer Wert tatsächlich nicht miteinander korrelieren, wie es die KTT postuliert.
• Annahmen zur Homogenität
o Gleichsetzung von Testwert und Merkmalsausprägung
o Intervallskalenannahme
setzt beides eindimensionales Konstrukt und vorhandene Homogenität voraus
Aber: Homogenität nur vage definiert und praktische Prüfung nur schwach (z.B. per Faktorenanalyse, Trennschärfe, Interitemkorrelationen)
• Stichprobenabhängigkeit: Ergebnisse der Tests die aus der KTT entwickelt wurden, sind abhängig von der jeweiligen Stichprobe
o Itemstichprobe: z.B. faktorenanalytische Dimensionierung
z.B. Trennschärfe eines Items hängt ab von anderen vorhandenen Items.
o Personenstichprobe: z.B. Reliabilitätsbestimmung
Wenn man Studenten fragt „Was ist die Hauptstadt von Deutschland“ ist es eine einfache Frage, wenn man 5 jährige Kinder das fragt ist es eine schwere Frage. = Abhängig von der Stichprobe ändert sich die Schwierigkeit der Items!
Tipp: Je größer der Bereich der wahren Werte (höherer Merkmalsbereich), desto höher ist die Reliabilität. Der gleiche Test hat unterschiedliche Reliabilitäten abhängig vom Ausmaß der Heterogenität der Stichprobe.
Reliabilität ist ein mittlerer Kennwert. Aber an bestimmten unterschiedlichen Stellen gilt eben nicht der mittlere Kennwert, sondern der bestimmte Kennwert an einer Stell der Verteilung. Diesen bestimmten Kennwert kann die KTT nicht ermitteln.
o Übertragung der Stichprobenergebnisse auf Einzelfall ist problematisch: z.B. Bestimmung des Konfidenzintervalls der Einzelmessung
• Folgerungen aus der KTT zeigen zum Teil paradoxe Effekte: z.B. Verdünnungsparadoxon, Reliabilitäts-Validitäts-Dilemma
Gesamtbewertung (Pragmatik versus Theorie)
• Theoretisch: KTT nicht mehr verwenden. Vor allem bezogen auf das Zustandekommen des Gesamttestwertes
• Praktisch: Nach KTT konstruierte Tests bewähren sich praktisch (die Tests funktionieren) und Konstruktion ist relativ unaufwendig
Neue Modelle der Item-Response-Theorie, die aus der Kritik an KTT erwuchsen und diese Probleme vermeiden sollen, als Alternative
- Grundgedanken und Itemcharakteristik-Funktion
Ziel: Konstruktion von Instrumenten, die messtheoretisch höheren Anforderungen genügen als Verfahren der KTT. Neue Theorie soll das Messniveau von Intervallskalen erreichen. Entwicklung der Probabilistischen Testtheorie (PTT; auch Item-Response-Theorie oder Latent-Trait-Modelle genannt)
Manifeste und latente Variablen
Zentrale Annahme: Itemantwortmöglichkeiten sind lediglich I ndikatoren für eine latente Variable explizite Trennung von manifesten und latenten Variablen
(vs. KTT: Testwert = Merkmalsausprägung)
Einfluss auf
Personenmerkmal Testverhalten
(latente Variable)
Einfluss der latenten Variable auf das manifeste Verhalten: Testverhalten ist durch latente Variable beeinflusst (Iteminterkorrelation)
Lokale stochastische Unabhängigkeit
Lokale stochastische Unabhängigkeit
• Ein Itemsatz ist homogen, wenn die Interkorrelation nur (und ausschließlich) durch die latente Variable (β) bedingt sind.
• Ist das der Fall, so spricht man von „lokaler stochastischer Unabhängigkeit“: Die Wahrsch., das eine Item zu lösen, hängt nicht von der Wahrscheinlichkeit ab ein anderes Item zu lösen.
• Prüfung der Unabhängigkeit:
o Hält man β konstant, korrelieren die Items nicht miteinander. Z.B. Ich nehme nur Menschen mit einem IQ von 110 bei einem Intelligenztest
o Multiplikationstheorem: p ([Item 1 & Item 2] | β) = p (Item 1| β) = p (Item 2 | β)
empirisch überprüfbar
KTT / PTT Fazit
Fazit
• PTT ist nicht viel anders als KTT, ist aber viel strenger als KTT
• Einige Nachteile der KTT werden vermieden, indem
o Test- und Personencharakteristika getrennt dargestellt werden können
o Stärkere Betrachtung der Itemebene
Definition von Itemcharakteristischen Funktionen
Items können per Itemcharakteristikkurven abgebildet werden
Grundannahmen PTT
Grundannahmen
• Jede Person lässt sich hinsichtlich ihrer Fähigkeit, ein bestimmtes Test-Item zu lösen, durch einen Messwert auf einer eindimensionalen Skala charakterisieren:
Personenparameter (latente Variable; β)
• Jedes Item lässt sich hinsichtlich seiner Schwierigkeit durch einen Messwert auf einer eindimensionalen Skala charakterisieren: Itemparameter (Testverhalten; δ)
• Beide Parameter lassen sich gemeinsam auf einer eindimensionalen Skala abbilden, sodass immer entscheidbar ist, ob die Fähigkeit der Person (β) größer oder kleiner als die Schwierigkeit des Items (δ) oder ihr gleich ist.
o Wenn die Fähigkeit der Person größer als die Schwierigkeit des Items ist folgt:
β > δ p > 0,50
o β < δ p < 0,50
o β = δ p = 0,50
• Der Zusammenhang zwischen der Lösung eines Items und den beiden Parametern ist probabilistisch, d.h. in Abhängigkeit von β und δ lässt sich dem Ereignis „Item wird gelöst“ eine bestimmte Wahrscheinlichkeit zuordnen.
Wahrscheinlichkeitsfunktion: Lösungswahrscheinlichkeit (p) eines Items wird in Abhängigkeit von der Merkmalsausprägung der Personen („Fähigkeit“) und den Anforderungen des Items („Itemschwierigkeit“) dargestellt: p = f (β – δ)
Itemcharakteristikkurven (ICC) und Wahrscheinlichkeitsfunktion
Itemcharakteristikkurven (ICC) und Wahrscheinlichkeitsfunktion
• ICC bilden Verhältnis des Items zum latenten Konstrukt (Wahrscheinlichkeitsfunktion) ab
• Je nach Modell unterschiedliche ICC-Definition
o z.B. Guttman-Skala: deterministisches Modell: Bei Items mit deterministischer ICC gilt, dass das Item auf jeden Fall gelöst wird, wenn die Fähigkeit der Person ausreichend ist unrealistische Annahme
o Probabilistische Modelle: Lösungswahrscheinlichkeit eines Items abhängig vom Unterschied zwischen β und δ
Definition der Homogenität
PTT
PTT ist bestrebt, homogene Skalen zu erstellen = Items müssen in Bezug auf das latente Konstrukt regelmäßig verlaufende Wahrscheinlichkeitsfunktionen aufweisen
• Mindestforderung: monotone Funktion
• würde schon reichen, führt aber zu immensem Rechenaufwand, um Personparameter zu bestimmen
meist werden spezifische Funktionen vorgegeben, denen ICC folgen muss
Dichotomes Raschmodell:
• Situation in der nur eine zweifach gestuften Antwort möglich ist: z.B. Eine Aufgabe wird gelöst oder nicht.
• Das Raschmodell greift auf die sog. Logistische Funktion zurück.
L (x) = ex / (1 + ex)
Eigenschaften: Die Logistische Funktion nähert sich dem Wert 0 und 1 asymptotisch an
o Sie erreicht nie die 0, weil ex nie 0 werden kann
o Sie erreicht nie die 1, weil der Zähler immer kleiner bleibt als der Nenner
• Wenn eine Aufgabe gelöst ist: x =1 Wenn eine Aufgabe nicht gelöst wird: x = 0
(xvi v = beliebige Person; i = Item)
• Bei xvi = 1 wird x mit β - δ ersetzt:
ex eβ-δ
p = =
1 + ex 1 + eβ-δ
• Bei xvi = 0 1/1+1 = 0,5 (d.h. Lösen des Items lässt sich auf Raten zurückführen)
Eigenschaften der logistischen Funktion im Rasch-Modell:
• Je stärker die die Merkmalsausprägung (Personenparameter β) die Anforderungen des Items (Itemparameter δ) übersteigt, desto wahrscheinlicher wird die Aufgabe gelöst
• p nähert sich in den Extremen asymptotisch an
o dem Werten 0 für β < δ
o dem Wert 1 für β > δ
• Wenn Personen- und Itemparameter (β = δ) identisch sind, ergibt sich p = 0,50
Vorteile von Rasch-Skalen
Itemsätze einer Rasch-Skala sind
• Homogen:
o Alle Items zeigen den gleichen Kurvenverlauf der Lösungswahrscheinlichkeiten p (in der ICC)
o Keine der Kurven darf eine andere schneiden.
o Die Kurven verlaufen an unterschiedlichen Stellen auf dem Item-Personenparameter-Kontinuum, gemäß der unterschiedlichen Schwierigkeit des Items.
• Lokal stochastisch unabhängig und repräsentieren demnach ein eindimensionales Konstrukt.
• Spezifisch objektiv
o Itemparameter können unabhängig davon welche Personen, die Items bearbeitet haben geschätzt werden
o Personenparameter können unabhängig davon welche Items des Itemsatzes bearbeitet werden geschätzt werden
Stichprobenunabhängigkeit
Parameterschätzung
und Schritte
Parameterschätzung
• Parameter (β und δ) sind zunächst nicht bekannt Im Rahmen der Konstruktion einer Rasch-Skala muss eine Parameterschätzung erfolgen
• Schätzung erfolgt nach Maximum-Likelihood-Methoden Welche Parameter sind unter dem Lösungsmuster einer Stichprobe am plausibelsten
• Exemplarische Schätzung (Beispiel Fisseni siehe Blatt im Anhang)
Schritte einer Parameterschätzung am Beispiel:
1. Erstellung einer Matrix von Schwierigkeitsindizes (Matrix I)
Die Annahmen
• Die Matrix der Schwierigkeitsindizes repräsentiert Lösungswahrscheinlichkeiten der Items, in die sowohl Personen- als auch Itemparameter eingehen.
• Die Personen lassen sich unterschiedlichen Tüchtigkeitsgruppen (A, B, C) zuordnen, die Items unterschiedlichen Schwierigkeitsklassen (1, 2, 3).
2. Transformation von Matrix I in eine Logit-Matrix (Matrix II)
Logit-Funktion: β - δ = ln [p /(1-p)]
• Die Differenz von Personen- und Itemparameter β – δ lässt sich ermitteln als natürlicher Logarithmus aus dem Quotienten des Schwierigkeitsindex p und seines Komplements (1-p).
• β – δ nennt man Logit.
3. Schätzung der Personen- und Itemparameter aus Matrix II (Matrix III)
• Festlegung: βA = 1.00
• Ermitteln der Werte über βA und Item 1:
o β – Logit = δ βA – A1 = δ1 (1.00 – 0.89 = 0,11)
o δ + Logit = β δ1 + B1(bzw. C1) = βB (bzw. βC) 0,11 + 1,45 (2,31) = 1,56 (2,42)
• Ermitteln von δ2 Problem: Für δ2 ergeben sich je nach Probanden-Gruppe unterschiedliche Werte. Deswegen wird das Mittel der drei Werte notiert.
• Ermitteln von δ3 gleiches Problem
4. Reproduktion der Ausgangsmatrix I aus Matrix III
a. Reproduktion (Matrix IV)
• Rückrechnung der Schwierigkeitsindizes p über die geschätzten Werte für β und δ.
Einsetzen der Schätzparameter in die Gleichung:
eβ-δ p = 1 + eβ-δ • Likelihoodschätzung gibt die bestmögliche Parameterschätzung Frage bleibt aber, ob diese Parameter gut mit den Items/Personen übereinstimmen b. Modelltest (Matrix V) • Im Modeltest wird geprüft, ob die Bedingungen des Rasch-Modells erfüllt sind. • Ist die Abweichung zwischen den neu ermittelten Werten und den realen Werten zu groß, sind die Bedingungen für ein Rasch-Modell nicht erfüllt! • Aufgrund der Stichprobenunabhängigkeit müssen die Parameterschätzung aus verschiedenen Stichproben zu gleichem Ergebnis führen o Statistische Prüfung: X²-Test Unterscheiden sich die neu ermittelten Werte zu den realen Werten NICHT signifikant gilt das Rasch-Modell als bestätigt und anwendbar. o Grafischer Test: Wenn Stichprobenhomogenität besteht, muss in verschiedenen Messungen (mit unterschiedlichen Stichproben) die gleiche (ähnliche) Schätzung vorliegen. Die Punkte sollten sich annähernd auf der Geraden befinden. • Modellanpassung: Sobald der Modelltest negativ ausfällt muss irgendwo ein Fehler liegen o inhomogene Items Ausschluss o inhomogene Personen Personenselektion 5. Standardisierung der ermittelten Personen- und Itemparameter