04 Probabilistische Testtheorie Flashcards
Probabilistische Testtheorie
- Zentrale Annahme: Itemantworten lediglich Indikatoren für eine latente Variable
- > Explizite Trennung von manifesten und latenten Variablen (KTT auf derselben Ebene)
- PTT haben strengere Annahmen als KTT -> mehr Prüfannahmen zur Verfügung
- Nachteile der KTT vermieden durch:
Getrennte Darstellung von Test- und Persönlichkeitscharakteristika
Stärkere Betrachtung der Itemebene
Latente und manifeste Variablen
- Klare Trennung
- Latente Variable wird in PTT auch tatsächlich formuliert:
Inwiefern beziehen sich sich Personen- bzw. Itemcharakteristika darauf? - Itemantworten (z.B. Frage Allgemeinwissen) durch latente Variable (z.B. Intelligenz) beeinflusst -> Interitemkorrelation
Lokale stochastische Unabhängigkeit
- Itemsatz homogen, wenn Itemkorrelation NUR durch latente Variable (Beta) bedingt ist
- > Dann Lokale stochastische Unabhängigkeit
- Bei Konstanthalten der latenten Variable müsste Korrelation der Items verschwinden
Itemcharakteristikkurven ICC
- Bilden Verhältnis des Items zum latenten Konstrukt ab
- Lösungswahrscheinlichkeit p eines Items in Abhängigkeit von Merkmalsausprägung der Person und Itemschwierigkeit dargestellt
- Personen mit hohem b können auch Items mit hohem d besser lösen
- Items beziehen sich auf gleiche Variable, aber unterschiedliche d
- Je nach Modell unterschiedliche ICC-Definition: Deterministisch vs. probabilistisch
Deterministische Modelle (Guttman-Skala)
- Sobald b kritische Grenze erreicht, wird Item mit bestimmtem d SICHER gelöst
- Problem der unrealistischen Annahme, dass Item auf jeden Fall gelöst wird
Probabilistische Modelle (Dichotomes Rasch-Modell)
- je höher b einer Person, desto WAHRSCHEINLICHER wird ein Item mit bestimmtem d gelöst
- Lösungswahrscheinlichkeit eines Items abhängig vom Unterschied zwischen b und d
Definition der Homogenität
- PTT bestrebt, homogene Skalen zu erstellen
- Items müssen bzgl. latentem Konstrukt regelmäßig verlaufende Wahrscheinlichkeitsfnktionen aufweisen
- Mindestanforderung: Monotone Funktionen (fallend oder steigend)
- Meist Vorgabe spezifischer Funktionen, denen ICC folgen muss (wie Items verlaufen sollen)
Vorteil: Einfachere Parameterbestimmung
Nachteil: Restriktiver
Dichotomes Rasch-Modell
- Anwendbar für dichotome Antwortmodelle
- Relativ einfaches Grundmodell, basiert auf logistischer Funktion -> Lösungswahrscheinlichkeit als Funktion von b und d
- Eigenschaften der logistischen Funktion im Rasch-Modell:
Je stärker b >d, desto wahrscheinlicher wird Aufgabe gelöst
p nähert sich asymptotisch den Werten 0 bzw. 1
Wenn b = d: p = 0,5
Vorteile:
- Lokale stochastische Unabhängigkeit
- Spezifische Objektivität der Vergleiche: Items unterscheiden sich nur bzgl. d
- > Stichprobenunabhängigkeit der Parameterschätzungen (Bestimmung von Unterschieden von d der Items unabhängig von Personen, die sie bearbeiten und Unterschiedde von b mit beliebigen Items des Satzes bestimmbar und analog)
- Anzahl der gelösten Aufgaben ist erschöpfende Statistik für Parameterschätzung
- Messung ist intervallskaliert
Parameterschätzung
- Zu Beginn einer testkonstruktion sind d und b nicht bekannt -> Ermittlung durch Parameterschätzung
- Ziel der Testkonstruktion: Ermittlung der Itemparameter, bei Durchführung Ermittlung von b anhand d (je nach Methode müssen aber bei Konstruktion d und b zusammen geschätzt werden)
- Bisher dargestellte Form der logistischen Funktion stellt vereinfachte Version zur Bestimmung der LÖSUNGSwahrscheinlichkeit dar -> Allgemeine Form
Maximum-Likelihood-Schätzung
- Parameter zunächst nicht bekannt, Schätzung per MLM -> Welche Parameter sind unter gegebenem Lösungsmuster einer Stichprobe am plausibelsten?
- Likelihood gibt an, wie wahrscheinlich die in Stichprobe gefundene Ergebnismatrix X für geschätzten Parameter b und d ist -> Zeigt an, welche Schätzer sinnvoller sind
- Ziel: Auffinden der Schätzer, die Likelihood maximieren
- Per Computer, da iterativ und extrem aufwendig
Modelltest für Rasch-Modell
- ML-Schätzer erbringt am Ende bestmögliche Parameterschätzung
- > d.h. Parameter so geschätzt, dass sie möglichst gut mit Testmodell übereinstimmen
- Aber: Bestmögliche Schätzung bedeutet nicht zwingend, dass Daten gut passen
- Modellkonformität muss geprüft werden, da Vorteile der Rasch-Skala nur gelten, wenn Modellannahmen für Itemsatz und Population auch erfüllt sind
- > Hierfür verschiedene statistische und grafische Methoden anwendbar
Modellanpassung:
- Fällt Modelltest negativ aus, ist Itemsatz nicht rasch-homogen für gegebene Population
- evtl. durch einzelne inhomogene Items bedingt -> Ausschluss von Items
- evtl. durch “inhomogene” Personen -> ggf. Personenselektion (Eingrenzung Geltungsbereich oder Ausschluss von Personen mit untypischen Bearbeitungsstilen)
- ggf. Alternatives Testmodell
1-PL-Modell (Rasch-Modell)
- Da außer Personenparameter nur EIN weiterer Parameter eingeht (Itemparameter)
- Daneben Erweiterungen
2-PL-Modell (Birnbaum-Modell)
- Zusätzlicher Diskriminationsparameter (entspricht ca. Trennschärfe)
- Items können mehr oder weniger steil verlaufen (beim 1-PL-Modell verlaufen Items parallel)
3-PL-Modell (Rate-Modell)
- Birnbaum-Modell mit zusätzlichem Rateparameter
(da Person mit niedrigem b auch richtig raten kann) - Je höher b, desto weniger kommt Raten ins Spiel
Weitere IRT-Modelle
Polytome Rasch-Modelle:
Verallgemeinerung für mehrfach gestufte Antwortformate
Mixed-Rasch-Modelle:
Erlauben Trennung von in sich homogenen Subpopulationen
Linear-logistische Modelle:
Itemparameter wird als Linearkombination weniger Basisparameter modelliert