04 Probabilistische Testtheorie Flashcards

1
Q

Probabilistische Testtheorie

A
  • Zentrale Annahme: Itemantworten lediglich Indikatoren für eine latente Variable
  • > Explizite Trennung von manifesten und latenten Variablen (KTT auf derselben Ebene)
  • PTT haben strengere Annahmen als KTT -> mehr Prüfannahmen zur Verfügung
  • Nachteile der KTT vermieden durch:
    Getrennte Darstellung von Test- und Persönlichkeitscharakteristika
    Stärkere Betrachtung der Itemebene
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Latente und manifeste Variablen

A
  • Klare Trennung
  • Latente Variable wird in PTT auch tatsächlich formuliert:
    Inwiefern beziehen sich sich Personen- bzw. Itemcharakteristika darauf?
  • Itemantworten (z.B. Frage Allgemeinwissen) durch latente Variable (z.B. Intelligenz) beeinflusst -> Interitemkorrelation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Lokale stochastische Unabhängigkeit

A
  • Itemsatz homogen, wenn Itemkorrelation NUR durch latente Variable (Beta) bedingt ist
  • > Dann Lokale stochastische Unabhängigkeit
  • Bei Konstanthalten der latenten Variable müsste Korrelation der Items verschwinden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Itemcharakteristikkurven ICC

A
  • Bilden Verhältnis des Items zum latenten Konstrukt ab
  • Lösungswahrscheinlichkeit p eines Items in Abhängigkeit von Merkmalsausprägung der Person und Itemschwierigkeit dargestellt
  • Personen mit hohem b können auch Items mit hohem d besser lösen
  • Items beziehen sich auf gleiche Variable, aber unterschiedliche d
  • Je nach Modell unterschiedliche ICC-Definition: Deterministisch vs. probabilistisch
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Deterministische Modelle (Guttman-Skala)

A
  • Sobald b kritische Grenze erreicht, wird Item mit bestimmtem d SICHER gelöst
  • Problem der unrealistischen Annahme, dass Item auf jeden Fall gelöst wird
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Probabilistische Modelle (Dichotomes Rasch-Modell)

A
  • je höher b einer Person, desto WAHRSCHEINLICHER wird ein Item mit bestimmtem d gelöst
  • Lösungswahrscheinlichkeit eines Items abhängig vom Unterschied zwischen b und d
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Definition der Homogenität

A
  • PTT bestrebt, homogene Skalen zu erstellen
  • Items müssen bzgl. latentem Konstrukt regelmäßig verlaufende Wahrscheinlichkeitsfnktionen aufweisen
  • Mindestanforderung: Monotone Funktionen (fallend oder steigend)
  • Meist Vorgabe spezifischer Funktionen, denen ICC folgen muss (wie Items verlaufen sollen)
    Vorteil: Einfachere Parameterbestimmung
    Nachteil: Restriktiver
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Dichotomes Rasch-Modell

A
  • Anwendbar für dichotome Antwortmodelle
  • Relativ einfaches Grundmodell, basiert auf logistischer Funktion -> Lösungswahrscheinlichkeit als Funktion von b und d
  • Eigenschaften der logistischen Funktion im Rasch-Modell:
    Je stärker b >d, desto wahrscheinlicher wird Aufgabe gelöst
    p nähert sich asymptotisch den Werten 0 bzw. 1
    Wenn b = d: p = 0,5

Vorteile:

  • Lokale stochastische Unabhängigkeit
  • Spezifische Objektivität der Vergleiche: Items unterscheiden sich nur bzgl. d
  • > Stichprobenunabhängigkeit der Parameterschätzungen (Bestimmung von Unterschieden von d der Items unabhängig von Personen, die sie bearbeiten und Unterschiedde von b mit beliebigen Items des Satzes bestimmbar und analog)
  • Anzahl der gelösten Aufgaben ist erschöpfende Statistik für Parameterschätzung
  • Messung ist intervallskaliert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Parameterschätzung

A
  • Zu Beginn einer testkonstruktion sind d und b nicht bekannt -> Ermittlung durch Parameterschätzung
  • Ziel der Testkonstruktion: Ermittlung der Itemparameter, bei Durchführung Ermittlung von b anhand d (je nach Methode müssen aber bei Konstruktion d und b zusammen geschätzt werden)
  • Bisher dargestellte Form der logistischen Funktion stellt vereinfachte Version zur Bestimmung der LÖSUNGSwahrscheinlichkeit dar -> Allgemeine Form
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Maximum-Likelihood-Schätzung

A
  • Parameter zunächst nicht bekannt, Schätzung per MLM -> Welche Parameter sind unter gegebenem Lösungsmuster einer Stichprobe am plausibelsten?
  • Likelihood gibt an, wie wahrscheinlich die in Stichprobe gefundene Ergebnismatrix X für geschätzten Parameter b und d ist -> Zeigt an, welche Schätzer sinnvoller sind
  • Ziel: Auffinden der Schätzer, die Likelihood maximieren
  • Per Computer, da iterativ und extrem aufwendig
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Modelltest für Rasch-Modell

A
  • ML-Schätzer erbringt am Ende bestmögliche Parameterschätzung
  • > d.h. Parameter so geschätzt, dass sie möglichst gut mit Testmodell übereinstimmen
  • Aber: Bestmögliche Schätzung bedeutet nicht zwingend, dass Daten gut passen
  • Modellkonformität muss geprüft werden, da Vorteile der Rasch-Skala nur gelten, wenn Modellannahmen für Itemsatz und Population auch erfüllt sind
  • > Hierfür verschiedene statistische und grafische Methoden anwendbar

Modellanpassung:

  • Fällt Modelltest negativ aus, ist Itemsatz nicht rasch-homogen für gegebene Population
  • evtl. durch einzelne inhomogene Items bedingt -> Ausschluss von Items
  • evtl. durch “inhomogene” Personen -> ggf. Personenselektion (Eingrenzung Geltungsbereich oder Ausschluss von Personen mit untypischen Bearbeitungsstilen)
  • ggf. Alternatives Testmodell
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

1-PL-Modell (Rasch-Modell)

A
  • Da außer Personenparameter nur EIN weiterer Parameter eingeht (Itemparameter)
  • Daneben Erweiterungen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

2-PL-Modell (Birnbaum-Modell)

A
  • Zusätzlicher Diskriminationsparameter (entspricht ca. Trennschärfe)
  • Items können mehr oder weniger steil verlaufen (beim 1-PL-Modell verlaufen Items parallel)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

3-PL-Modell (Rate-Modell)

A
  • Birnbaum-Modell mit zusätzlichem Rateparameter
    (da Person mit niedrigem b auch richtig raten kann)
  • Je höher b, desto weniger kommt Raten ins Spiel
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Weitere IRT-Modelle

A

Polytome Rasch-Modelle:
Verallgemeinerung für mehrfach gestufte Antwortformate

Mixed-Rasch-Modelle:
Erlauben Trennung von in sich homogenen Subpopulationen

Linear-logistische Modelle:
Itemparameter wird als Linearkombination weniger Basisparameter modelliert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Merkmalsmessung in diagnostischer Anwendung

A
  • Merkmalsmessung nach IRT: Schätzung des Personenparameters (man will ja Person und nicht Item diagnostizieren)
  • per MLM möglich: Schätzung des b, der Ergebnisstruktur am besten wiedergibt
  • Vorteil dichotomes Rasch-Modell ggü. anderen IRT-Varianten:
    Summe gelöster Items ist suffiziente Statistik -> Schätzung des Parameter über Anzahl gelöster Items
  • Zusätzlich können auf Basis von IRT-Tests individuelle Vertrauensbereiche ermittelt werden
17
Q

Adaptives Testen

A
  • Normale Testung: Jeder Pbn bearbeitet alle Items in festgelegter Reihenfolge
  • Adaptives Testen: Abhängig von vorherigen Antworten jene Items präsentiert, die am meisten Information versprechen
  • > Testung kann verkürzt werden, ohne an Genauigkeit einzubüßen (oft reicht Hälfte der Items eines normalen Tests um mit gleicher Präzision zu messen)
  • Stichprobenunabhängigkeit als zentrale Voraussetzung
  • > b muss mit verschiedenen Itemauswahlen geschätzt werden können
  • Ist auf Grundlage der KTT nicht möglich
    Messung nach KTT setzt Verwendung des vollständigen Itemsatzes voraus
    Adaptiver Test muss auf Itemsatz basieren, der IRT-modellkonform ist (lokale stochastische Unabhängigkeit)
18
Q

Auswahlalgorithmen (Adaptives Testen)

A

Wann sollte welches Item vorgelegt werden?

  • Testbeginn: Meist mittelschwere Items
  • Verlauf des Tests:
    Grundregel: Wenn Item gelöst, als nächstes schwierigeres Item ausgewählt und umgekehrt

Branched Testing: (Einfache Strategie)

  • Welches Item bei welcher Antwort auf bestimmtes Item ausgewählt wird, VOR Testbeginn festgelegt
  • Somit viele Möglichkeiten für Testzusammensetzung

Tailored Testing: Maßgeschneiderte Strategie

  • Erlaubt feinere Auswahl der angemessenen Items
  • Aufwendiger (Suche nach informationsreichstem Item: dauerndes Abschätzen von b nötig, Anpassung)
  • > Computerbasierte Strategie
19
Q

Abbruchkriterien (Adaptives Testen)

A

Möglich, beim AT verschiedene Abbruchkriterien anzulegen und teils zu kombinieren:

  • Nach bestimmter Zahl von Items oder Testzeit
  • Wenn Standardfehler der Schätzung von b hinreichend klein
  • Worst Case: Nach Vorlage aller Items
20
Q

Fazit: KTT vs. IRT

A

Anwendungen von Prinzipien der KTT und IRT schließen sich nicht aus -> PTT geht eher nur über KTT hinaus

Reliabilität:

  • IRT-Modelle: Keine Bestimmung der allgemeinen Reliabilität eines Tests, jeweils individuell
  • Reliabilität eines IRT-basierten Itemsatzes lässt sich nach Regeln der KTT bestimmen

Validität:

  • Bei IRT Konstruktvalidität im Zentrum
  • Kriterienbezogene Validität (KTT-Konzept) kann auch bestimmt werden