Testtheorie und Testkonstruktion 2 Flashcards
Eindimensionale Modelle für Antwortvariablen mit geordneten Antwortkategorien: Geordnete Antwortkategorien (!), univariate Verteilung kategorialer Variablen mit geordneten Antwortkategorien (Itemschwierigkeit; relativer Infogehalt), Unabhängigkeit (wann gegeben?) und Zusammenhangsmaße (welche gibt es?)
- Kategoriale Variablen mit geordneten Antwortkategorien
> Kategorien im Sinne der Zu- bzw. Abnahme der Merkmalsausprägung geordnet
Beispiele Likert-Skalen:
- Erhebung d Grads Zustimmung bzw. Ablehnung bei Erfassung einer Einstellung / Perskeitseigenschaft
- Bewertung von Leistungen mittels Schulnoten, Werte von 1 (erste
Kategorie) bis 6 (sechste Kategorie) aufweisen
- Bei Lösung einer Leistungsaufg kodieren, ob überhaupt nicht, teilweise oder vollständig gelöst
Eindimensionale Modelle für Antwortvariablen mit geordneten Antwortkategorien:
Geordnete Antwortkategorien, univariate Verteilung kategorialer Variablen mit geordneten Antwortkategorien (Itemschwierigkeit (!); relativer Infogehalt)(!), Unabhängigkeit (wann gegeben?) und Zusammenhangsmaße (welche gibt es?)
Itemschwierigkeit:
- Ein Item ist umso leichter im Sinne der Konstruktausprägung zu beantworten, je höher sein Lagemaß ist
> Bei ordinalen V ist der Median ein geeignetes Lagemaß
Streuung: Streuungsmaße geben an, inwieweit sich Personen auf einer
Variablen unterscheiden
- Maß für Streuung bei kategor V: Relativer Infogehalt (RI)
- In Population nimmt RI Wert 1 an, wenn alle WSKs gleich sind (V gleichverteilt)
> Bei kategorialem Item optimale Situation, da jede Kategorie in gleichem Umfang genutzt wird u so ihre Berechtigung hat
- Im Ggsatz dazu nimmt RI Wert 0 an, wenn nur eine Kategorie besetzt ist, alle anderen Kategorien eine WSK von 0 aufweisen
> Aus testtheoret Sicht ungünstigster Fall (nur eine Kategorie genutzt u keine Untersch zw Personen)
Eindimensionale Modelle für Antwortvariablen mit geordneten Antwortkategorien:
Geordnete Antwortkategorien, univariate Verteilung kategorialer Variablen mit geordneten Antwortkategorien (Itemschwierigkeit; relativer Infogehalt), Unabhängigkeit (wann gegeben?) (!) und Zusammenhangsmaße (welche gibt es?) (!)
- Kategoriale V sind dann unabhängig, wenn WSK eines Antwortmusters = Produkt der Einzelwahrscheinlichkeiten (zB Chi^2-Tests)
- Zur Analyse d Abhängigkeit zweier kategor V mit geordneten Antwkategorien gibt es versch Assoziationsmaße
> Assoziationsmaß für zwei ordinalskalierte V aus testtheoret Sicht: γ-Koeffizient
» Erweiterung des Q-Koeffizienten nach Yule auf V mit mehr als zwei geordneten Kategorien
Partial-Credit-Modell:
- Was ist es, wovon geht es aus, was sind die Modellannahmen (!) (hier auch Begriffe wie Schwellenwahrscheinlichkeit und Schwellenparameter,
Kategorienwahrscheinlichkeit, -charakteristikfunktion, -charakteristik,
Itemcharakteristik)
- Erweiterung d Rasch-Modells für kategor V mit geordneten Antwkategorien
- Annahme: Beobachtbaren Itemantworten liegt gemeinsame kontinuierliche latente V zugrunde
- Um Modell herzuleiten, werden Kategorien zunächst aufsteigend nummeriert
- Typischer Anwendungsfall: Alle Items haben selbe Anzahl an Kategorien
> Erlaubt jedoch auch untersch Anzahl - Zunächst werden immer nur zwei Kategorien betrachtet (Antwortwskn zweier benachbarter Kategorien)
- Modellannahme: Item- und Kategorienhomogenität => Schwellenwskn aller Kategorien aller betrachteten Items folgen Rasch-Modell
- Modellannahme: Bedingte (lokale) stochastische Unabhängigkeit beobachtbarer V
Partial-Credit-Modell:
- Was ist es, wovon geht es aus, was sind die Modellannahmen (hier auch Begriffe wie Schwellenwahrscheinlichkeit und Schwellenparameter (!),
Kategorienwahrscheinlichkeit, -charakteristikfunktion, -charakteristik,
Itemcharakteristik)
Schwellenwahrscheinlichkeit: Name ergibt sich aus Interpretation d Wsksverhältnisses als Wsk, d Schwelle von unterer zu oberer Kategorie zu überspringen
Schwellenparameter: Je größer der Wert einer Person auf der latenten V η ist, umso größer ist die WSK, die obere Kategorie im Vgl zur darunter liegenden Kategorie zu wählen (Schnittpunkt zw zwei Kategorien)
Wenn…
Personwert = Schwellenparameter: WSK, obere bzw darunterliegende Kategorie zu wählen ist gleich (WSK = 0,5)
Personwert > Schwellenparameter: Person präferiert obere Kategorie im Vgl zur darunterliegenden
Personwert < Schwellenparameter: Person bevorzugt untere Kategorie im Vgl zur darüberliegenden
=> Interpretation d Schwellenparameters entspricht Interpretation d Schwierigkeitsparameters im Rasch-Modell (Punkt auf latenter V, ab d höhere Kategorie im Vgl zur darunterliegenden bevorzugt wird)
Partial-Credit-Modell:
- Was ist es, wovon geht es aus, was sind die Modellannahmen (hier auch Begriffe wie Schwellenwahrscheinlichkeit und Schwellenparameter,
Kategorienwahrscheinlichkeit (!), -charakteristikfunktion, -charakteristik,
Itemcharakteristik)
- Personwert wird mit allen unter der Kategorie liegenden Schwellen vgl
- Zähler wird umso größer, je größer Differenzen aus Personenwert u Schwellenparametern werden
- Um dritte Kategorie zu wählen, muss Person hohe Übergangswsk von erster zu zweiter u von zweiter zu dritter Kategorie aufweisen
- Bedingte Kategorienwsk hängt nicht nur von Differenzen aus Personenwert u unteren Schwellen, sondern über d Nenner auch von Differenzen d Personenwertes u d oberen Schwellen ab
> Kategorienwsks mittlerer Kategorien werden mit Zunahme d latenten Personenwerte nicht immer größer, sondern fallen nach Erreichen eines Maximums wieder ab - Welche Kategorie von einer Person mit einem Personenwert am stärksten präferiert wird, hängt von allen Schwellenparametern ab
Partial-Credit-Modell:
- Was ist es, wovon geht es aus, was sind die Modellannahmen (hier auch Begriffe wie Schwellenwahrscheinlichkeit und Schwellenparameter,
Kategorienwahrscheinlichkeit, -charakteristikfunktion, -charakteristik, (!)
Itemcharakteristik)
- Abhängigkeit d bedingten Kategorienwsk von latenter V wird
=> Kategoriencharakteristikfunktion, kurz: Kategoriencharakteristik genannt
Eigenschaften der Kategoriencharakteristiken:
1. WSK d ersten Kategorie nimmt ab, je größer Wert d latenten V wird
2. WSK d höchsten Kategorie nimmt zu, je größer Wert d latenten V wird
3. WSKs d mittleren Kategorien nehmen zunächst mit Zunahme d Werte d latenten V bis zu max Wert zu, um dann wieder abzunehmen
4. Schnittpunkte d Kategoriencharakteristiken entspr Schwellenparametern
> Am Schnittpunkt zweier Kategoriencharakteristiken ist bedingte WSK entsprechender Kategorien gleich groß
5. Schnittpunkte d Kategoriencharakteristiken (Schwellenparameter) entspr Wendepunkten d Schwellenwsks
> Wenn Personenwert größer als Wendepunkt ist, präferiert Person höhere Kategorie im Vgl zur darunterliegenden (bed Kategorienwsk ist daher für höhere Kategorie auch größer als für darunterliegende)
Partial-Credit-Modell:
- Was ist es, wovon geht es aus, was sind die Modellannahmen (hier auch Begriffe wie Schwellenwahrscheinlichkeit und Schwellenparameter,
Kategorienwahrscheinlichkeit, -charakteristikfunktion, -charakteristik,
Itemcharakteristik) (!)
- Will man entspr Maß für gesamtes Item betrachten, kann man auf Itemcharakteristik zurückgreifen, d im Partial-Credit-Modell als Abhängigkeit d bedingten Erwartung d Items von latenter V definiert wird
- Im Falle eines dichotomen Items entspr Itemcharakteristik d
Itemcharakteristik d dichotomen Rasch-Modells
> Im dichotomen Fall müssen Itemcharakteristiken parallel verlaufen (Rasch-Modell), bei mehrkategorialen Items nicht mehr zwingend - Die Steigung der Itemcharakteristiken sind umso steiler, je geringer die Differenzen zweier benachbarter Schwellenparameter sind
Partial-Credit-Modell:
- Methoden der Schätzung der Itemparameter und Personenwerte & Methoden zur Überprüfung der Modellgültigkeit (Welche gibt es, auf welche Aspekte beziehen sie sich?) (!)
Schätzung der Itemparameter:
- unbedingte Maximum-Likelihood-Schätzmethode,
- bedingte Maximum-Likelihood-Schätzmethode,
- marginale Maximum-Likelihood-Schätzmethode.
Schätzung der Personenwerte:
- unbedingte Maximum-Likelihood-Schätzmethode,
- gewichtete Maximum-Likelihood-Schätzmethode,
- Bayes-Schätzmethoden
=> Wie beim dichotomen Rasch-Modell schätzt man zunächst die Itemparameter und darauf aufbauend Personenwerte (geht hier nicht gleichzeitig)
Modellgültigkeit des Partial-Credit-Modells beziehen sich auf drei Aspekte:
- Gleichheit der Itemparameter in Subpopulationen,
- Wahrscheinlichkeitsverteilung der Antwortmuster und globale Modellgültigkeit,
- Gleichheit der Personenwerte in reduzierten Rasch-Modellen
Partial-Credit-Modell:
- Spezialfälle des Partial-Credit-Modells: welche gibt es hier und was sind
grundlegende Annahmen dieser Modelle (z. B. Abstände der Schwellenparameter) (!)
- Spezialfälle ergeben sich aufgrund von Restriktionen, d man auf Schwellenparameter legt
> Rost (2004) unterscheidet
1. Ratingskalenmodell (Gleiche Schwellenabstände zw Items),
2. Äquidistanzmodell (Schwellenabstände innerhalb eines Items gleich groß)
3. Dispersionsmodell (Vereint erste Modelle, mittlere Schwellenabstände, die Untersch in Kategorienbreiten repräsentieren, mittlere Schwellenabstände werden durch itemspezifischen Dispersionsparameter gestaucht / gestreckt)
Eindimensionale Modelle für metrische Antwortvariablen
o Metrische Variablen, univariate Verteilung (wesentliche Kennwerte der Verteilung), typische Zusammenhangsmaße von metrischen Antwortvariablen
Metrische Variablen:
- Weisen mind Intervallskalenniveau auf
- Interpretation von Abständen ist bedeutsam
- Lassen sich anhand ihrer Wsksverteilung beschreiben
Bsp für metrische Antwortvariablen: Reaktionszeiten zB zur Erfassung d Verarbeitungsgeschwindigkeit oder impliziter Einstellungen (zB emotionale Klarheit)
Wesentl Kennwerte metrischer Variablen:
- Erwartungswert (entspr hier Itemschwierigkeit) als Lagemaß
- Varianz u Standardabweichung als Dispersionsmaße
Typische Zshangsmaße: Kovarianz u Produkt-Moment-Korrelation
Eindimensionale Modelle für metrische Antwortvariablen
o Grundzüge der Klassischen Testtheorie: Wahrer Wert und Messfehler (!),
Eigenschaften der Messfehler- und True-Score-Variablen (!), Reliabilität, Unreliabilität, Bestimmung des wahren Wertes (welche Methoden/Schätzwerte gibt es?), Regression zur Mitte
Wahrer Wert / true score: Personenbedingter Erwartungswert einer Person m
> Erwartungswert der intraindividuellen Verteilung einer beobachtbaren V
Messfehler: Wenn Person in sehr kurzen Zeitabständen wiederholt mit selbem Messinstrument gemessen wird, würde nicht immer derselbe Wert entstehen
> Um Person bzgl Merkmal zu charakterisieren, würde man Mittelwert dieser wiederholten Messungen bestimmen
=> Beobachteter Messwert (Testwert) setzt sich aus einem wahren Wert plus Messfehler (error score) zs
Eigenschaften Messfehler- u True-Score-Variablen:
- Erwarteter Messfehler für jede Person ist gleich 0
- Erwarteter Messfehler ist über alle Personen hinweg gleich 0
- Messfehlervariable ist mit jeder True-Score-Variablen unkorreliert
- Beobachtbare Untersch setzen sich aus wahren u fehlerbed Untersch zs
Eindimensionale Modelle für metrische Antwortvariablen
o Grundzüge der Klassischen Testtheorie: Wahrer Wert und Messfehler,
Eigenschaften der Messfehler- und True-Score-Variablen, Reliabilität (!), Unreliabilität (!), Bestimmung des wahren Wertes (welche Methoden / Schätzwerte gibt es?), Regression zur Mitte
- Reliabilität (Determinationskoeffizient) = Varianzanteil d True-Score-Variablen an der Gesamtvarianz
- Wertebereich liegt zw 0 u 1
> Reliabilität nimmt Wert 0 an, wenn Varianz d True-Score-Variablen = 0
> Sie nimmt Wert 1 an, wenn Varianz d Fehlervariablen = 0 - Normiertes Effektgrößenmaß, um Zuverlässigkeit einer Messung zw versch Messinstrumenten zu vgl
- Sie ist klein wenn < 0,8 und groß, wenn > 0,9
- Größe der Reliabilität hängt vom Ausmaß wahrer Unterschiede u so auch von Auswahl der Personengruppe ab, die man betrachtet
> Wählt man Gruppe aus, die bzgl wahrer Werte relativ homogen ist (zB Hochbegabte bei Intelligenzmessung), ist Reliabilität bei gleicher Messfehlervarianz kleiner, als wenn bei Gruppe, die sich in ihren wahren Merkmalswerten sehr stark unterscheidet - Personengruppen, die mit demselben Test untersucht wurden, in Bezug auf Zuverlässigkeit des Messinstruments vgl => Fehlervarianz nutzen
> Untersch, die auf Vtlg der True-Score-Variablen zurückgehen ausschließen - Personen anhand unterschiedl Messinstrumente, die sich in ihrer Metrik unterscheiden können: Reliabilität zum Vgl dieser Messinstrumente
> Messfehlervarianzen zw versch Messinstrumenten sind schwerer zu vgl - Reliabilität standardisiert Unterschiede, sodass zwei Messungen trotz Unterschieden in der Metrik in Bezug auf Einfluss des Messfehlers vgl werden können
- Gegenstück zur Reliabilität: Unreliabilität spiegelt Anteil d Messfehlervarianz an beobachtbarer Varianz wider
=> Reliabilität u Unreliabilität addieren sich zu 1, sodass es ausreicht, einen der beiden Koeffizienten anzugeben
Eindimensionale Modelle für metrische Antwortvariablen
o Grundzüge der Klassischen Testtheorie: Wahrer Wert und Messfehler,
Eigenschaften der Messfehler- und True-Score-Variablen, Reliabilität, Unreliabilität, Bestimmung des wahren Wertes (welche Methoden/Schätzwerte gibt es?) (!), Regression zur Mitte
- Methode: Beobachteter Wert als Schätzwert für wahren Wert
- Erwartungstreuer Schätzer, da personenbedingter Erwartungswert einer V gleich dem wahren Wert ist
- Präzision, mit d wahrer Wert geschätzt werden kann, hängt von Fehlervarianz dieser Person ab (je größer, desto ungenauer)
> Zur Bestimmung d Präzision kann Konfidenzintervall gebildet werden - Methode: Wahrer Wert wird im Rahmen einer einfachen linearen Regressionsanalyse aus beobachtetem Wert vorhergesagt
- Regressionsgewicht der linearen Regressionsgleichung entspricht Reliabilität
> Je geringer Reliabilität, desto weniger wird beobachteter Wert u desto stärker wird Erwartungswert d beobachtbaren V gewichtet
- Präzision d Schätzung hängt von Standardabweichung d Residuums (Standardschätzfehler) in Regressionsgleichung ab
> Beide Standardabweichungen sind gleich, wenn keine Messfehler
und perfekte Messungen vorliegen
> Regressionsanalytische Schätzmethode führt zu geringerem Schätzfehler u größerer Präzision d Schätzung
Eindimensionale Modelle für metrische Antwortvariablen
o Grundzüge der Klassischen Testtheorie: Wahrer Wert und Messfehler,
Eigenschaften der Messfehler- und True-Score-Variablen, Reliabilität, Unreliabilität, Bestimmung des wahren Wertes (welche Methoden/Schätzwerte gibt es?), Regression zur Mitte (!)
- Durch regressionsanalytische Schätzung wird Phänomen d Regression zur Mitte berücksichtigt
- Personen werden anhand eines Messinstrumentes, das messfehlerbehaftet ist, gemessen
> Gibt zwangsläufig Personen, die (z. T. aufgrund des Messfehlers) vglw stark nach oben hin vom Mittelwert abweichen, u Personen, die (z. T. aufgrund des Messfehlers) vglw stark nach unten hin vom Mittelwert abweichen - Wenn diese Messung mit demselben Instrument wiederholt wird, ist aufgr d Zufälligkeit d Messfehlers zu erwarten, dass Personen, d bei erster Messung stark nach oben hin abgewichen waren, bei Wiederholungsmessung Tendenz einen kleineren Wert als bei Erstmessung aufweisen u umgekehrt