Testtheorie und Testkonstruktion 2 Flashcards
Eindimensionale Modelle für Antwortvariablen mit geordneten Antwortkategorien: Geordnete Antwortkategorien (!), univariate Verteilung kategorialer Variablen mit geordneten Antwortkategorien (Itemschwierigkeit; relativer Infogehalt), Unabhängigkeit (wann gegeben?) und Zusammenhangsmaße (welche gibt es?)
- Kategoriale Variablen mit geordneten Antwortkategorien
> Kategorien im Sinne der Zu- bzw. Abnahme der Merkmalsausprägung geordnet
Beispiele Likert-Skalen:
- Erhebung d Grads Zustimmung bzw. Ablehnung bei Erfassung einer Einstellung / Perskeitseigenschaft
- Bewertung von Leistungen mittels Schulnoten, Werte von 1 (erste
Kategorie) bis 6 (sechste Kategorie) aufweisen
- Bei Lösung einer Leistungsaufg kodieren, ob überhaupt nicht, teilweise oder vollständig gelöst
Eindimensionale Modelle für Antwortvariablen mit geordneten Antwortkategorien:
Geordnete Antwortkategorien, univariate Verteilung kategorialer Variablen mit geordneten Antwortkategorien (Itemschwierigkeit (!); relativer Infogehalt)(!), Unabhängigkeit (wann gegeben?) und Zusammenhangsmaße (welche gibt es?)
Itemschwierigkeit:
- Ein Item ist umso leichter im Sinne der Konstruktausprägung zu beantworten, je höher sein Lagemaß ist
> Bei ordinalen V ist der Median ein geeignetes Lagemaß
Streuung: Streuungsmaße geben an, inwieweit sich Personen auf einer
Variablen unterscheiden
- Maß für Streuung bei kategor V: Relativer Infogehalt (RI)
- In Population nimmt RI Wert 1 an, wenn alle WSKs gleich sind (V gleichverteilt)
> Bei kategorialem Item optimale Situation, da jede Kategorie in gleichem Umfang genutzt wird u so ihre Berechtigung hat
- Im Ggsatz dazu nimmt RI Wert 0 an, wenn nur eine Kategorie besetzt ist, alle anderen Kategorien eine WSK von 0 aufweisen
> Aus testtheoret Sicht ungünstigster Fall (nur eine Kategorie genutzt u keine Untersch zw Personen)
Eindimensionale Modelle für Antwortvariablen mit geordneten Antwortkategorien:
Geordnete Antwortkategorien, univariate Verteilung kategorialer Variablen mit geordneten Antwortkategorien (Itemschwierigkeit; relativer Infogehalt), Unabhängigkeit (wann gegeben?) (!) und Zusammenhangsmaße (welche gibt es?) (!)
- Kategoriale V sind dann unabhängig, wenn WSK eines Antwortmusters = Produkt der Einzelwahrscheinlichkeiten (zB Chi^2-Tests)
- Zur Analyse d Abhängigkeit zweier kategor V mit geordneten Antwkategorien gibt es versch Assoziationsmaße
> Assoziationsmaß für zwei ordinalskalierte V aus testtheoret Sicht: γ-Koeffizient
» Erweiterung des Q-Koeffizienten nach Yule auf V mit mehr als zwei geordneten Kategorien
Partial-Credit-Modell:
- Was ist es, wovon geht es aus, was sind die Modellannahmen (!) (hier auch Begriffe wie Schwellenwahrscheinlichkeit und Schwellenparameter,
Kategorienwahrscheinlichkeit, -charakteristikfunktion, -charakteristik,
Itemcharakteristik)
- Erweiterung d Rasch-Modells für kategor V mit geordneten Antwkategorien
- Annahme: Beobachtbaren Itemantworten liegt gemeinsame kontinuierliche latente V zugrunde
- Um Modell herzuleiten, werden Kategorien zunächst aufsteigend nummeriert
- Typischer Anwendungsfall: Alle Items haben selbe Anzahl an Kategorien
> Erlaubt jedoch auch untersch Anzahl - Zunächst werden immer nur zwei Kategorien betrachtet (Antwortwskn zweier benachbarter Kategorien)
- Modellannahme: Item- und Kategorienhomogenität => Schwellenwskn aller Kategorien aller betrachteten Items folgen Rasch-Modell
- Modellannahme: Bedingte (lokale) stochastische Unabhängigkeit beobachtbarer V
Partial-Credit-Modell:
- Was ist es, wovon geht es aus, was sind die Modellannahmen (hier auch Begriffe wie Schwellenwahrscheinlichkeit und Schwellenparameter (!),
Kategorienwahrscheinlichkeit, -charakteristikfunktion, -charakteristik,
Itemcharakteristik)
Schwellenwahrscheinlichkeit: Name ergibt sich aus Interpretation d Wsksverhältnisses als Wsk, d Schwelle von unterer zu oberer Kategorie zu überspringen
Schwellenparameter: Je größer der Wert einer Person auf der latenten V η ist, umso größer ist die WSK, die obere Kategorie im Vgl zur darunter liegenden Kategorie zu wählen (Schnittpunkt zw zwei Kategorien)
Wenn…
Personwert = Schwellenparameter: WSK, obere bzw darunterliegende Kategorie zu wählen ist gleich (WSK = 0,5)
Personwert > Schwellenparameter: Person präferiert obere Kategorie im Vgl zur darunterliegenden
Personwert < Schwellenparameter: Person bevorzugt untere Kategorie im Vgl zur darüberliegenden
=> Interpretation d Schwellenparameters entspricht Interpretation d Schwierigkeitsparameters im Rasch-Modell (Punkt auf latenter V, ab d höhere Kategorie im Vgl zur darunterliegenden bevorzugt wird)
Partial-Credit-Modell:
- Was ist es, wovon geht es aus, was sind die Modellannahmen (hier auch Begriffe wie Schwellenwahrscheinlichkeit und Schwellenparameter,
Kategorienwahrscheinlichkeit (!), -charakteristikfunktion, -charakteristik,
Itemcharakteristik)
- Personwert wird mit allen unter der Kategorie liegenden Schwellen vgl
- Zähler wird umso größer, je größer Differenzen aus Personenwert u Schwellenparametern werden
- Um dritte Kategorie zu wählen, muss Person hohe Übergangswsk von erster zu zweiter u von zweiter zu dritter Kategorie aufweisen
- Bedingte Kategorienwsk hängt nicht nur von Differenzen aus Personenwert u unteren Schwellen, sondern über d Nenner auch von Differenzen d Personenwertes u d oberen Schwellen ab
> Kategorienwsks mittlerer Kategorien werden mit Zunahme d latenten Personenwerte nicht immer größer, sondern fallen nach Erreichen eines Maximums wieder ab - Welche Kategorie von einer Person mit einem Personenwert am stärksten präferiert wird, hängt von allen Schwellenparametern ab
Partial-Credit-Modell:
- Was ist es, wovon geht es aus, was sind die Modellannahmen (hier auch Begriffe wie Schwellenwahrscheinlichkeit und Schwellenparameter,
Kategorienwahrscheinlichkeit, -charakteristikfunktion, -charakteristik, (!)
Itemcharakteristik)
- Abhängigkeit d bedingten Kategorienwsk von latenter V wird
=> Kategoriencharakteristikfunktion, kurz: Kategoriencharakteristik genannt
Eigenschaften der Kategoriencharakteristiken:
1. WSK d ersten Kategorie nimmt ab, je größer Wert d latenten V wird
2. WSK d höchsten Kategorie nimmt zu, je größer Wert d latenten V wird
3. WSKs d mittleren Kategorien nehmen zunächst mit Zunahme d Werte d latenten V bis zu max Wert zu, um dann wieder abzunehmen
4. Schnittpunkte d Kategoriencharakteristiken entspr Schwellenparametern
> Am Schnittpunkt zweier Kategoriencharakteristiken ist bedingte WSK entsprechender Kategorien gleich groß
5. Schnittpunkte d Kategoriencharakteristiken (Schwellenparameter) entspr Wendepunkten d Schwellenwsks
> Wenn Personenwert größer als Wendepunkt ist, präferiert Person höhere Kategorie im Vgl zur darunterliegenden (bed Kategorienwsk ist daher für höhere Kategorie auch größer als für darunterliegende)
Partial-Credit-Modell:
- Was ist es, wovon geht es aus, was sind die Modellannahmen (hier auch Begriffe wie Schwellenwahrscheinlichkeit und Schwellenparameter,
Kategorienwahrscheinlichkeit, -charakteristikfunktion, -charakteristik,
Itemcharakteristik) (!)
- Will man entspr Maß für gesamtes Item betrachten, kann man auf Itemcharakteristik zurückgreifen, d im Partial-Credit-Modell als Abhängigkeit d bedingten Erwartung d Items von latenter V definiert wird
- Im Falle eines dichotomen Items entspr Itemcharakteristik d
Itemcharakteristik d dichotomen Rasch-Modells
> Im dichotomen Fall müssen Itemcharakteristiken parallel verlaufen (Rasch-Modell), bei mehrkategorialen Items nicht mehr zwingend - Die Steigung der Itemcharakteristiken sind umso steiler, je geringer die Differenzen zweier benachbarter Schwellenparameter sind
Partial-Credit-Modell:
- Methoden der Schätzung der Itemparameter und Personenwerte & Methoden zur Überprüfung der Modellgültigkeit (Welche gibt es, auf welche Aspekte beziehen sie sich?) (!)
Schätzung der Itemparameter:
- unbedingte Maximum-Likelihood-Schätzmethode,
- bedingte Maximum-Likelihood-Schätzmethode,
- marginale Maximum-Likelihood-Schätzmethode.
Schätzung der Personenwerte:
- unbedingte Maximum-Likelihood-Schätzmethode,
- gewichtete Maximum-Likelihood-Schätzmethode,
- Bayes-Schätzmethoden
=> Wie beim dichotomen Rasch-Modell schätzt man zunächst die Itemparameter und darauf aufbauend Personenwerte (geht hier nicht gleichzeitig)
Modellgültigkeit des Partial-Credit-Modells beziehen sich auf drei Aspekte:
- Gleichheit der Itemparameter in Subpopulationen,
- Wahrscheinlichkeitsverteilung der Antwortmuster und globale Modellgültigkeit,
- Gleichheit der Personenwerte in reduzierten Rasch-Modellen
Partial-Credit-Modell:
- Spezialfälle des Partial-Credit-Modells: welche gibt es hier und was sind
grundlegende Annahmen dieser Modelle (z. B. Abstände der Schwellenparameter) (!)
- Spezialfälle ergeben sich aufgrund von Restriktionen, d man auf Schwellenparameter legt
> Rost (2004) unterscheidet
1. Ratingskalenmodell (Gleiche Schwellenabstände zw Items),
2. Äquidistanzmodell (Schwellenabstände innerhalb eines Items gleich groß)
3. Dispersionsmodell (Vereint erste Modelle, mittlere Schwellenabstände, die Untersch in Kategorienbreiten repräsentieren, mittlere Schwellenabstände werden durch itemspezifischen Dispersionsparameter gestaucht / gestreckt)
Eindimensionale Modelle für metrische Antwortvariablen
o Metrische Variablen, univariate Verteilung (wesentliche Kennwerte der Verteilung), typische Zusammenhangsmaße von metrischen Antwortvariablen
Metrische Variablen:
- Weisen mind Intervallskalenniveau auf
- Interpretation von Abständen ist bedeutsam
- Lassen sich anhand ihrer Wsksverteilung beschreiben
Bsp für metrische Antwortvariablen: Reaktionszeiten zB zur Erfassung d Verarbeitungsgeschwindigkeit oder impliziter Einstellungen (zB emotionale Klarheit)
Wesentl Kennwerte metrischer Variablen:
- Erwartungswert (entspr hier Itemschwierigkeit) als Lagemaß
- Varianz u Standardabweichung als Dispersionsmaße
Typische Zshangsmaße: Kovarianz u Produkt-Moment-Korrelation
Eindimensionale Modelle für metrische Antwortvariablen
o Grundzüge der Klassischen Testtheorie: Wahrer Wert und Messfehler (!),
Eigenschaften der Messfehler- und True-Score-Variablen (!), Reliabilität, Unreliabilität, Bestimmung des wahren Wertes (welche Methoden/Schätzwerte gibt es?), Regression zur Mitte
Wahrer Wert / true score: Personenbedingter Erwartungswert einer Person m
> Erwartungswert der intraindividuellen Verteilung einer beobachtbaren V
Messfehler: Wenn Person in sehr kurzen Zeitabständen wiederholt mit selbem Messinstrument gemessen wird, würde nicht immer derselbe Wert entstehen
> Um Person bzgl Merkmal zu charakterisieren, würde man Mittelwert dieser wiederholten Messungen bestimmen
=> Beobachteter Messwert (Testwert) setzt sich aus einem wahren Wert plus Messfehler (error score) zs
Eigenschaften Messfehler- u True-Score-Variablen:
- Erwarteter Messfehler für jede Person ist gleich 0
- Erwarteter Messfehler ist über alle Personen hinweg gleich 0
- Messfehlervariable ist mit jeder True-Score-Variablen unkorreliert
- Beobachtbare Untersch setzen sich aus wahren u fehlerbed Untersch zs
Eindimensionale Modelle für metrische Antwortvariablen
o Grundzüge der Klassischen Testtheorie: Wahrer Wert und Messfehler,
Eigenschaften der Messfehler- und True-Score-Variablen, Reliabilität (!), Unreliabilität (!), Bestimmung des wahren Wertes (welche Methoden / Schätzwerte gibt es?), Regression zur Mitte
- Reliabilität (Determinationskoeffizient) = Varianzanteil d True-Score-Variablen an der Gesamtvarianz
- Wertebereich liegt zw 0 u 1
> Reliabilität nimmt Wert 0 an, wenn Varianz d True-Score-Variablen = 0
> Sie nimmt Wert 1 an, wenn Varianz d Fehlervariablen = 0 - Normiertes Effektgrößenmaß, um Zuverlässigkeit einer Messung zw versch Messinstrumenten zu vgl
- Sie ist klein wenn < 0,8 und groß, wenn > 0,9
- Größe der Reliabilität hängt vom Ausmaß wahrer Unterschiede u so auch von Auswahl der Personengruppe ab, die man betrachtet
> Wählt man Gruppe aus, die bzgl wahrer Werte relativ homogen ist (zB Hochbegabte bei Intelligenzmessung), ist Reliabilität bei gleicher Messfehlervarianz kleiner, als wenn bei Gruppe, die sich in ihren wahren Merkmalswerten sehr stark unterscheidet - Personengruppen, die mit demselben Test untersucht wurden, in Bezug auf Zuverlässigkeit des Messinstruments vgl => Fehlervarianz nutzen
> Untersch, die auf Vtlg der True-Score-Variablen zurückgehen ausschließen - Personen anhand unterschiedl Messinstrumente, die sich in ihrer Metrik unterscheiden können: Reliabilität zum Vgl dieser Messinstrumente
> Messfehlervarianzen zw versch Messinstrumenten sind schwerer zu vgl - Reliabilität standardisiert Unterschiede, sodass zwei Messungen trotz Unterschieden in der Metrik in Bezug auf Einfluss des Messfehlers vgl werden können
- Gegenstück zur Reliabilität: Unreliabilität spiegelt Anteil d Messfehlervarianz an beobachtbarer Varianz wider
=> Reliabilität u Unreliabilität addieren sich zu 1, sodass es ausreicht, einen der beiden Koeffizienten anzugeben
Eindimensionale Modelle für metrische Antwortvariablen
o Grundzüge der Klassischen Testtheorie: Wahrer Wert und Messfehler,
Eigenschaften der Messfehler- und True-Score-Variablen, Reliabilität, Unreliabilität, Bestimmung des wahren Wertes (welche Methoden/Schätzwerte gibt es?) (!), Regression zur Mitte
- Methode: Beobachteter Wert als Schätzwert für wahren Wert
- Erwartungstreuer Schätzer, da personenbedingter Erwartungswert einer V gleich dem wahren Wert ist
- Präzision, mit d wahrer Wert geschätzt werden kann, hängt von Fehlervarianz dieser Person ab (je größer, desto ungenauer)
> Zur Bestimmung d Präzision kann Konfidenzintervall gebildet werden - Methode: Wahrer Wert wird im Rahmen einer einfachen linearen Regressionsanalyse aus beobachtetem Wert vorhergesagt
- Regressionsgewicht der linearen Regressionsgleichung entspricht Reliabilität
> Je geringer Reliabilität, desto weniger wird beobachteter Wert u desto stärker wird Erwartungswert d beobachtbaren V gewichtet
- Präzision d Schätzung hängt von Standardabweichung d Residuums (Standardschätzfehler) in Regressionsgleichung ab
> Beide Standardabweichungen sind gleich, wenn keine Messfehler
und perfekte Messungen vorliegen
> Regressionsanalytische Schätzmethode führt zu geringerem Schätzfehler u größerer Präzision d Schätzung
Eindimensionale Modelle für metrische Antwortvariablen
o Grundzüge der Klassischen Testtheorie: Wahrer Wert und Messfehler,
Eigenschaften der Messfehler- und True-Score-Variablen, Reliabilität, Unreliabilität, Bestimmung des wahren Wertes (welche Methoden/Schätzwerte gibt es?), Regression zur Mitte (!)
- Durch regressionsanalytische Schätzung wird Phänomen d Regression zur Mitte berücksichtigt
- Personen werden anhand eines Messinstrumentes, das messfehlerbehaftet ist, gemessen
> Gibt zwangsläufig Personen, die (z. T. aufgrund des Messfehlers) vglw stark nach oben hin vom Mittelwert abweichen, u Personen, die (z. T. aufgrund des Messfehlers) vglw stark nach unten hin vom Mittelwert abweichen - Wenn diese Messung mit demselben Instrument wiederholt wird, ist aufgr d Zufälligkeit d Messfehlers zu erwarten, dass Personen, d bei erster Messung stark nach oben hin abgewichen waren, bei Wiederholungsmessung Tendenz einen kleineren Wert als bei Erstmessung aufweisen u umgekehrt
Eindimensionale Modelle für metrische Antwortvariablen
o Das Modell essenziell τ-äquivalenter Variablen:
- Modellannahmen (!)
- Methoden der Schätzung der Itemparameter (welche gibt es hier allgemein?
Was ist der Leichtigkeitsparameter? Wozu Fehlervarianzen und Varianz? Auch
Bewertung des Reliabilitätskoeffizienten, Bestimmung der Reliabilität aber
nicht notwendig) und Personenwerte (v. a. Annahmen der Maximum Likelihood-Schätzung)
- Modellannahme: Essenzielle τ-Äquivalenz
- Versch True-Score-Variablen (TSV) erfassen gemeinsame latente V η
- TSV untersch sich nur um einen Wert δi von latenter V
> TSV = Translationen d gemeinsamen latenten V η
- Spezif Objektivität ist ggb - Modellannahme: Unkorreliertheit d Fehlervariablen
- Annahme bedeutet, dass Partialkorrelationen der beobachtbaren Variablen Yi gleich 0 sind, wenn latente Variable η auspartialisiert wird
> Latente V η erklärt somit alle korrelativen Zshänge zw beobachtbaren V
Eindimensionale Modelle für metrische Antwortvariablen
o Das Modell essenziell τ-äquivalenter Variablen:
- Modellannahmen
- Methoden der Schätzung der Itemparameter (welche gibt es hier allgemein? (!) Was ist der Leichtigkeitsparameter? Wozu Fehlervarianzen und Varianz? Auch Bewertung des Reliabilitätskoeffizienten, Bestimmung der Reliabilität aber nicht notwendig) und Personenwerte (v. a. Annahmen der Maximum Likelihood-Schätzung)
- Zur Schätzung d Parameter greift man im Modell essenziell τ-äquivalenter V auf Mittelwerte, Varianzen u Kovarianzen beobachtbarer V zurück
Zwei Methoden:
- Maximum-Likelihood-Methode (ML-Methode) (lange Zeit Standardmethode)
- Setzt voraus, dass beobachtbare V multivariat normalverteilt sind
- Greift man bei nicht normalverteilter Variablen auf ML-Methode zurück, werden Standardfehler u Modellgüte-Teststatistiken verzerrt geschätzt
- Parameterschätzungen selbst robust ggü Verletzungen d Normalverteilung - Robuste Maximum-Likelihood-Schätzmethode (MLR-Methode)
- Im Fall von Abweichungen von Normalverteilung
- Parameter nach ML-Methode geschätzt, Standardfehler u einige Modellgütekoeffizienten u Teststatistiken jedoch bzg auf Abweichung von Normalverteilung korrigiert
Eindimensionale Modelle für metrische Antwortvariablen
o Das Modell essenziell τ-äquivalenter Variablen:
- Modellannahmen
- Methoden der Schätzung der Itemparameter (welche gibt es hier allgemein?
Was ist der Leichtigkeitsparameter? (!) Wozu Fehlervarianzen und Varianz? Auch Bewertung des Reliabilitätskoeffizienten, Bestimmung der Reliabilität aber nicht notwendig) und Personenwerte (v. a. Annahmen der Maximum Likelihood-Schätzung)
- Entspricht Differenz aus Erwartungswert d zugehörigen beobachtbaren V u Erwartungswert d latenten V eta
> Hat man zB Normierung E(eta = 0) gewählt, entspricht Leichtigkeitsparameter d Erwartungswert d beobachtbaren Variablen Yi - Leichtigkeitsparameter lassen sich anhand d Mittelwerte d beobachteten V schätzen
Eindimensionale Modelle für metrische Antwortvariablen
o Das Modell essenziell τ-äquivalenter Variablen:
- Modellannahmen
- Methoden der Schätzung der Itemparameter (welche gibt es hier allgemein?
Was ist der Leichtigkeitsparameter? Wozu Fehlervarianzen und Varianz? (!) Auch Bewertung des Reliabilitätskoeffizienten (!), Bestimmung der Reliabilität aber nicht notwendig) und Personenwerte (v. a. Annahmen der Maximum Likelihood-Schätzung)
- Fehlervarianzen u Varianz benötigt man zur Bestimmung d Reliabilität u
Konfidenzintervalle für d wahren Werte - Reliabilitätskoeffizient gibt an, wie viel an Varianz einer beobachtbaren
Variablen durch wahren Untersch erklärt werden kann
> Umso größer, je größer Ausmaß wahrer Untersch (wahre Varianz) u je geringer Ausmaß fehlerbed Untersch (Fehlervarianz) ist - Höhe d Reliabilität hängt von Verteilung wahrer Werte ab
> Wählt man zur Schätzung d Reliabilität eine homogene Personenstichpr, wird sie geringer ausfallen, als bei heterogener Stichprobe - Es gibt infolgedessen keine festen Kriterien, um Reliabilität zu beurteilen
> Bewertung hängt von jeweil Fragestellung u Anwendungsbereich ab - Klassifikationen d Reliabilität sind daher mit Vorsicht zu interpretieren
> Grobes Bewertungskriterium, wenn andere spezif Infos nicht vorliegen
Wird zB empfohlen, für psychol Test eine Reliabilität von mind 0,70 zu fordern
Eindimensionale Modelle für metrische Antwortvariablen
o Das Modell essenziell τ-äquivalenter Variablen:
- Modellannahmen
- Methoden der Schätzung der Itemparameter (welche gibt es hier allgemein?
Was ist der Leichtigkeitsparameter? Wozu Fehlervarianzen und Varianz? Auch Bewertung des Reliabilitätskoeffizienten, Bestimmung der Reliabilität aber nicht notwendig) und Personenwerte (v. a. Annahmen der Maximum Likelihood-Schätzung) (!)
Annahmen der Maximum-Likelihood-Schätzung:
1. Beobachtbare V folgen multivariater Normalverteilung
2. Itemantworten sind – ggb d Ausprägung d latenten V – voneinander unabhängig (bedingte / lokale stochastische Unabhängigkeit)
3. Gezogene Personen bzw. deren Merkmalsausprägungen sind voneinander unabhängig
4. Bedingte Fehlervarianzen eines Items untersch sich nicht zw d Auspräg d latenten V
> Wert d bedingten Fehlervarianz eines Items = Fehlervarianz dieses Items an einer Stelle d latenten V (Annahme entspr Annahme d Homoskedastizität, wie sie zB auch in linearer Regressionsanalyse getroffen wird)
Eindimensionale Modelle für metrische Antwortvariablen
- Überprüfung der Modellgüte (worauf beziehen sich hier die testbaren Konsequenzen? Die weiteren Möglichkeiten der Modellgeltungsanalysen z.B.
Mischverteilungsanalysen sind nicht relevant)
CHECK S. 188 Aufg. 5
- Testbare Konsequenzen bez sich auf Struktur d Kovarianzen beobachtbarer V in Population u auf Gleichheit d Leichtigkeitsparameter in Subpopulationen
Kovarianzen:
- Modell essenziell tau-äquivalenter Variablen impliziert, dass Kovarianzen aller beobachtbaren V gleich sind
> Hypothese kann mit Computerprogr für konfirmatorische Faktorenanalyse überprüft werden
- Gültigkeit des Modells kann ua anhand eines Chi^2-Tests überprüft werden
> Überprüft Nullhypothese, dass in Population d vom Modell implizierte Kovarianzmatrix exakt d Kovarianzmatrix d beobachtbaren V entspr
- Hypothese wird über Vgl d anhand Stichprobe geschätzten Kovarianzmatrix mit d vom Modell implizierten Kovarianzmatrix (ebenfalls anh v Stichprdaten geschätzt) geprüft
Leichtigkeitsparameter:
- Aus Gültigkeit d Modells folgt, dass Modell auch in Subpopulationen gültig sein muss
> Insbes Leichtigkeitsparameter dürfen sich nicht in Subpopulationen untersch, wenn in verschiedenen Subpopulationen gleiche Normierung d latenten V gewählt wurde
> Hypothese kann mit Multigruppenanalyse überprüft werden
Eindimensionale Modelle für metrische Antwortvariablen
o Vergleich der verschiedenen Modelle (!) (bzgl. des Modells τ-kongerischer Variablen reicht es, dieses im Vergleich zu den anderen Modellen zu sehen), wie sollte man bei der Modellauswahl vorgehen?
Gemeinsamkeiten:
- True-Score-V versch Items erfassen eine gemeinsame latente V η
Unterschiede:
- In Restriktionen, d auf Itemparameter u Fehlervarianzen gelegt werden
> Bzgl dieser lassen sich Modelle in eine Ordnung bringen
- Modell τ-kongenerischer V: Am wenigsten restriktives eindimensionales Modell (legt Daten keine weiteren Restriktionen als Eindimensionalität auf)
- Modell essenziell τ-äquivalenter V ist ein Modell τ-kongenerischer V mit gleichen Diskriminationsparametern
> Einfachheit halber legt man zur Normierung d Diskriminationsparameter auf Wert 1 fest, sodass Diskriminationsparameter aus Gleichung „verschwinden“ u diese vereinfachen
- Modell τ-äquivalenter V: Modell essenziell τ-äquivalenter V mit gleichgesetzten Leichtigkeitsparametern
- Modell essenziell τ-paralleler Variablen: Modell essenziell τ-äquivalenter V mit gleichgesetzten Fehlervarianzen
- Modelle τ-äquivalenter u essenziell τ-paralleler Variablen sind nicht ineinander verschachtelt (kein Modell geht durch Restriktionen aus anderem Modell hervor)
- Modell τ-paralleler V: Restriktivste Modell
> Items untersch sich weder in ihren Leichtigkeitsparametern noch in ihren Diskriminationsparametern u Fehlervarianzen (Items austauschbar)
> In alle anderen Modelle geschachtelt u geht aus diesen durch spezif Restriktionen hervor
Eindimensionale Modelle für metrische Antwortvariablen
o Vergleich der verschiedenen Modelle (bzgl. des Modells τ-kongerischer Variablen reicht es, dieses im Vergleich zu den anderen Modellen zu sehen), wie sollte man bei der Modellauswahl vorgehen? (!)
o Klassische Testtheorie und Testkonstruktion: wie ist das mit der Anwendung auf kategoriale Variablen?
- Sparsamkeitsprinzip: Am günstigsten, d einfachste Modell auszuwählen
> Es muss auf Daten passen
> Modelle, die ineinander geschachtelt sind, können anhand Chi^2-Differenztests ggeinander getestet werden
Darauf aufbauende Strategie d Modellselektion:
1. Überprüfung d Modellgültigkeit d Modells τ-kongenerischer V
> Muss Modell verworfen werden, muss Itemsatz revidiert werden, indem nicht passende Items eliminiert werden (gibt keine festen Routinen)
- Im Modell τ-kongenerischer V gibt es über Eindimensionalität hinausgehend nur Annahme, dass Fehlervariablen unkorreliert sind
> Items die korreliert sind sollten entfernt werden bzw. für diese sollte ein getrenntes eindimensionales Modell spezifiziert werden
> Alternativ auf mehrdimensionale Modelle ausweichen
- Alternative Modellgütekriterien: Chi^2-Test überprüft Nullhypothese d exakten Modellgültigkeit
> Insbesondere bei sehr großen Stichproben könnten geringfügige, praktisch unbedeutende Modellabweichungen aufgedeckt werden
- Es wurden daher auch Modellgütekriterien entwickelt, die angeben, wie gut die approximative Modellanpassung ist (Root Mean Square Error of Approximation (RMSEA))
> Bei großen Stichproben würde man Modell daher noch nicht zwangsläufig verwerfen, wenn es gute approximative Modellgültigkeit aufweist u man aus theoretischen u empirischen Gründen kein besseres Modell vorweisen kann
2. Müssen Annahmen d Modells τ-kongenerischer V nicht verworfen werden, kann im nächsten Schritt anhand eines Chi^2-Differenztests überprüft werden, ob Modell essenziell τ-äquivalenter V zu signifikant schlechteren Modellanpassungsgüte (MAG) führt
3. Ist das nicht d Fall, können beide restriktiveren Modelle τ-äquivalenter V u essenziell τ-paralleler V gg Modell essenziell τ-äquivalenter V mit Chi^2-Differenztests getestet werden
> Führen beide Modelle zu keiner schlechteren MAG, kann Modell τ-paralleler V anhand Chi^2-Differenztests gg beide Modelle getestet werden
4. Modellvergleich endet, wenn restriktiveres Modell zu signifikanter Verschlechterung d Modellanpassungsgüte führt
Eindimensionale Modelle für metrische Antwortvariablen
o Klassische Testtheorie und Testkonstruktion: wie ist das mit der Anwendung auf kategoriale Variablen?
- Zunächst theoretisches Problem, da lineare Modelle bei kategorialen
Variablen nicht angemessen sind
> Erwarteter beobachteter Wert eines kategorialen Items nur für spezif Bereich auf latenter V im Wertebereich des Items liegt - Hat Item nur zwei Kategorien, denen Werte 0 u 1 zugeordnet sind, liegen Itemcharakteristiken nur für eng umschriebenen Bereich d latenten V im Bereich möglicher Werte d beobachtbaren V
- Praktische Anwendung eines linearen Modells wäre auf kategoriale Antwortvariablen, weniger gravierend
> Forschung: Anwendung von Modellen mit linearen Itemcharakteristiken führt dann zu wenig verzerrten Ergebnissen, wenn Items größere Anzahl von Kategorien u symmetrische Verteilung aufweisen (mind 6 bis 7 Kategorien)
> Bei weniger Kategorien u starken Untersch in Verteil d Items, werden Parameter d Modells u Modellgeltungstests verzerrt geschätzt - Die Annahmen eines eindimensionalen Modells könnten daher verworfen werden, obwohl es – bei Berücksichtigung nicht linearer Itemcharakteristiken – das wahre Modell wäre
- Da es inzw Vielzahl von Modellen für kategoriale Antwortvariablen gibt, kann bei Testkonstruktion im Falle von dichotomen V u geordneten Antwkategorien auf diese angemesseneren Ansätze zurückgegriffen werden