Reliabilität Flashcards
Testwertvariablen:
rel(Y) = σ²(τ) / σ²(Y) = σ²(τ) / σ²(τ) + σ²(ε)
rel(Y)=Var(T)/Var(Y) = Var(T)/Var(T)+Var(E)
Itemvariablen:
rel(yᵢ)=Var(τᵢ)/Var(yᵢ)= Var(τᵢ) / Var(τᵢ) + Var(εᵢ)
=Maß der Reliabilität der Testwertvariablen
je größer die Varianz des Messfehlers, desto geringer die Reliabilität
Maß der Messgenauigkeit
Verhältnis der Varianz der True Score Variablen (T) zur Gesamtvarianz der Testwertariablen Y
Verhältnis der Varianz der True Score Variablen tau zur Varianz der Testwertvariablen
Was besagt die Reliabilität eines Tests?
- Grad der Genauigkeit mit der ein Test in bestimmtes Merkmal misst
- im Rahmen der KTT steht Varianz im Vordergrund
->je größer die Varianz des Messfehlers, desto geringer die Reliabilität
-> normiertes Effektgrößenmaß dass Vergleich unterschiedlicher Messinstrumente hinsichtlich der Zuverlässigkeit ihrer Messung ermöglicht
Welcher Wert der Relativität rel wird in der Wissenschaft ungefähr als ausreichend betrachtet?
0.7 bzw. 0.8
- Leistungstests über 0.9
- homogene Konstrukten 0.8- 0.9
- Screenings und heterogene Konstrukten 0.7
- Persönlichkeitstests 0.7
Welchen Wertebereich kann der Wert für Relativität rel annehmen und warum?
- rel = σ²(τ) / σ²(X) = σ²(τ) / σ²(τ) + σ²(ε)
- 0 ≤ rel ≤ 1
- Relativität ist der Bruch der Varianz des wahren Werts durch die Summe der Varianz des wahren Werts und der Varianz des Messfehlers
Was ist ein Bestimmtheitsmaß?
auch Determinationskoeffizient
R²
Kennzahl zur Beurteilung der Anpassungsgüte einer Regression
zB bewerten wie gut Messwerte zu einem Modell passen
Was ist das Bestimmtheitsmaß der Korrelation von Messwert und wahrem Wert?
???
-> entspricht der Relabilität?
rel=ρ²(X,τ)
Wie verhält sich die Korrelation zweier Paralleltests zur Reliabilität?
rel=ρ(XₐXₐ,)
Welche Arten der Reliabilitätsbestimmung lassen sich unterscheiden?
Klassische Methoden: beruhen auf Stichprobenkennwerten, werden bestimmt über Kovarianzen der Itemvariablen und Korrelationen zweier paralleler Tests: zB:
1. Retest-Reliabilität
2. Paralleltest-Reliabilität
3. Testhalbierungs-(Split Half-) Reliabilität
4. Innere Konsistenz
Modellbasierte Methoden: basieren auf Modellparametern der CFA
Wie kann man die Retest-Reliabilität bestimmen?
- derselbe Test derselben Stichprobe zweimal vorgelegt
- Voraussetzung:
- keine Veränderungen der Messfehlereinflüsse
- keine unsystematischen Veränderungen des wahren Werts Tau
-> Korrelationen der Testergebnisse entsprechen der geschätzten Reliabilität
Wie kann die Paralleltest-Reliabilität berechnet werden?
- selbe Person zwei Tests, die eine parallele Messung darstellen
- Korrelation der Ergebnisse schätzt Reliabilität der beiden Tests
rêl=r(XₐXₐ,)
Problem: Test nicht völlig parallel, strenge Testung der Parallelität zweier Tests im Rahmen der KTT nicht möglich
- eleganteste Prüfung der Parallelität von Tests (ohne moderne Testtheorie) -> konfirmatorische Faktorenanalyse
rêl=r(XₐXₐ,)
Paralleltest-Reliabilität
Relabilität entspricht in der Korrelation von 2 Paralleltests
Wie kann die Parallelität von Tests geprüft werden?
-> geht nicht anhand von KTT
- moderne Testtheorie
- konfirmatorische Faktorenanalyse
Wie kann die Testhalbierungs-Reliabilität (Split-Half Reliabilität) bestimmt werden?
-Test der aus mehreren Items besteht wird in 2 möglichst parallele Untertests geteilt
- Korrelation der Ergebnisse der Untertests schätzt die Reliabilität eines halb so langen Tests
-> um auf geschätzte Reliabilität des Gesamttests zu kommen wird auf einen Spezialfall der Spearman-Brown Formel zurückgegriffen
rêl(Gesamttest)=2r(X₁,X₂)/1+r(X₁,X₂)
Was besagt die Spearman-Brown Formel?
???
Voraussetzung: parallele Items -> Kenntnis der Reliabilität
-> Formel wird genutzt wenn nun der Test um parallele Items verlängert oder verkürzt wird
rêl(veränderter Test) = (κrêl(Originaltest))
/(1+(κ-1)rêl(Originaltest)
mit Kappa κ = Anzahl Items im veränderten Test /
Anzahl Items im Originaltest
Wie kann die innere Konsistenz bestimmt werden?
- jedes Item eines aus mehreren Items bestehenden Tests als eigene Messung des interessierenden Merkmals betrachtet
- durchschnittliche Korrelation aller Items dieses Tests
- zB Cronbachs Alpha α
- zB Lambda2 nach Guttman λ₂
Was besagt Lambda2 nach Guttman?
Σᵢσ^²(Xᵢ )-√(k / k-1) * √(Σᵢ₌₁) *√(Σₐ₌₁) * √σ^²(Xᵢ, Xₐ)
λ₂ = 1 -
/σ^²(X)
Welche Voraussetzungen stellt die innere Konsistenz?
- sind die Items zumindest essentiell τ-äquivlente Messungen sind α und λ₂ Schätzungen der Reliabilität des Gesamttests
- wenn Items keine äquivalente Messungen: α und λ₂ sind untere Schranken der Reliabilität
Was ist bei α und λ₂ zu beachten?
- Items müssen gleichartig gepolt sein (Werte müssen inhaltlich selbe Bedeutung haben)
- Messen nicht ob Item eindimensional ist
x̄^(neu)=κ*x̄(alt)
der geschätzte Mittelwert eines veränderten Paralleltests entspricht dem alten Mittelwert mal Kappa
κ=k(neu)/k(alt)
Kappa = Anzahl der Items in verändertem paralleltest durch Anzahl der Items im Originaltest
σ^²(Xneu)=κσ^²(Xalt) * [1+(κ-1)rêl(alt)]
??
Spearman brown
die geschätzte Varianz eines veränderten Paralleltests entspricht der geschätzten Varianz mal Kappa, mal der geschätzten Reliabilität des Originaltests
Was beschränkt die höhe der Reliabilität?
- allgemein so hoch wie möglich
berücksichtigung:
- Art des zu erfassenden Merkmals:
- Individual- vs- Kollektivdiagnostik
- Einsatzbedingungen
- Kosten-Nutzen Abwägungen
- Objektivierbarkeit -> ???
Wie beeinflusst die Art des zu erfassenden Merkmals die höhe der Reliabilität?
- Leistungsvariablen (rel>0.9) meist höhere rel als Persönlichkeitstests/Einstellungen (rel≈0.7)
- bei heterogenen Merkmalen kann die innere Konsistenz deutlich geringer sein als Retest- oder Paralleltest Reliabilität
Welchen Effekt hat der Unterschied zwischen Individual- und Kollektivdiagnostik?
*individualdiagnostik höhere Messgenauigkeit als bei Kollektivdiagnostik, da sich Messfehler bei der Zusammenfassung von Messungen mehrer Individuen “reduzieren”
Welchen Effekt haben die Einsatzbedingungen auf die Reliabilität?
- bei Tests die nicht adaptiv vorgegeben werden können hängt die Reliabilität stark von der Testlänge ab
- kurze Tests und Fragebögen (zB Screenings) eher geringe Reliabilität
Wie sind Reliabilität und Konfidenzintervall verbunden?
Reliabilität als Maß für die Genauigkeit der Messung -> Basis für Erstellung von Konfidenzintervallen für wahre Werte
Welche Arten von Konfidenzintervallen gibt es?
- auf Basis der Messfehlervarianz
- auf Basis der Schätzfehlervarianz
Wie berechnet man die Messfehlervarianz?
σ^²(ε)=σ^²(X)*(1-rel)
Wie kann das KI anhand der Messfehlervarianz berechnet werden?
τ₁,₂=xᵥ±z(krit)*σ^²(ε)
Wie berechnet man die Schätzfehlervarianz?
τᵥ^=xᵥrelx̄(1-rel)
σ^²(ε^)=σ^²(X)(1-rel)*rel
??
Wie kann das KI anhand der Messfehlervarianz berechnet werden?
τ₁,₂=xᵥ±z(krit)*σ^²(ε^)
Warum wird die Reliabilität gemessen?
um den Messfehleranteil in den Testwerten zu schätzen
Wie kann die True-Score-Varianz berechnet werden?
Var(T)= Summe der quadrierten Faktorladungen
Summe der Produkte der Faktorladungen aller Itemvariablen
Anteil an der Gesamtvarianz schätzen
-> klassische Methoden: Crohnbachs alpha, Spearman-Brown
-> modellbasierte Methoden: Omega-Koeffizienten
Wie kann der Standardmessfehler berechnet/geschätzt werden? Wozu?
- mithilfe der Reliabilität
- Bildung von Konfidenzintervallen für die geschätzten True Scores
Wie wird in der IRT Konfidenzintervalle für Personenparameter gebildet?
- nicht mithilfe Reliabilitätskoeffizienten sondern mithilfe der Testinfo -> beruht auf Iteminformationen, die jeweils angeben welchen Betrag ein item zur Schätzgenauigkeit eines latenten Personenwertes leistet
Was ist die Testinformation?
beruht auf Iteminformationendie jeweils angeben welchen Betrag ein item zur Schätzgenauigkeit eines latenten Personenwertes leistet
–> entspricht der Reliabilität im IRT
- Messgenauigkeit nicht für alle Personenwerte gleich
- Messgenauigkeit variiert in Abhängigkeit von der latenten Variablen η
-> Testinformation in unterschiedlichen Wertebereichen der latenten Variablen höher bzw niedriger
-> Konfidenzintervallbreite der Personenparameter variiert
Wie ist die Itemreliabilität definiert?
bestimmt von Anteil der True-Score-Varianz an der Gesamtvarianz
rel(i)=Var(τᵢ) / Var(yᵢ)
Wie ist die Testwertreliabilität definiert?
Rel(Y)= Var(T) / Var(Y)
umso reliabler je größer der wahre Varianzanteil Var(T) an der Gesatvarianz Var(Y) ist
-> Reliabilität nimmt bei zunehmender Fehlervarianz ab
Was ist der Determinationskoeffizient?
-> interpretation der Reliabilität
- normiertes Effektgrößenmaß
- Vergleich von Messungen von unterschiedlichen tools möglich
Welche Voraussetzungen hat die Anwendung von McDonalds Omega?
τ-kongerische Messäquivalenz
eindimensional
keine Gleichheitsrestriktionen bzgl Itemparameter (Faktorladung oder Fehlervarianzen)
Welche Voraussetzungen hat die Anwendung von Crohnbachs Alpha?
essentielle τ-äquivalente Messäquivalenz
eindimensional
identische Faktorladungen λ = alle Itemvariablen die selbe Kovarianz untereinander aufweisen = unterscheiden sich nicht in Diskriminationsfähigkeit
alle Items erfassen das Item im gleichen Ausmaß
unkorrelierte Fehlervarianzen
auch “Koeffizient λ3”
l … Anzahl der Items
siehe Formelsammlung
gebraucht:
Summe der Itemvarianzen Var(yi)
Gesamtvarianz der Testwertvariable Var(Y)
Itemkovarianzen -> liefern notwendige Infos zur Bestimmung der True Score Varianz der Testwertvariablen
Itemanzahl hat Einfluss
Welche Voraussetzungen hat die Anwendung der Spearman-Brown-Formel?
τ-parallele Messäquivalenz
eindimesnional
äquivalente Faktorladungen λ = selbe Kovarianz
äquivalente Fehlervarianzen
unterschiedliche Leichtigkeitsparameter
Was sind die Itemparameter?
Faktorladung oder Fehlervarianzen
wenn Parameterindex i aus Gleichungen weggelassen wird -> Parameter über die Items hinweg als konstant angenommen
Wann hat ein Messinstrument eine hohe Messgenauigkeit? Wann ist ein Messinstrument perfekt reliabel?
Wenn die resultierenden Messergebnisse nur einn geringen Messfehler behaftet sind
perfekt reliabel (rel=1) wenn Messfehler=0
umso weniger reliabel je größer Messfehleranteil
In welchem Verhältnis stehen die anderen Hauptgütekriterien zur Reliabilität?
- Objektivität ist eine Voraussetzung für Reliabilität
- Reliabilität ist eine Voraussetzung für Validität
Was ist zur Schätzung der Reliabilität nötig?
- Reliabilität exakt definiert als Varianzverhältnis
-> mehrere Messungen nötig, einmalige Messung bei einer Person nicht ausreichend um Präzision der Reliabilitätsschätzung zu beurteilen
wahre Werte und Messfehler lassen sich bei einer einzelnen Person nicht bestimmen
-> mehrere Items ein Merkmal oder mehrere Messzeitpunkte oder mehrere Personen - eindimensionalität der Testitems: unkorrelierte Messfehler, CFA
- je nach Messmodell -> Messäquivalenz -> entscheidet ob Reliabilitätsschätzer verwendet werden darf
- streng genommen Itemvariablen mindestens intervallskaliert; in praxis ordinalskaliert unter bestimmten Bedingungen okay
In welchen Messeigenschaften dürfen sich die Variablen unterscheiden?
Itemvariablen (yi)
-additiver Term: Leichtigkeitsparameter, Interzept α -> Itemvariablen yi haben unterschiedliche Mittelwerte; wirkt sich bei der Bestimmung der Reliabilität nicht weiter aus
- multiplikativer Term: Diskriminationsparameter, Faktorladung λ -> Höhe des Zusammenhangs zwischen Itemvariable yi und latenter Variable η unterschiedlich
- Fehlervarianz Var(ε) -> Einfluss von Messfehlern unterscheidet sich zwischen Item
Wann haben zwei Items laut Messäquivalenzstufe die selbe Reliabilität?
- Faktorladungen konstant
- Fehlervarianzen konstant
Was ist die Grundidee von Crohnbachs Alpha?
Testwertvariable wird als Summe der Itemvariablen gebildet
Reliabilität der Summenvariable wird anhand der Varianzen und Kovarianzen der Items bestimmt
Faktorladungen müssen identisch sein
wahre Varianz für alle Items gleich
Fehlervarianz unterschiedlich
Welche Gründe für die Verzerrung von Reliabilität gibt es?
- Methodeneffekte zB invers (“NICHT”) formulierte Items -> bilden neben Merkmalsvarianz zusätzlich systematische Methodenvarianz
- Mehrdimensionalität
Ist Crohnbachs Alpha ein Maß für die innere konsistenz?
- nein
- Termini innere Konsistenz, eindimensionalität, homogenität, Faktorsättigung gleichbedeutend verwendet
- hoher Alpha Wert ist Indiz dafür dass interne Konsistenz hoch ist, aber auch andere Erklärungen (zB Mehrdimensionalität, Methodeneffekte) haben
Wie kann Crohnbachs Alpha interpretiert werden?
- untere Schranke der Reliabilität aber NUR wenn Voraussetzungen für Alpha erfüllt
Welche Arten der Test-Test Korrelation kennen wir?
- Retest
- Split Half
- Parallel
Welche Voraussetzungen hat die Spearman-Brown-Formel der Testverlängerung?
- essentielle tau Parallelität der Itemvariablen
-> aufsummierung der Halbtestwerte; Korrelation gemessen + korrigiert
Welche Probleme können sich bei der Test-Test-Korrelation ergeben?
- latentes Merkmal verändert sich unsystematisch (dh Traits besser reliabel)
- Erinnerungseffekte
-> Wahl des Retest-Intervalls lang genug um Erinnerungseffekte zu reduzieren, kurz genug um deutliche Merkmalsveränderungen zu verhindern
-> mangelnde parallelität: Parallelität sehr selten gesichert, eher Leistungstest als Persönlichkeitstests
Gibt es unterschiedliche Reliabilitäten?
nein
obwohl unterschiedliche Namen gibt es nur eine einzige Reliabilität der Testwertvariablen
immer das gleiche Gütemaß
Welche Einflüsse gibt es auf die Reliabilität eines Tests?
- Hetero- bzw Homogenität des Merkmals in Stichprobe
- Hetero- bzw. Homogenität der Items (misst vielleicht nur Teilaspekt aber dafür sehr reliabel)
- Itemzahl (je mehr Items desto höher)
Wie kann man das KI der Reliabilität bestimmen?
mit Standardmessfehler
Welche Methode liegt der modellbasierten Reliabilitätsschätzung zugrunde? Welche Vorteile hat das?
-CFA anhand Modellparameter
-basiert auf weniger strengen Annahmen
- Modelle können explizit anhand Modellen überprüft werden
Wie ist die Reliabilität definiert?
Das Verhältnis der wahren Varianz zur Gesamtvarianz eines Tests
Welche Probleme ergeben sich in der klassischen Reliabilitätsschätzung?
- Zutreffen implizit vorausgesetzter Modellrestriktionen werden in der Praxis meist nicht explizit überprüft
- Modellpassung prüfen ist zwingend erforderlich!
- unpassend: unpräzise und verzerrte Punktschätzungen der Reliabilität, Standardfehler nicht adäquat geschätzt -> daraus gebildetes KI für Rel nicht korrekt
Welche Methode liegt der klassischen Reliabilitätsanalyse zugrunde?
empirische Varianzen und Kovarianten der Itemvariablen (Crohnbachs Alpha) oder
empirische Korrelationen zwischen den Test(summen)werten paralleler Tests (Test-Test Reliabilitätsmaße)
Welche Reliabilitätsmaße können bei eindimensionalen Tests modellbasiert geschätzt werden?
- Crohnbachs Alpha: Anteil der wahren Varianz an der Gesamtvarianz der Testwertvariablen
- Mc Donalds Omega: Anteil der wahren Varianz an der Gesamtvarianz der Testwertvariablen
- Bollens Omega: Anteil der wahren Varianz an der Gesamtvarianz der Testwertvariablen (mit mindestens einer Fehlerkovarianz)
Welche Voraussetzung gibt es für die Bildung von Testwerten?
Eindimensionalität
muss erfüllt (Alpha, McDonalds Omega) bzw. zumindest im Wesentlichen erfüllt (Bollens Omega) erfüllt sein
Welche Voraussetzungen hat McDonalds Omega? Welche Werte werden als akzeptabel interpretiert?
Eindimensionalität
τ-kongerität
unkorrelierte Messfehler
unterschied zu Bollens Omega?-> korrelierte Messfehler erlaubt -> Eindimensionalität nur im wesentlichen erfüllt, zusätzlich zumindest eine Kovarianz oder Korrelation
abhängig von hetero- bzw homogenität mindestens ein Wert von .7 besser .8 oder .9 akzeptiert + kleines KI
Welche Vorteile hat die modellbasierte Reliabilitätsschätzung gegenüber der klassischen Reliabilitätsschätzung?
- ein- und mehrdimensionale Modelle
- Überprüfbarkeit der Modellannahmen
-> klare Entscheidungsregeln - Verwendung unterschiedlicher Schätzmethoden
- Adäquate Schätzung der KI
- Methodeneffekte werden berücksichtigt
Welche Nachteile hat die modellbasierte Reliabilitätsschätzung?
- Abhängigkeit von Itemzahl -> je mehr Items je höher rel
- Notwendigkeit relativ großer Stichproben: präzise Schätzung der Parameter und rel für Berechnung des KI nötig
- unplausible Ergebnisse trotz Modellfits
Was gibt das Reliabilitätsmaß der IRT an?
inwieweit sich Unterschiede der geschätzten Personenwerte auf wahre Unterschiede zwischen Personen zurückführen lassen
-> Testinformationsfunktion, basiert auf den einzelnen Iteminformationen: geben an welchen Beitrag ein Item zur Schätzgenauigkeit eines latenten Personenwerts leistet
-> marginale Reliabilitätskoeffizienzen sind Kennwerte der durchschnittlichen Messgenauigkeit