Reliabilität Flashcards
Testwertvariablen:
rel(Y) = σ²(τ) / σ²(Y) = σ²(τ) / σ²(τ) + σ²(ε)
rel(Y)=Var(T)/Var(Y) = Var(T)/Var(T)+Var(E)
Itemvariablen:
rel(yᵢ)=Var(τᵢ)/Var(yᵢ)= Var(τᵢ) / Var(τᵢ) + Var(εᵢ)
=Maß der Reliabilität der Testwertvariablen
je größer die Varianz des Messfehlers, desto geringer die Reliabilität
Maß der Messgenauigkeit
Verhältnis der Varianz der True Score Variablen (T) zur Gesamtvarianz der Testwertariablen Y
Verhältnis der Varianz der True Score Variablen tau zur Varianz der Testwertvariablen
Was besagt die Reliabilität eines Tests?
- Grad der Genauigkeit mit der ein Test in bestimmtes Merkmal misst
- im Rahmen der KTT steht Varianz im Vordergrund
->je größer die Varianz des Messfehlers, desto geringer die Reliabilität
-> normiertes Effektgrößenmaß dass Vergleich unterschiedlicher Messinstrumente hinsichtlich der Zuverlässigkeit ihrer Messung ermöglicht
Welcher Wert der Relativität rel wird in der Wissenschaft ungefähr als ausreichend betrachtet?
0.7 bzw. 0.8
- Leistungstests über 0.9
- homogene Konstrukten 0.8- 0.9
- Screenings und heterogene Konstrukten 0.7
- Persönlichkeitstests 0.7
Welchen Wertebereich kann der Wert für Relativität rel annehmen und warum?
- rel = σ²(τ) / σ²(X) = σ²(τ) / σ²(τ) + σ²(ε)
- 0 ≤ rel ≤ 1
- Relativität ist der Bruch der Varianz des wahren Werts durch die Summe der Varianz des wahren Werts und der Varianz des Messfehlers
Was ist ein Bestimmtheitsmaß?
auch Determinationskoeffizient
R²
Kennzahl zur Beurteilung der Anpassungsgüte einer Regression
zB bewerten wie gut Messwerte zu einem Modell passen
Was ist das Bestimmtheitsmaß der Korrelation von Messwert und wahrem Wert?
???
-> entspricht der Relabilität?
rel=ρ²(X,τ)
Wie verhält sich die Korrelation zweier Paralleltests zur Reliabilität?
rel=ρ(XₐXₐ,)
Welche Arten der Reliabilitätsbestimmung lassen sich unterscheiden?
Klassische Methoden: beruhen auf Stichprobenkennwerten, werden bestimmt über Kovarianzen der Itemvariablen und Korrelationen zweier paralleler Tests: zB:
1. Retest-Reliabilität
2. Paralleltest-Reliabilität
3. Testhalbierungs-(Split Half-) Reliabilität
4. Innere Konsistenz
Modellbasierte Methoden: basieren auf Modellparametern der CFA
Wie kann man die Retest-Reliabilität bestimmen?
- derselbe Test derselben Stichprobe zweimal vorgelegt
- Voraussetzung:
- keine Veränderungen der Messfehlereinflüsse
- keine unsystematischen Veränderungen des wahren Werts Tau
-> Korrelationen der Testergebnisse entsprechen der geschätzten Reliabilität
Wie kann die Paralleltest-Reliabilität berechnet werden?
- selbe Person zwei Tests, die eine parallele Messung darstellen
- Korrelation der Ergebnisse schätzt Reliabilität der beiden Tests
rêl=r(XₐXₐ,)
Problem: Test nicht völlig parallel, strenge Testung der Parallelität zweier Tests im Rahmen der KTT nicht möglich
- eleganteste Prüfung der Parallelität von Tests (ohne moderne Testtheorie) -> konfirmatorische Faktorenanalyse
rêl=r(XₐXₐ,)
Paralleltest-Reliabilität
Relabilität entspricht in der Korrelation von 2 Paralleltests
Wie kann die Parallelität von Tests geprüft werden?
-> geht nicht anhand von KTT
- moderne Testtheorie
- konfirmatorische Faktorenanalyse
Wie kann die Testhalbierungs-Reliabilität (Split-Half Reliabilität) bestimmt werden?
-Test der aus mehreren Items besteht wird in 2 möglichst parallele Untertests geteilt
- Korrelation der Ergebnisse der Untertests schätzt die Reliabilität eines halb so langen Tests
-> um auf geschätzte Reliabilität des Gesamttests zu kommen wird auf einen Spezialfall der Spearman-Brown Formel zurückgegriffen
rêl(Gesamttest)=2r(X₁,X₂)/1+r(X₁,X₂)
Was besagt die Spearman-Brown Formel?
???
Voraussetzung: parallele Items -> Kenntnis der Reliabilität
-> Formel wird genutzt wenn nun der Test um parallele Items verlängert oder verkürzt wird
rêl(veränderter Test) = (κrêl(Originaltest))
/(1+(κ-1)rêl(Originaltest)
mit Kappa κ = Anzahl Items im veränderten Test /
Anzahl Items im Originaltest
Wie kann die innere Konsistenz bestimmt werden?
- jedes Item eines aus mehreren Items bestehenden Tests als eigene Messung des interessierenden Merkmals betrachtet
- durchschnittliche Korrelation aller Items dieses Tests
- zB Cronbachs Alpha α
- zB Lambda2 nach Guttman λ₂
Was besagt Lambda2 nach Guttman?
Σᵢσ^²(Xᵢ )-√(k / k-1) * √(Σᵢ₌₁) *√(Σₐ₌₁) * √σ^²(Xᵢ, Xₐ)
λ₂ = 1 -
/σ^²(X)
Welche Voraussetzungen stellt die innere Konsistenz?
- sind die Items zumindest essentiell τ-äquivlente Messungen sind α und λ₂ Schätzungen der Reliabilität des Gesamttests
- wenn Items keine äquivalente Messungen: α und λ₂ sind untere Schranken der Reliabilität
Was ist bei α und λ₂ zu beachten?
- Items müssen gleichartig gepolt sein (Werte müssen inhaltlich selbe Bedeutung haben)
- Messen nicht ob Item eindimensional ist
x̄^(neu)=κ*x̄(alt)
der geschätzte Mittelwert eines veränderten Paralleltests entspricht dem alten Mittelwert mal Kappa
κ=k(neu)/k(alt)
Kappa = Anzahl der Items in verändertem paralleltest durch Anzahl der Items im Originaltest
σ^²(Xneu)=κσ^²(Xalt) * [1+(κ-1)rêl(alt)]
??
Spearman brown
die geschätzte Varianz eines veränderten Paralleltests entspricht der geschätzten Varianz mal Kappa, mal der geschätzten Reliabilität des Originaltests
Was beschränkt die höhe der Reliabilität?
- allgemein so hoch wie möglich
berücksichtigung:
- Art des zu erfassenden Merkmals:
- Individual- vs- Kollektivdiagnostik
- Einsatzbedingungen
- Kosten-Nutzen Abwägungen
- Objektivierbarkeit -> ???
Wie beeinflusst die Art des zu erfassenden Merkmals die höhe der Reliabilität?
- Leistungsvariablen (rel>0.9) meist höhere rel als Persönlichkeitstests/Einstellungen (rel≈0.7)
- bei heterogenen Merkmalen kann die innere Konsistenz deutlich geringer sein als Retest- oder Paralleltest Reliabilität
Welchen Effekt hat der Unterschied zwischen Individual- und Kollektivdiagnostik?
*individualdiagnostik höhere Messgenauigkeit als bei Kollektivdiagnostik, da sich Messfehler bei der Zusammenfassung von Messungen mehrer Individuen “reduzieren”
Welchen Effekt haben die Einsatzbedingungen auf die Reliabilität?
- bei Tests die nicht adaptiv vorgegeben werden können hängt die Reliabilität stark von der Testlänge ab
- kurze Tests und Fragebögen (zB Screenings) eher geringe Reliabilität
Wie sind Reliabilität und Konfidenzintervall verbunden?
Reliabilität als Maß für die Genauigkeit der Messung -> Basis für Erstellung von Konfidenzintervallen für wahre Werte
Welche Arten von Konfidenzintervallen gibt es?
- auf Basis der Messfehlervarianz
- auf Basis der Schätzfehlervarianz