6 - Reliabilität Flashcards
Reliabilität
- Die Reliabilität eines Tests bezeichnet seine Messgenauigkeit.
- Ausgangspunkt für die Bestimmung der Reliabilität ist die Zerlegung der Varianz der Testwerte x
- Grundlage der Reliabilitätsschätzung ist der Umstand, dass unter Annahmen der KTT die Korrelation eines Tests mit sich selbst seiner Reliabilität entspricht
- Die Reliabilität eines Tests ist als Anteil der Varianz der wahren Werte tau an der Varianz der beobachteten Testwerte x definiert:
Rel = Var(tau) / Var(x)
- Wertebereich von 0 bis 1
- Rel = 1 —> 100% reliabel
- Rel = 0 —> alles Zufall
Erhöhung der Reliabilität
Die Reliabilität eines Tests lässt sich durch Hinzunahme paralleler Testteile erhöhen!
Zwei Tests sind parallel, wenn:
- sie die gleichen wahren Werte aufweisen –> haben gleichen Mittelwert
- und außerdem ihre Varianzen gleich sind
Die Verdoppelung der Länge eines Tests durch Hinzunahme eines parallelen Testteils gleicher Länge führt zu einer Verdoppelung der Fehlervarianz, ABER gleichzeitig zu einer Vervierfachung der wahren Varianz
—> Anteil der Varianz der wahren Werte an der Varianz der Testwerte (= Reliabilität) steigt. Nice :)
Die veränderte Reliabilität durch Verlängerung / Verkürzung eines Tests berechnet man mit der Spearman-Brown-Formel
Rel (k*l) = k*Rel / (1 + (k-1)*Rel)
- unreliable Tests profitieren stärker von einer Testverlängerung als sowieso schon ziemlich reliable
–> wenn mein Test eh schon sehr relabel ist: macht es evtl Sinn ihn zu verkürzen, um den Probanden nicht so viel zuzumuten?
Methoden der Reliabilitätsbestimmung
Die Schätzung der Reliabilität basiert letztlich immer auf der Korrelation zwischen zwei parallelen Tests (Korrelation von Messungen, denen derselbe wahre Wert τ zugrunde liegt)
4 Methoden:
- Paralleltest
- Testwiederholung (Retest)
- Testhalbierung (Split-half)
- Interne Konsistenz (z.B. Cronbachs alpha)
Parelleltest-Reliabilität
- Konstruktion zweier paralleler Tests (also Tests mit gleichen wahren Werten und gleichen Fehlervarianzen)
- Die beiden parallelen Tests werden der gleichen Stichprobe vorgelegt
- Optimaler Weg, aber gleichzeitig auch der schwierigste, denn: woher weiß ich, dass Test A und Test B wirklich parallel sind und exakt dasselbe Konstrukt messen?
- Problem #1: Konstruktion zweier paralleler Tests sehr aufwendig (In der Praxis existieren nur für wenige Testverfahren geprüfte Parallelformen). Für Leistungstests noch eher realisierbar als für Persönlichkeitstests
- Wie prüft man die Parallelität von zwei Tests? Möglichkeiten:
- Durch Bestimmung der Paralleltest-Reliabilität —> man schaut einfach experimentell, ob beide Tests die gleichen Mittelwerte und Varianzen haben und miteinander korrelieren —> ist unwahrscheinlich, dass das bloß Zufall ist, würde also auf ‘wahre’ Parallelität der Tests hindeuten (aber: Kreislauf-Logik?)
- Durch konfirmatorische Faktoranalyse —> haben beide Tests die gleichen Faktorladungen und Fehlervarianzen?
- Problem #2: Jede Abweichung von der Parallelität führt zu einer Unterschätzung der Reliabilität. Denn dann sind unterschiedliche Ergebnisse von Test A und Test B evtl darauf zurückzuführen, dass sie nicht 100% parallel sind. Man nimmt aber fälschlicherweise an, dass die unterschiedlichen Ergebnisse allein durch die Fehlervarianz verursacht werden
Problem #3: Längere Intervalle der Testdarbietung kann mit unsystematischen Veränderungen der wahren Werte einhergehen —> Unterschätzung der Reliabilität
Retest-Reliabilität
- Der gleiche Test wird der gleichen Stichprobe zweimal vorgelegt, einmal zum Zeitpunkt x und später zum Zeitpunkt y
- Annahme: Die wahren Werte der Personen zwischen den beiden Testdurchführungen verändern sich nicht und die Messfehlereinflüsse bleiben gleich
- Die Retest-Reliabilität wird insgesamt eher bestimmt um zu sehen, wie stabil über die Zeit ein bestimmter Test ist, nicht dazu wie genau ein Test zum Zeitpunkt x misst
Split-half-Reliabilität / Testhalbierungsreliabilität
- Items eines Tests werden in zwei möglichst parallele Testhälften aufgeteilt
- Korrelation der beiden (parallelen) Testhälften dient zur Schätzung der Reliabilität
- Da ich meinen Test halbiert (also verkürzt) habe, ist die Reliabilität der nun nur noch halb so langen Tests vermindert —> Verwendung der Spearman-Brown-Formel um die Reliabilität wieder hochzurechnen auf einen Test der ursprünglichen Länge
- Nach welchen Methoden kann ich meinen Test halbieren?
- Odd-Even Methode:
- Ungradzahlige Items („odd“) werden der einen, gradzahlige Items („even“) der anderen Testhälfte zugeordnet
- Sinnvoll, wenn Schwierigkeiten der Items über den Test hinweg ansteigen
- Zeitpartitionierungsmethode:
- Einteilung des Tests in zwei zeitlich gleich lange Abschnitte (gesamt 30 Minuten, Hälfte bei 15min)
- Sinnvoll bei homogenen Tests mit vielen gleichartigen Items
- Itemzwillinge:
- Suche von Paaren von Items mit möglichst gleicher Itemschwierigkeit und Trennschärfe („matching“)
- Sinnvoll bei heterogenen Tests
Interne Konsistenz
- Standardmethode, wird bei fast allen Tests angewendet, die nach der KTT konstruiert wurden
- Es gibt viele verschiedene Formeln, die die interne Konsistenz jeweils leicht anders berechnen, die häufigste ist Cronbachs alpha
- Die Interne Konsistenz ist die Verallgemeinerung der Testhalbierungsmethode auf beliebig viele Testteile —> jedes Item wird als eigenständige Messung des Merkmals aufgefasst (macht ja auch Sinn, alle Items sollten ja das gleiche Merkmal messen). Der Test wird in m Teile aufgeteilt und die Summe der Varianzen der Testteile zur Varianz des Gesamttests in Relation gesetzt
- Wenn Testteile korrelieren —> Var(x) wird größer —> Bruch wird kleiner —> alpha wird größer
- Vorteil: sehr einfache Methode die Reliabilität eines Tests zu schätzen
- Grundannahmen:
- Jede Kovarianz zwischen beliebigen Testteilen kann als wahre Varianz betrachtet werden (denn die Testteile messen ja alle das gleiche)
- Jedes Item ist im Grunde ein eigener Test und diese eigenen Tests sind alle parallel zueinander (gleiche wahre Werte + Fehlervarianzen). Das ist häufig nicht erfüllt. Ausreichend als Voraussetzung für Cronbachs alpha ist aber schon die. τ-Äquivalenz oder essentielle τ-Äquivalenz
- τ-Äquivalenz: Gleiche wahren Werte, aber unterschiedliche Fehlervarianzen
- Essentielle τ-Äquivalenz: Wahren Werte unterscheiden sich um eine additive Konstante
—> Cronbachs alpha is also nicht geeignet bei heterogenen Tests!
—> Cronbachs alpha ist kein Maß für Eindimensionalität! Es kann sein, dass die Items alle perfekt miteinander korrelieren, aber trotzdem unterschiedliche Dinge messen (Beispiel???
Kritik an der klassischen Testtheorie
Die Reliabilität, so wie man sie nach der KTT bestimmt, ist populationsabhängig.
Eigentlich ist Reliabilität aber eine Eigenschaft eines Tests und sollte demnach populationsunabhängig sein.