7. VL. Reliabilität 2: Vier Methoden der Reliabilitätsbestimmung und der Beurteilung der Reliabilität Flashcards
Repetition: Welche 2 Methoden zur Reliabilitätsbestimmung gibt es?
- Retest-Reliabilität
- Paralleltest-Reliabilität
- Splithalf-Reliabilität
- Innere KOnsistenz
Statistisch beruhen alle diese Methoden auf Korrelationen und der Annahme der Domain-Sampling-Modelle der KTT. Was bedeutet das?
- Es gibt ein Universum von möglichen Items zu einem Merkmal
- daraus lassen sich parallele Itemstichproben ziehen (zufällig!)
- Reliabilitäts-Analyse: Wir schätzen, wie gross der Fehler ist, wenn wir vom Testwert vom wahren Wert schätzen
–> Je grösser die Itemstichprobe, damit je mehr Items, desto besser wird das Universum repräsentiert und desto höher ist die Reliabilität
Test-Retest-Reliabilität!
- Definiere
- Voraussetzungen
- Anwendung
- Probleme
- Berechnung
- Definition: Ausmass, indem bei denselben Probanden und mit demselben Test die Ergebnisse mehrerer Messungen (in einem angemessenen Zeitabstand) miteinander korrelieren - Autokorrelation!
- Voraussetzung: konstante Test- und Fehlerwerte
- Anwendung: Speedtest, Persönlichkeitstest (stabiles Merkmal)
- Probleme:
- zeitaufwändig
- teuer
- carry-over-Effekte
- Merkmalsfluktuation - Berechnung:
Rel = Var (t) / Var (x) = Corr (x1, x2)
Was ist ein Carry-Over-Effekt und was sind mögliche Einflussfaktoren?
Wie sollte das Retes-Intervall aussehen?
Carry-over-Effekt: Unterschätzung der Reliabilität bei unsystematischen Veränderungen. Niedrige Reliabilität, falls das Merkmal nicht stabil ist.
Einflussfaktoren:
- Testabstand (Intervall)
- Gedächtniseffekte
- Übungs- und Lerneffekte
- Merkmalsfluktuation
Falls das Retest-Interval…
… zu kurz ist, dann höhere Wahr. für Carry-Over
… zu lang ist, dann sind Merkmalsveränderungen mögl.
Paralleltest-Reliabilität:
- Definiere
- Berechung
- Voraussetzung
- Anwendung
- Paralleltest-Reliabilität: Korrelation zwischen Test A und seinem Paralleltest B bei denselben Probanden. Die Übereinstimmung der Testscores = Reliabilität.
- Berechung: Rel (x) = Corr (xA, xB)
- Voraussetzung: Test A und B sind äquivalent.
- > gleiche Testwert- und Fehlervarianz. Das gleiche Merkmal wird mit der gleichen Genauigkeit (Reliabilität) und der gleichen Validität gemessen. - Anwendung: Niveau- und Speedtests, für Persönlichkeitstest meist zu aufwändig um zu konstruieren.
Paralleltest-Reliabilität:
- Probleme
- Probleme:
- schwierig, einen äquivalenten Test zu konstruieren
- deshalb deskriptive Überprüfung, ob die wichtigsten Kennwerte äquivalent sind (Mittelwert, Varianz, SI ect, aber auch Validität und Reliabilität der Einzeltests.)
- besser mit konfirmatorischer Faktorenanalyse testen
Paralleltest-Reliabilität:
6. Einflussfaktoren:
- Einflussfaktoren:
- Carry-Over-Effekte: ist zwar vermindert, aber das Übertragen von Lösungsprinzipien ist trotzdem möglich.
- Item-Unterschiede: Merkmal wird mit ähnlichen und nicht mit identischen Items berechnet
- Testabstand: eher kürzer zu wählen
- Reliabilität der einzelnen Testformen
Wie hoch kann die Paralleltest-Reliabilität höchstens sein?
Die Paralleltest-Reliabilität kann nur so hoch sein, wie die Reliabilität der einzelnen Tests oder Testformen, weil:
Maximal mögliche Korrelation zwischen zwei Variablen/Tests/Merkmalen:
Rmax = R1 * R2 (Wurzel ziehen)
- Falls einer der beiden Tests weniger reliabel wäre, dann würde die Reliabilität der Parallelform niedriger ausfallen und die tatsächliche Reliabilität der Testformen würde unterschätzt.
- es ist möglich, dass die Paralleltestreliabilität niedriger ausfällt als jede der beiden Testformen
Splithalf-Reliabilität
- Definition
- Voraussetzung
- Methoden der Aufteilung
- Definiton: Korrelation zwischen zwei Hälften desselben Tests bei denselben Versuchspersonen.
- Vorgabe eines einzigen Tests (einmalige Durchführung)
- Bildung von zwei parallelen Hälften (desselben Tests)
- Bildung eines Testscores je Pb und Testhälfte
- Korrelation der zwei Testscores - Voraussetzung: Testhälften sind wirklich äquivalent und gleich lang
- Methoden zur Aufteilung:
- Zufällig
- Odd-Even
- Itemzwillinge
- Aufteilung nach Testzeit
Splithalf-Reliabilität:
- Anwendung
- Berechnung
- Anwendung: Wenn die anderen Methoden nicht praktisch sind
- Berechnung:
- 1. Korrelation der beiden Tetshälften
- 2. Ander dann: Aufwertung der Korrelation durch Korrekturformel
Warum nicht einfach Korrelation der beiden Hälften?
- jede Hälfte hat nur die Hälfte der Aussagekraft des ganzen Tests
- d.h. Halbtestkorrelation entspricht nur der Reliabilität eines Tests halber Länge (Reliabilität wird in der Regel geringen bei sinkender Itemzahl)
Spearman-Brown Korrektur:
Rel (2l) = 2Rel / 1+Rel
–> ohne Korrektur wird die Reliabilität unterschätzt
Beschreibe die Verallgemeinerung der Spearman-Brown-Formel.
Wichtige Funktion ist die Vorausschätzung:
- Wie hoch wird die Reliabilität ausfallen, wenn ein Test um eine bestimmte Anzahl von Items verlängert oder verkürzt wird?
- Wie viele Items sind einem Test hinzuzufügen, um eine bestimmte Reliabilitätshöhe zu erreichen?
Berechnung:
Rel (kl) = k Rel / 1+ (k-1) * Rel
k = Itemzahl nach Korrektur / Itemzahl vor Korrektur
Es gilt bei der Verlängerung:
- k > 1
- der Zähler nimmt mehr zu als der Nenner. d.h
der Anteil der wahren Varianz nimmt stärker zu als derjenige der Fehlervarianz, Reliabilität steigt!
- der Reliabilitätsgewinn ist grösser bei anfänglich tiefer Reliabilität
Interne Konsistenz:
- Definition
2 Vorgehen - Voraussetzung
- Anwendung
- Interne Konsistenz: Ausmass der Zusammenhänge (Interintemkorrelation) der Items. Wiederspiegelt das Ausmass, zu welchem die einzelnen Probanden alle Items in gleicher Weise beantworten.
- Erweiterung der Splithalf: Ein Test wird in so viele Teile/Paralleltests wie Items zerlegt. Der mittlere Splithalf Koeffizient der Teile wird ermittelt. - Vorgehen: Vorgabe eines einzigen Tests, einmalige Durchführung
- Voraussetzung: Test / Merkmal ist homogen, d.h. alle Items erfassen das gleiche Merkmal (und sind zumindest essentiell tau-äquivalent)
- Anwendung:
- sinnvoll bei homogenen Merkmalen und einmaliger Messung (z.B Niveau- und Persönlichkeitstests, momentane Zustände)
- nicht angebracht bei Speedtests, bei Tests mit steigender Schwierigkeit oder bei heterogenen Tests / Merkmalen
Wie wird die Interne Konsistenz berechnet?
Es gibt verschiedene Konsistenzkoeffizienten (alle basieren grundsätzlich auf Interitemkorrelation)
- der am häufigste gebrauchte ist Cronbachs-Alpha
- falls nicht essentiell tau-äquivalent, dann entspricht Alpha der unteren Grenze (konservativer Index der Reliablität)
- Alpha ist abhängig von Anzahl Items und Grösse der Item-Interkorrelation
- Wenn Items unkorreliert, dann Itemvarianz gleich Testvarianz und Alpha = 0.
- Alpha ist höher bei mehr Items, solange diese positiv miteinander korrelieren.
Wie kann Alpha interpretiert werden?
- Alpha ist kein Beleg für die Eindimensionalität
- Alpha kann auch bei mehrdimensionalen Merkmalen hoch sein, falls die Dimensionen miteinander korrelieren.
- Alpha misst nur Zusammenhänge und keine Divergenzen, vgl. Faktorenanalyse
- Alpha ist ein Mass für die Interne Konsistenz
Was bedeutet ein tiefer Cronbachs-Alpha-Koeffizient?
- Items sind nicht eindimensional
- geringe Probandenzahlen produzieren hohe Stichprobenfehler
- Ausreisser oder Inkonsistenzen in der Beantwortung führen zu negativen Kovarianzen
- Kodierung von negative gepoolten Items sind mit positiv gepoolten Items vermengt
- Items messen etwas inhaltlich Verschiedenes und / oder Entgegengesetztes