Methoden der Reliabilitätsforschung Flashcards
Reliabilität
Grad der Genauigkeit, mit der ein Verfahren ein bestimmtes Merkmal misst (gleichgültig, ob er dieses auch zu messen beansprucht)
- Ein Verfahren ist perfekt reliabel , wenn die damit erhobenen Testwerte frei von Messfehlern sind.
- Es ist umso weniger reliabel, je größer die Einflüsse von zufälligen Messfehlern sind.
Retest- Methode
diagnostisches Verfahren wird zu zwei Zeitpunkten an ein und derselben Personenstichprobe zur Anwendung gebracht
–> Ergebnisse der beiden Durchführungen
werden miteinander korreliert
Probleme der Retest- Methode
- Zeitaufwand/Kosten
- unverständlich für Probanden (z.B. bei Interviews)
•Voraussetzung: konstante wahre Werte –>
sonst Unterschätzung der tatsächlichen Reliabilität durch Bestimmung der Retest Reliabilität bei unsystematischen Veränderungen
-Indiv . Übungseffekte
-Indiv . Wissenszuwächse
-Indiv . Situationsspezifische Einflüsse
-Rolle von Tagesverfassung
(z.B. Einfluss schwüles Wetter, Tageszeit usw.)
-Instabile Merkmale mit individuell unterschiedlichen Entwicklungsverläufen
•Überschätzung durch Erinnerungseffekte
Paralleltest- Methode
Korrelation zwischen zwei parallelen Testformen, z.B. Version a und b einer Klausur
Probleme der Paralleltest- Methode
•Prüfung der Parallelität
•Problem der zeitlichen Stabilität;
•falls nicht direkt
hintereinander getestet,
•evtl. Unterschätzung durch verschiedene individuelle situative Einflüsse
- falls Vorgabe direkt hintereinander,
- evtl. Überschätzung durch gleiche individuelle situative Einflüsse
–> Ausbalancierte Vorgabe um systematische Übertragungseffekte auszuschließen (Eine Hälfte der Stichtprobe bekommt erst Testform a und dann b un die andere Hälfte umgekehrt.)
Testhalbierungsmethode / Split-half-Methode
- Teile eines in geeigneter Weise aufgeteilten Tests werden als „Parallelformen“ aufgefasst
- Korrelation der Testhälften
- Auf Reliabilität des Gesamttests hochrechnen
Vorteile & Probleme dieser Methode
- Wenn Items inhaltlich homogen: Berechnung ist einfach
- die Erstellung der Testhälften ist aber keine Garantie dafür, dass parallele Testhälften entstehen
- Unterschätzung tatsächlicher Reliabilität, wenn die Testhälften nicht optimal gebildet wurden
Interne Konsistenz
Teilung des Tests in so viele Teile wie Items
umso höher, he höher die durchschnittliche Interkorrelation alles Items eines Tests ist.
Cronbachs alpha
Cronbach’s alpha is a measure of internal consistency, that is, how closely related a set of items are as a group. It is considered to be a measure of scale reliability.
- (essentielle) τ-Äquivalenz: gleiche wahre Werte, aber unterschiedliche Fehlervarianzen möglich (plus Konstante)
- Essentielle τ-Äquivalenz als Voraussetzung für korrekte Reliabilitätsschätzung durch α –> wenn nicht erfüllt: α als untere Grenze der Reliabilität
Interpretatation von Cronbachs alpha
•hohe Werte oft fälschlicherweise als Hinweis auf Eindimensionalität gewertet.
•kann vorkommen, wenn mehrere Konstrukte vermischt sind
•abhängig von Itemanzahl
•soll nur als Maß für „innere Konsistenz“ interpretiert werden
•Problem invers formulierter Items (Methodenvarianz widerspricht essentielle τ Äquivalenz)
•bei negativen Werten:
Kontrolle, ob invers formulierte Items umkodiert wurden
•ungeschickte Formulierungen können zu geringen Werten
führen
•Eindimensionalität kann mit Modellen der Item Response Theorie oder mit Konfirmatorischen Faktorenanalysen geprüft werden
Vorteile / Probleme dieser Bestimmungsmethode (α)
- einmalige Anwendung des diagnostischen Verfahrens
- weitere Verfahrenskonstruktionen nicht notwendig
ABER:
bei Verfahren, die aus heterogenen Items bestehen, nicht geeignet (tatsächlich Reliabilität wird oft unterschätzt)
Wie lässt sich die Reliabilität optimieren?
•klare Instruktionen
•Übungsbeispiele
•klare Formulierung der Items
•klare Auswertungsregeln
•Items mit geringer Trennschärfe entfernen
•Verlängerung des Tests (um parallele Items!)
………
Interpretation der Reliabilität
- Leistungsvariablen lassen sich meist präziser messen als Einstellungen (von .90 bis .95 vs. ca. .70)
- Nutzen auch von anderen Gütekriterien abhängig machen (z.B, Valitdität)
Als allgemeine Richtwerte gelten:
- 70 als untere Grenze des Reliabilitätswertes
- .80 - .90 als guter Reliabilitätswert
- > .90 als sehr guter Reliabilitätswert