Reliabilität Flashcards
def reliabilität
Reliabilität = Genauigkeit/Zuverlässigkeit, mit der ein Test ein bestimmtes Merkmal misst, unabhängig davon, ob der Test das gemessene Merkmal messen sollte.
Freiheit von Messfehlern.
Kernkonstrukt der Klassischen Testtheorie.
Die Reliabilität eines Tests ist definiert als der Anteil der Varianz der wahren Werte an der Varianz der beobachteten Testwerte:
Varianzzerlegung:
Für eine einzelne Messung liegt nur die beobachtete Messung X vor. Der individuelle wahre Wert und der Fehleranteil an der Messung lassen sich nicht bestimmen.
Für mehrere bzw. wiederholte Messungen lässt sich aber die Varianz der beobachteten Messwerte zerlegen in “wahre” Varianz und Fehlervarianz.
Var(X) = Var(T) + Var(E)
Voraussetzungen der Reliabilitätsschätzung
- wiederholte Messungen unter vergleichbaren Bedingungen.
- Angenommen wird die Unkorreliertheit der (unsystematischen) Messfehler unterschiedlicher Messungen.
- Grad der Übereinstimmung wahrer Werte ist zu definieren.
- Gleichheit der Fehlervarianzen wiederholter Messungen anzunehmen?
WieAGra
inwiefern spielt die Äquivalenz eine Rolle bei der Reliabilität?
Wichtig für eine präzise Schätzung der Reliabilität ist die Äquivalenz (Gleichwertigkeit) von Messungen.
Qualität von wiederholten Messungen oft unterschiedlich:
–> Gleichheit der Eigenschaften zwischen zwei Messungen beschrieben durch Äquivalenz.
Von der Äquivalenz hängt es ab, welche Formel zur Schätzung der Reliabilität verwendet wird.
zuerst die Ä von Messungen bestimmen um den passenden Reliabilitätskoeffizienten zu wählen.
welche arten von Äquivalenzen gibt es?
- (streng) parallel
Alle Items weisen die gleichen wahren Werte und die gleichen Fehlervarianzen auf. - im Wesentlichen/essenziell parallel
Alle Items weisen die gleichen Fehlervarianzen auf, die wahren Werte sind um eine additive Konstante verschoben. - tau-äquivalent
Alle Items weisen die gleichen wahren Werte auf, die Fehlervarianzen unterscheiden sich. - im Wesentlichen/essenziell tau-äquivalent
Die wahren Werte sind um eine additive Konstante verschoben, die Fehlervarianzen unterscheiden sich. - tau-kongenerisch
Test ist faktoriell homogen (alle Items genügen dem Ein-Faktormodell), Messungen haben unterschiedliche Einheiten.
Parallele Messungen:
Bei parallelen Messungen sind für jede Person der wahre Wert T und der Messfehler in beiden Messungen gleich. Das heißt, eine Person erzielt in Test A den gleichen
wahren Wert wie in Test B und die Messfehler beider Tests sind gleich.
Korrelation der beiden Messungen mit Außenkriterium gleich hoch.
Höhe der Reliabilität und Validität für beide Messungen gleich.
Bei im Wesentlichen parallelen Messungen ist der wahre Wert in einem Test um eine additive Konstante verschoben.
Durch eine konfirmatorische Faktorenanalyse kann festgestellt werden, ob alle Faktorladungen und Fehlervarianzen gleich hoch sind (= im Wesentlichen parallele Messung).
tau-kongenerische Messungen:
Kongenerische Messungen bilden, abgesehen von einer additiven Konstanten und einer multiplikative Konstante — dieselbe Fähigkeit ab.
Tests, Testteile oder Items dürfen unterschiedliche Maßeinheiten, Mittelwerte und Fehlervarianzen aufweisen, aber die wahren Werte sollen perfekt miteinander korrelieren.
Items sind kongenerisch, wenn sie eindimensional sind:
Faktorenanalyse: Alle Items laden nur auf einem Faktor (Faktorladungen und Fehlervarianzen der Items auf dem Faktor können variieren).
Methoden zur Reliabilitätsschätzung
Testhalbierung,
interne Konsistenz
Paralleltest
Retest
Testhalbierung
Einmalige Durchführung eines Tests an einer Stichprobe.
Der Test wird nach bestimmten Methoden in zwei Testhälften unterteilt, wobei beide Testhälften parallel sein sollten:
- Odd-Even
- Zufällige Aufteilung
- Itemzwillinge
- Aufteilung der Aufgaben nach Testzeit
Odd-Even Methode
Odd-Even Methode z.B. bei Schnelligkeitstests beliebt, weil sich Übungs- oder Ermüdungse ekte gleichmäßig auf die Testteile verteilen (vgl. Stelzl und Tent, 1993).
Sie führt bei klassischen Schnelligkeitstests häufig zu einer hohen Reliabilität (vorausgesetzt es unterlaufen den Probanden kaum Fehler).
Nur geeignet, wenn beide Testhälften das selbe Merkmal messen.
Interne Konsistenz
Einmalige Durchführung eines Tests an einer Stichprobe.
Überprüfung des inneren Zusammenhangs der Items unter Berücksichtigung der Testlänge.
Test kann in so viele “Einzeltests” zerlegt werden, wie er Items besitzt.
Äquivalenz mindestens im Wesentlichen tau-äquivalent
Berechnung:
Berechnung erfolgt i.d.R. auf Basis von Itemvarianzen und Itemkovarianzen (z.B. Cronbachs Alpha).
Anwendung:
Sinnvoll, wenn homogene Merkmalsbereiche erfasst werden
sollen.
Auch anwendbar, wenn die Messung nur einmal durchführbar ist (Erfragung momentaner Zustände). Weniger sinnvoll für Schnelligkeitstests sowie Tests, die heterogene Konstrukte erfassen sollen.
Paralleltestmethode
Darbietung zweier Parallelformen eines Tests an der gleichen Stichprobe, wobei die Tests „parallel“ sein sollten
Parallelformen nicht immer möglich
Wegen geringen Zeitabstands zwischen den beiden Testungen ähnelt die Paralleltestmethode der Testhalbierungsmethode.
Berechnung:
Korrelation der Rohwertpaare aus beiden Testformen.
Anwendung:
Anwendbar bei Niveau- und Schnelligkeitstests
Auch bei parallelen Tests Übungs- und Transfere ekte wahrscheinlich; Kontrolle mittels „cross-over designs“
Gruppe 1: Test A - Test B Gruppe 2: Test B - Test A
Retestmethode
Wiederholte Darbietung des gleichen Tests an einer Stichprobe in gewissem Zeitabstand.
Zeitabstand sorgfältig wählen: beinflusst ggf. Höhe des Korrelationskoe zienten!
Übungs-/ Erinnerungse ekte
In der Regel wird der Korrelationskoe zient mit größerem Zeitabstand kleiner.
Vergleichbare Durchführungsbedingungen zu beiden Testzeiten.
Koeffzient auch Stabilitätskoeffzient genannt.
Berechnung:
Korrelation der Rohwertpaare zwischen der ersten und zweiten Testung.
Anwendung:
Bei Speedtests, bei denen interne Konsistenz wegen
Itemhomogenität zu Reliabilitätsüberschätzung führen kann.
Bei Persönlichkeitstests, die zeitlich stabile Merkmale erfassen sollen.
Generell bei Tests anwendbar, bei denen Lern- und Übungse ekte keine große Rolle spielen oder die sich aufgrund der Breite des Konstrukts nicht so gut zur Schätzung der Reliabilität in einer Session eignen.
Testhalbierungskoe zienten
Einfache Korrelation der Testhälften unterschätzt Reliabilität i.d.R.
Korrekturformeln zur Aufwertung der Korrelation auf tatsächliche Testlänge:
Messung parallel
- Spearman-Brown-Formel (Empfohlen, wenn beide Testhälften gleich groß sind.)
- Formel von Kristof (bei kleinem N)
Messung tau-äquivalent
- Formel von Guttman (Spezialfall des –-Koe zienten von Cronbach für zwei Testhälften.)
- Formel von Feldt (ungleich große Testteile)
Cronbach-alpha
Cronbach-alpha
- Der Cronbach-alpha-Koe zient gibt in Abhängigkeit von der Itemanzahl die Höhe der mittleren Itemzusammenhänge an.
- Korrelieren die Items positiv miteinander, gibt es einen positiven Zusammenhang zwischen der Höhe des Koe zienten und Anzahl der Testitems.
- Items, die mit anderen negativ korrelieren, reduzieren den Koe zienten.