6. VL: Reliablität 1: Axiome der Klassischen Testtheorie (KTT) und Ablwitung Reliabilität Flashcards
Womit befasst sich die KTT?
- Dem Zusammenhang zwischen emprischen Testwerten und der zu messenden tatsächlichen Merkmalsausprägung.
- Den Anforderungen, denen ein Test genügen muss, um aufgrund eines Testergebnisses auf die tatsächliche Ausprägung des Merkmals schliessen zu können.
–> Aus diesen Vorgaben können die Gütekriterien (und deren Berechnung) abgeleitet werden.
Was sollen Theorien können?
Theorien sollen vor allem erklären und nicht nur beschreiben!
Soll den systematischen Zusammenhang zwischen Items durch latente Personen-Variablen erklären
Stimmen diese beiden Aussagen?
- Die KTT bildet die Grundlage für die meisten Testverfahren
- KTT befasst sich mit der Messung und deren Ungenauigkeit
Beide Aussagen stimmen.
In welche Bestandteile lassen sich die Messwerte aufgliedern?
Was misst die Reliabilität in diesem Fall?
Ein Testwert (X) enthält:
- wahrer Wert (t)
- Fehler/Zufallswert (e)
Deshalb lässt sich die Reliabilität (Präzision eines Tests) betrachten als..
.. Messgenauigkeit
.. Messfehler
Worüber macht die KTT keine direkten Aussagen?
Es bezieht sich nicht auf den Inhalt eines Tests! Die KTT macht keine direkten Aussagen über die eigentlichen Zusammenhänge zwischen psychologischen Merkmalen und dem Verhalten in einem Test.
Was ist der Unterschied zwischen der Klassischen Testtheorie (KTT) und der Probablistischen Theorie (IRT)?
KTT:
- Befasst sich mit der Messung und deren Ungenauigkeiten
- Bestandteile, in welche sich Messwerte aufgliedern lassen
- macht aber keine Aussage darüber, WIE die Leistung oder Antwort zustande gekommen ist, stellte keine direkte Verbindung her zwischen Fähigkeiten/Merkmal/Eigenschaften und der Itembeantwortung
IRT:
- Befasst sich direkt mit dem Zusammenhang von Testverhalten und dem zu erfassenden psychischen Merkmal
- untersucht das Antwortmuster
- Beziehung zwischen Eigenschaftsausprägung und Itemlösewahrscheinlichkeit ist probabilistisch
- testet direkt, ob das Antwortmuster durch das latente Konstrukt zustande kommt
Beschreibe die Axiome der KTT:
Problemlage: Wie kann aus einer Anzahl von Verhaltensbeobachtungen x von Versuchspersonen v in bestimmten Situationen i auf den wahren Wert t geschlossen werden?
Axiome: formal-logische, nicht falsifizierbare Relation zwischen definierten Modellkomponenten. Bildet die zentrale Grundannahme, die sich selber nicht weiter ableiten lässt – empirisch nicht direkt überprüfbar!
Welches sind die 3 Axiome?
- Existenzaxiom
- Verknüpfungsaxiom
- Unabhängigkeitsaxiom
Beschreibe das Existenzaxiom!
Es existiert ein wahrer Wert (true score) tvi als Erwartungswert E einer Messung Xvi.
tvi = E (Xvi)
Erwartungswert = Mittelwert einer theoretischen Verteilung
Beschreibe das Verknüpfungsaxiom!
Ein beobachteter Messwert X setzt sich zusammen aus einem konstanten wahren Wert t und einem zufälligen Fehlerwert E.
Xvi = Tvi + Evi
Der zufällige Fehlerwert E ist die Differnez zwischen beobachtetem Testwert X und dem wahren Wert T einer Person. Er repräsentiert alle unkontrollierten, unsystematischen Störeinflüsse.
Evi = Xvi - Tvi
Beschreibe das Unabhängigkeitsaxiom!
Messfehler und wahrer Wert korrelieren nicht systematisch miteinander
Corr (tvi, evi) = 0
D.h die Höhe und Richtung des Messfehlers e ist unabhängig vom wahren Ausprägungsgrad t des getesteten Merkmals.
Bsp. Fehlereinflüsse durch die Tagesform sind bei Personen mit hoher bzw. niedriger IQ in gleicher Weise wirksam.
Erkläre die Zusatzannahmen der Axiome!
Die Messfehler einzelner Items sind unkorreliert:
1. Die Messfehler der Messung mit den Items i und j von derselben Person v sind unabhängig voneinander.
Corr ( evj, evi) = 0
- Die Messfehler der Messungen mit demselben Item i von den Personen v und w sind unabhängig voneinander.
Corr (evi, ewi) = 0
Was ergibt sich aus der Kombination von Existenz und Verknüpfungsaxiom?
Aus dem 1. und 2. Axiom in Kombination ergibt sich, dass der Erwartungswert des Zufallsfehler evi gleich null ist.
E(evi) = 0
Auch: Mittelwert der Fehler = 0.
Konzept des Messfehlers: Messfehler umfassen die Gesamtheit alles unsystematischen und nicht kontrollierbaren oder vorhersagbaren potentiellen Einflussgrössen auf das Messergebnis.
Der Erwartungswert des Testwertes einer Person xv (Summe aller Items eines Tests) ist der wahre Wert tv (Summe der wahren Werte der Items.)
Repetition: Was ist Varianz?
Varianz: Durchschnittliche Abweichung/ Fehler zwischen dem Mittelwert und den Beobachtungen.
Bsp. M = 2,6 Freunde, ich habe aber 5
Problem: Einheiten sich quadriert “Quadratfreunde”.
Wurzel aus der Varianz ziehen = Standardabweichung!
- Wenn die Bedingungen gegeben sind, dann ist die Kovarianz der beobachteten und wahren Werte identisch mit der Varianz der wahren Werte.
Was nützten uns die Axiome?
- ermöglicht eine Schätzung des durschschnittlichen Messfehlers eines Tests, erleichtert die Interpretation vom beobachteten Messwert X.
- Messwertsumme wird als Punktschätzung des wahren Wertes gebraucht.
- Schätzung Fehlervarianz: Varianz der Fehler der Person v. hilft bei der Interpretation, wie gut gegebene Messwertsumme als Schätzung des wahren Wertes ist.
Was sind die Voraussetzungen für die Axiome?
Je Individuum variiert nur e (Fehler), t (wahrer Wert) bleibt invariant.
- der wahre Wert gilt als stabil
- wenn sich der individuelle wahre Wert verändern würde, liesse sich die Variantion nicht mehr eindeutig in wahre Anteile und Fehleranteile trennen lassen
= Die KTT lässt sich nur auf stabile Merkmale anwenden (traits)
Was sind die Einschränkungen in den Axiomen der KTT? Bzw. welches Skalenniveau wird gefordert?
Die KTT ist nur für Werte definiert, für die die Berechnung von Differenzen sinnvoll ist.
- für kategoriale oder ordinale Daten machen Differenzen keinen Sinn
- Erst auf Intervallskalenniveau sind Differenzen sinnvoll definiert
Beschreibe die Reliabilität als Kernkonzept der KTT und beschreibe auch die Unreliabilität!
= Messgenauigkeit eines Test
Die Reliabilität eines Tests ist definiert als der Anteil Varianz der wahren Testwerte an der Varianz der beobachteten Testwerte.
Rel = Var (t) / Var (x)
Die Unreliabilität ist definiert als Anteil Fehlervarianz an der Varianz der beobachteten Testwerte.
= 1- Rel
Was kann ein Reliabilitätskoeffizient für Zahlen annehmen?
Reliabilität als Quotient aus der Varianz der wahren und beobachteten Werte: t / x
Reliabilitätskoeffizient kann Werte zwischen 0 und 1 annehmen.
Rel = 0.5 = Systematsiche wahre Varianz und Fehlervarianz bestimmen den beobachteten Wert zu je 50%
Rel = 0.8 = 80% wahre Varianz, 20% Fehlervarianz
Rel = 1 = Test misst völlig fehlerfrei
Rel = 0 = Test misst gar nichts
Beschreibe den Standardmessfehler! (SMF)
Definition: Der Anteil der Standardabweichung eines Test, der zu Lasten seiner Unreliabilität geht.
Standardmessfehler erlaubt ein Konfidenzintervall um den beobachteten Wert zu bilden, indem sich der wahre Wert mit bestimmter Wahrscheinlichkeit befindet.
Je reliabler das Messinstrument desto kleiner der Standardmessfehler (SMF).
Beschreibe das Konfidenzintervall.
Das Konfidenzintervall kennzeichnet den Bereich eines Merkmals, indem sich 95% (99%) aller möglichen Populationsparameter befinden, die den empirisch ermittelten Stichprobenkennwert erzeugt haben können.
Der SMF erlaubt es, das Vertrauenintervall zu schätzen, innerhalb dessen bei gegebenem beobachtetem Testwert der wahre Wert liegt.
Es wird dabei von einer Irrtumswahrscheinlichkeit von 5% ausgegangen.
Je schmaler das Konfidenzintervall, desto grösser die Wahrscheinlichkeit, dass der Wert auch wirklich stimmt.
Wie hängen SMF und Konfidenzintervall zusammen?
Je geringer der SMF, und desto grösser die Reliabilität, desto schmaler das Konfidenzintervall und desto grösser die Wahrscheinlichkeit, dass der Wert auch wirklich stimmt.
Beispiel: Eine Person hat einen Testwert von 110, Standardabweichung ist 15. KI = 13.1.
Ist die Aussage, dass die Person einen höheren IQ als 100 hat auf dem 5% Niveau signifikant?
Nein, denn das Konfidenzintervall reicht von 97 - 123.
d.h mit 95% Wahrscheinlichkeit befindet sich der Wert zwischen diesen Zahlen und somit ist es nicht über 100.
Man kann auch nicht mit statistischer Sicherheit sagen, ob die Person überintelligent ist (IQ>115) denn der wahre Wert kann auch grösser sein (bis 123).
Wie wird die KTT beurteilt, was sind die Vor- und Nachteile?
- Die KTT hat sich in der Praxis zur Beurteilung der Reliabilität bewährt.
Vorteil:
- Die KTT ist ökonomisch und praktisch!
Nachteil:
- Aber: Reine Messfehlertheorie (Probanden und Messfehler als Vaianzquelle und nicht als Beurteiler- oder Methodeneffekt)
- wahrer Wert wird als invariant betrachtet (nur traits)