6. VL: Reliablität 1: Axiome der Klassischen Testtheorie (KTT) und Ablwitung Reliabilität Flashcards by Anika Zumthurm

Womit befasst sich die KTT?

Dem Zusammenhang zwischen emprischen Testwerten und der zu messenden tatsächlichen Merkmalsausprägung.
Den Anforderungen, denen ein Test genügen muss, um aufgrund eines Testergebnisses auf die tatsächliche Ausprägung des Merkmals schliessen zu können.

–> Aus diesen Vorgaben können die Gütekriterien (und deren Berechnung) abgeleitet werden.

How well did you know this?

Not at all

Perfectly

Was sollen Theorien können?

Theorien sollen vor allem erklären und nicht nur beschreiben!
Soll den systematischen Zusammenhang zwischen Items durch latente Personen-Variablen erklären

How well did you know this?

Not at all

Perfectly

Stimmen diese beiden Aussagen?

Die KTT bildet die Grundlage für die meisten Testverfahren
KTT befasst sich mit der Messung und deren Ungenauigkeit

Beide Aussagen stimmen.

How well did you know this?

Not at all

Perfectly

In welche Bestandteile lassen sich die Messwerte aufgliedern?

Was misst die Reliabilität in diesem Fall?

Ein Testwert (X) enthält:

wahrer Wert (t)
Fehler/Zufallswert (e)

Deshalb lässt sich die Reliabilität (Präzision eines Tests) betrachten als..
.. Messgenauigkeit
.. Messfehler

How well did you know this?

Not at all

Perfectly

Worüber macht die KTT keine direkten Aussagen?

Es bezieht sich nicht auf den Inhalt eines Tests! Die KTT macht keine direkten Aussagen über die eigentlichen Zusammenhänge zwischen psychologischen Merkmalen und dem Verhalten in einem Test.

How well did you know this?

Not at all

Perfectly

Was ist der Unterschied zwischen der Klassischen Testtheorie (KTT) und der Probablistischen Theorie (IRT)?

KTT:

Befasst sich mit der Messung und deren Ungenauigkeiten
Bestandteile, in welche sich Messwerte aufgliedern lassen
macht aber keine Aussage darüber, WIE die Leistung oder Antwort zustande gekommen ist, stellte keine direkte Verbindung her zwischen Fähigkeiten/Merkmal/Eigenschaften und der Itembeantwortung

IRT:

Befasst sich direkt mit dem Zusammenhang von Testverhalten und dem zu erfassenden psychischen Merkmal
untersucht das Antwortmuster
Beziehung zwischen Eigenschaftsausprägung und Itemlösewahrscheinlichkeit ist probabilistisch
testet direkt, ob das Antwortmuster durch das latente Konstrukt zustande kommt

How well did you know this?

Not at all

Perfectly

Beschreibe die Axiome der KTT:

Problemlage: Wie kann aus einer Anzahl von Verhaltensbeobachtungen x von Versuchspersonen v in bestimmten Situationen i auf den wahren Wert t geschlossen werden?

Axiome: formal-logische, nicht falsifizierbare Relation zwischen definierten Modellkomponenten. Bildet die zentrale Grundannahme, die sich selber nicht weiter ableiten lässt – empirisch nicht direkt überprüfbar!

How well did you know this?

Not at all

Perfectly

Welches sind die 3 Axiome?

Existenzaxiom
Verknüpfungsaxiom
Unabhängigkeitsaxiom

How well did you know this?

Not at all

Perfectly

Beschreibe das Existenzaxiom!

Es existiert ein wahrer Wert (true score) tvi als Erwartungswert E einer Messung Xvi.

tvi = E (Xvi)

Erwartungswert = Mittelwert einer theoretischen Verteilung

How well did you know this?

Not at all

Perfectly

Beschreibe das Verknüpfungsaxiom!

Ein beobachteter Messwert X setzt sich zusammen aus einem konstanten wahren Wert t und einem zufälligen Fehlerwert E.

Xvi = Tvi + Evi

Der zufällige Fehlerwert E ist die Differnez zwischen beobachtetem Testwert X und dem wahren Wert T einer Person. Er repräsentiert alle unkontrollierten, unsystematischen Störeinflüsse.

Evi = Xvi - Tvi

How well did you know this?

Not at all

Perfectly

Beschreibe das Unabhängigkeitsaxiom!

Messfehler und wahrer Wert korrelieren nicht systematisch miteinander

Corr (tvi, evi) = 0

D.h die Höhe und Richtung des Messfehlers e ist unabhängig vom wahren Ausprägungsgrad t des getesteten Merkmals.

Bsp. Fehlereinflüsse durch die Tagesform sind bei Personen mit hoher bzw. niedriger IQ in gleicher Weise wirksam.

How well did you know this?

Not at all

Perfectly

Erkläre die Zusatzannahmen der Axiome!

Die Messfehler einzelner Items sind unkorreliert:
1. Die Messfehler der Messung mit den Items i und j von derselben Person v sind unabhängig voneinander.
Corr ( evj, evi) = 0

Die Messfehler der Messungen mit demselben Item i von den Personen v und w sind unabhängig voneinander.
Corr (evi, ewi) = 0

How well did you know this?

Not at all

Perfectly

Was ergibt sich aus der Kombination von Existenz und Verknüpfungsaxiom?

Aus dem 1. und 2. Axiom in Kombination ergibt sich, dass der Erwartungswert des Zufallsfehler evi gleich null ist.

E(evi) = 0
Auch: Mittelwert der Fehler = 0.

Konzept des Messfehlers: Messfehler umfassen die Gesamtheit alles unsystematischen und nicht kontrollierbaren oder vorhersagbaren potentiellen Einflussgrössen auf das Messergebnis.

Der Erwartungswert des Testwertes einer Person xv (Summe aller Items eines Tests) ist der wahre Wert tv (Summe der wahren Werte der Items.)

How well did you know this?

Not at all

Perfectly

Repetition: Was ist Varianz?

Varianz: Durchschnittliche Abweichung/ Fehler zwischen dem Mittelwert und den Beobachtungen.
Bsp. M = 2,6 Freunde, ich habe aber 5

Problem: Einheiten sich quadriert “Quadratfreunde”.
Wurzel aus der Varianz ziehen = Standardabweichung!

Wenn die Bedingungen gegeben sind, dann ist die Kovarianz der beobachteten und wahren Werte identisch mit der Varianz der wahren Werte.

How well did you know this?

Not at all

Perfectly

Was nützten uns die Axiome?

ermöglicht eine Schätzung des durschschnittlichen Messfehlers eines Tests, erleichtert die Interpretation vom beobachteten Messwert X.
Messwertsumme wird als Punktschätzung des wahren Wertes gebraucht.
Schätzung Fehlervarianz: Varianz der Fehler der Person v. hilft bei der Interpretation, wie gut gegebene Messwertsumme als Schätzung des wahren Wertes ist.

How well did you know this?

Not at all

Perfectly

Was sind die Voraussetzungen für die Axiome?

Je Individuum variiert nur e (Fehler), t (wahrer Wert) bleibt invariant.

der wahre Wert gilt als stabil
wenn sich der individuelle wahre Wert verändern würde, liesse sich die Variantion nicht mehr eindeutig in wahre Anteile und Fehleranteile trennen lassen

= Die KTT lässt sich nur auf stabile Merkmale anwenden (traits)

Was sind die Einschränkungen in den Axiomen der KTT? Bzw. welches Skalenniveau wird gefordert?

Die KTT ist nur für Werte definiert, für die die Berechnung von Differenzen sinnvoll ist.

für kategoriale oder ordinale Daten machen Differenzen keinen Sinn
Erst auf Intervallskalenniveau sind Differenzen sinnvoll definiert

Beschreibe die Reliabilität als Kernkonzept der KTT und beschreibe auch die Unreliabilität!

= Messgenauigkeit eines Test

Die Reliabilität eines Tests ist definiert als der Anteil Varianz der wahren Testwerte an der Varianz der beobachteten Testwerte.
Rel = Var (t) / Var (x)

Die Unreliabilität ist definiert als Anteil Fehlervarianz an der Varianz der beobachteten Testwerte.
= 1- Rel

Was kann ein Reliabilitätskoeffizient für Zahlen annehmen?

Reliabilität als Quotient aus der Varianz der wahren und beobachteten Werte: t / x

Reliabilitätskoeffizient kann Werte zwischen 0 und 1 annehmen.

Rel = 0.5 = Systematsiche wahre Varianz und Fehlervarianz bestimmen den beobachteten Wert zu je 50%

Rel = 0.8 = 80% wahre Varianz, 20% Fehlervarianz

Rel = 1 = Test misst völlig fehlerfrei

Rel = 0 = Test misst gar nichts

Beschreibe den Standardmessfehler! (SMF)

Definition: Der Anteil der Standardabweichung eines Test, der zu Lasten seiner Unreliabilität geht.

Standardmessfehler erlaubt ein Konfidenzintervall um den beobachteten Wert zu bilden, indem sich der wahre Wert mit bestimmter Wahrscheinlichkeit befindet.

Je reliabler das Messinstrument desto kleiner der Standardmessfehler (SMF).

Beschreibe das Konfidenzintervall.

Das Konfidenzintervall kennzeichnet den Bereich eines Merkmals, indem sich 95% (99%) aller möglichen Populationsparameter befinden, die den empirisch ermittelten Stichprobenkennwert erzeugt haben können.

Der SMF erlaubt es, das Vertrauenintervall zu schätzen, innerhalb dessen bei gegebenem beobachtetem Testwert der wahre Wert liegt.

Es wird dabei von einer Irrtumswahrscheinlichkeit von 5% ausgegangen.

Je schmaler das Konfidenzintervall, desto grösser die Wahrscheinlichkeit, dass der Wert auch wirklich stimmt.

Wie hängen SMF und Konfidenzintervall zusammen?

Je geringer der SMF, und desto grösser die Reliabilität, desto schmaler das Konfidenzintervall und desto grösser die Wahrscheinlichkeit, dass der Wert auch wirklich stimmt.

Beispiel: Eine Person hat einen Testwert von 110, Standardabweichung ist 15. KI = 13.1.
Ist die Aussage, dass die Person einen höheren IQ als 100 hat auf dem 5% Niveau signifikant?

Nein, denn das Konfidenzintervall reicht von 97 - 123.
d.h mit 95% Wahrscheinlichkeit befindet sich der Wert zwischen diesen Zahlen und somit ist es nicht über 100.

Man kann auch nicht mit statistischer Sicherheit sagen, ob die Person überintelligent ist (IQ>115) denn der wahre Wert kann auch grösser sein (bis 123).

Wie wird die KTT beurteilt, was sind die Vor- und Nachteile?

Die KTT hat sich in der Praxis zur Beurteilung der Reliabilität bewährt.

Vorteil:
- Die KTT ist ökonomisch und praktisch!

Nachteil:

Aber: Reine Messfehlertheorie (Probanden und Messfehler als Vaianzquelle und nicht als Beurteiler- oder Methodeneffekt)
wahrer Wert wird als invariant betrachtet (nur traits)

KTT: Beschreibe das Problem der Skalierung!

- Annahme, dass der beobachtete Wert aus wahrem Wert und Fehlerwert zusammengesetzt ist, kann nicht empirisch überprüft werden, da es nicht direkt beobachtbar ist - Intervallskalenniveau der Testwerte kann nicht überprüft werden, wird aber von der KTT vorausgesetzt.

KTT: Beschreibe das Problem der Konstruktvalidität.

Homogenität kann nicht nachgewiesen werden, ist aber Voraussetzung für valide Summenwerte. (Ersatz: Itemtrennschärfe, Iteminterkorrelation)

KTT: Beschreibe das Problem der Stichprobenabhängigkeit.

- Kennwerte der KTT, v.a Itemschwierigkeit, Itemtrennschärfe und Reliabilität sind stichprobenabhängig. - Je nachdem, welche Personen in der Stichprobe sind, können unterschiedliche Kennwerte resultieren. Verallgemeinerbarkeit ist unklar.

Gibt es eine Möglichkeit die Grenzen bei der Beurteilung der KTT zu umgehen bzw. zu überwinden?

Ja durch die Item-Response-Theorie! (IRT)