6. Testtheorien Flashcards
Normierung
Liefert einen Bezug bzw. Vergleichsmaßstab zur Interpretation eines Tests
Zur aussagekräftigen und fairen Beurteilung individueller Rohwerte in einem Test im
Vergleich zu einer Referenzgruppe ist oft eine Transformation in sogenannte Normwerte notwendig.
Normwerte:
‒ Äquivalentnormen
‒ Abweichungsnormen
‒ Prozentrangnormen
Voraussetzungen:
‒ Repräsentativität der Stichprobe
‒ Standardisierte Durchführung der diagnostischen Erhebung
Äquivalentnormen
Zuordnung der Rohwerte zu dem Durchschnittswert der individuellen Referenzgruppe (z.B. Alter, Geschlecht, Bildungsstand, etc.)
Häufig bei Entwicklungsstanddiagnostik in Bezug auf die entsprechende Altersgruppe (z.B. kognitive Leistungsfähigkeit eines Kindes ausgedrückt in der durchschnittlichen Leistungsfähigkeit eines bestimmten Alters)
Bsp.: Die Aufmerksamkeit eines Kindes im Alter von 6 entspräche der eines durchschnittlichen…
‒ 5-Jährigen oder jünger (unterdurchschnittlich) ‒ 6-Jährigen (durchschnittlich)
‒ 7-Jährigen oder älter (überdurchschnittlich).
Abweichungsnormen
Transformation individueller Testwerte in Normwerte, welche angeben, wie weit eine Person über oder unter dem Durchschnitt einer repräsentativen Referenzpopulation liegt
Voraussetzung: Standardnormalverteilung und mind. Intervallskalenniveau individueller Werte
Übliche Abweichungsnormen (es gibt kein einheitliches Normsystem): ‒ z-Werte
‒ IQ-Werte
‒ T-Werte
‒ Stanine-Werte ‒…
Prozentränge
Transformation individueller Testwerte in Normwerte, welche angeben, welchen Rang eine Person im Vergleich zur Referenzgruppe einnimmt, ausgedrückt in % von Merkmalsträgern, die eine gleich große oder eine kleinere Merkmalsausprägung aufweisen.
Bsp.: Prozentrang von 20
20% der vergleichbaren Probandinnen haben
gleichen oder niedrigeren Testwert (80% der Probandinnen haben also höhere Werte)
Klassische Testtheorie
Gibt einen theoretischen Hintergrund zur Konstruktion und Interpretation von Testverfahren
Liefert theoretische Begründung der Reliabilität
Macht Annahmen über Messfehler, welche die Messgenauigkeit (Reliabilität)
beeinflussen
Messfehlertheorie
Ziel der KTT: Bestimmen der Messgenauigkeit und Schätzen des wahren Wertes Grundlage der meisten psychologischen Testverfahren!
Arten von Messfehlern
Messfehler = Messwert weicht vom wahren Wert einer Person ab
Testergebnisse einzelner Personen mit dem gleichen Test variieren zwischen
Messzeitpunkten Mögliche Gründe:
systematischer Fehler: z.B. Fähigkeit (z.B. hoch zu springen) wird durch ein
spezielles Aufbautraining (Übungseffekt) veränderlich („Antwortbias“)
unsystematische Fehler: beeinflusst innere (z.B. Motivation) oder äußere Einflüsse
(z.B. Regen/ Wind)
Die KTT berücksichtigt nur den unsystematischen Fehler!!! (Kritik!)
Die KTT postuliert 5 Axiome…
Grundannahmen der KTT (Axiome)
1.X=T+e
- X=T+e
Jeder beobachtete Messwert (X) einer Person setzt sich aus einem konstanten wahren Wert (T) und einem Messfehler (e) zusammen
Bzw.: Der Messfehler (e) repräsentiert alle unkontrollierten, unsystematischen Störeinflüsse
Alle weiteren Annahmen der KTT leiten sich aus dieser Grundannahme ab.
Grundannahmen der KTT
2.E(e) = 0
E(e) = 0
Der Erwartungswert E (Mittelwert) des Messfehlers (e) über unendlich viele Messungen einer Person oder bei Messung einer unendlich großen Population ist Null
Der Messfehler ist bei jeder Person eine Zufallsvariable (unsystematischer Messfehler) und verzerrt das Ergebnis mal in die eine, mal in die andere Richtung
Bei (unendlich) häufigen Messungen mittelt sich der unsystematische Messfehler aus Der wahre Wert einer Person lässt sich also über unendlich viele Messungen exakt
bestimmen
Man versucht also den Messfehler z.B. durch mehrere Messungen (Items) desselben Merkmals zu reduzieren
Grundannahmen der KTT
3. r(T, e) = 0
r(T, e) = 0
Es besteht kein korrelativer Zusammenhang (r) zwischen dem wahren Wert (T) einer Person und dem Messfehler (e)
Die Fehler sind zufällig (unsystematisch)
Der Test misst in allen Bereichen (Merkmalsausprägungen) gleich genau (eine niedrige Ausprägung
einer Eigenschaft wird ebenso genau gemessen wie eine mittlere oder hohe Ausprägung)
Grundannahmen der KTT
4.r(T2, e1) = 0
Der Messfehler (e) eines Tests 1 weist keinen Zusammenhang (r) mit dem wahren Wert (T) in einem Test 2 auf
Ausprägung in einem anderen Merkmal hat keinen Effekt auf den Messfehler (und andersrum) z.B. die Messgenauigkeit eines Intelligenztests ist nicht davon abhängig wie depressiv (gemessen
mit einem Depressionstest) ist
- r(e1, e2) = 0
Der Messfehler (e) eines Tests 1 (z.B. Konzentrationstest) steht nicht in Zusammenhang (r) mit dem Messfehler (e) eines Tests 2 (z.B. Intelligenztest)
Wenn die Testwerte beider Tests miteinander korrelieren, dann weil die beiden wahren Werte einen Zusammenhang haben
Ableitungen aus den Grundannahmen der KTT
Reliabilität
- Anteil der Varianz der wahren werte T an der Varianz der beobachteten Werte
Verhältnis der Varianzen zweier Werte zueinander lässt sich als Korrelation zwischen zwei Testwerten
(die dasselbe Konstrukt messen) darstellen
Grenzen / Kritik der KTT
Die Axiome der KTT sind nicht überprüfbar
‒ Wahrer Wert und Messfehler sind nicht beobachtbar
Unkorreliertheit der Fehler nicht immer gegeben
‒ z.B. Kopfschmerzen beim Bearbeiten beider Tests
Nullkorrelation zwischen Messfehler und wahrem Wert nicht immer gegeben
‒ In den meisten Tests werden mittlere Ausprägungen genauer gemessen als Ausprägungen im
sehr hohen oder sehr niedrigen Bereich
Nicht alle Fehler sind Zufallsfehler
‒ Auch systematische Fehler sind möglich und beeinflussen das Testergebnis
‒ z.B. soziale Erwünschtheit kann bei Bearbeitung von Persönlichkeitstests systematisch
auftreten
Merkmalskonstanz
‒ Aber Eigenschaften verändern sich über bestimmte Zeiträume
Probabilistische Testtheorie
Ergänzung zur Klassischen Testtheorie
Versucht durch strengere Annahmen die Probleme der KTT zu überwinden Modelle beschreiben die Beziehung zw. manifestem Antwortverhalten und
dahinterliegenden latenten Merkmalen
Heute ausschließlich Fokus auf einen kleinen Teilbereich: Dichotome, probabilistische
latent Trait Modelle (Rest/ mehr Details Master)
Zentrale Annahmen/ Voraussetzung: Lokale stochastische Unabhängigkeit (Itemhomogenität)
Latent-Trait-Modelle
Zusammenhang zwischen manifestem Antwortverhalten und latenten Variablen wird in einer mathematischen Funktion dargestellt (empirisch überprüfbar)
= Item-Charakteristik-Funktion (IC-Funktion)
= Lösungswahrscheinlichkeit von Items in Abhängigkeit von Modellparametern (Item- und Personenparameter)
Personenparameter PP = Fähigkeiten, Einstellungen oder Dispositionen einer Person Itemparameter IP = Schwierigkeit oder Anforderung eines Items
Für jedes Item kann eine Funktion erstellt werden, die angibt, welche Lösungswahrscheinlichkeit für eine Person mit einer bestimmten Merkmalsausprägung zu erwarten ist
Das (dichotome) Rasch Modell (1 PL)
1 PL = 1 Parameter logistisches Modell (Schwierigkeitsparameter)
Die Wahrscheinlichkeit, dass ein Item gelöst wird, setzt sich zusammen aus 1) der Merkmalsausprägung der Person, 2) der Schwierigkeit des Items
Beide Werte werden auf gemeinsamer Skala abgetragen
Spezifische Objektivität
Weitere Voraussetzung des Rasch Modells
Nur Items mit derselben Trennschärfe werden ausgewählt/ in den Test
aufgenommen (Kurven sind parallel und weisen dieselbe Form auf)
Schwierigkeitsunterschied zweier Items kann unabhängig davon festgestellt
werden, ob Personen mit niedrigen oder hohen Merkmalsausprägungen
untersucht wurden
(Egal welche Person ich angucke, die Wahrscheinlichkeit das leichte Item zu lösen ist immer höher als die Wahrscheinlichkeit das schwere Item zu lösen)
Unterschiede zwischen zwei Personenparametern können unabhängig davon
festgestellt werden, ob einfache oder schwierige Items verwendet wurden
(Egal welches Item ich anschaue, eine Person mit einer hohen Ausprägung hat immer eine höhere Wahrscheinlichkeit das Item zu lösen als eine Person mit einer niedrigen Ausprägung!)
Das (dichotome) Birnbaum-Modell (2 PL)
Aber Kurven können unterschiedliche Steigungen / Trennschärfen haben (sind nicht parallel)
Zusätzliche Aufnahme des Diskriminationsparameters (hier a), gibt an, wie stark sich die Lösungswahrscheinlichkeit in Abhängigkeit der Merkmalsausprägung verändert
verschiedene Items können unterschiedlich gut zwischen schwächeren und stärkeren Merkmalsausprägungen trennen
keine spezifische Objektivität
Das (dichotome) Rate-Modell von Birnbaum (3 PL)
Verwendet zusätzlich zum Schwierigkeitsparameter und Diskriminationsparameter noch ein Rate-Parameter
z.B. bei Multiple-Choice oder Single-Choice Aufgaben, in denen die richtige Lösung auch durch Raten gefunden werden kann
Hier im Beispiel Ratewahrscheinlichkeit p1 = 0 (Aufgabe kann nicht durch Raten richtig gelöst werden), p2 = .20 (Aufgabe kann mit einer Wahrscheinlichkeit von 20% durch Raten gelöst werden, z.B. 1 von 5 Antwortmöglichkeiten ist richtig)
Bei p2 ist die Kurve nach oben verschoben (weil selbst bei geringer Merkmalsausprägung ist die Lösungswahrscheinlichkeit 20%)