Klassische Testtheorie Flashcards
Test - Definitionen nach Lienert (1968)
- ein Verfahren zur Untersuchung eines Persönlichkeitsmerkmals
- Vorgang der Durchführung der Untersuchung
- die Gesamtheit der zur Durchführung nötigen Requisiten
- jede Untersuchung, sofern sie Stichprobencharakter hat
- mathematisch-statistisches Prüfverfahren (z.B. F-Test)
- Test ist wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirischer Persönlichkeitsmerkmale, mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der Merkmalsausprägung.
Test - Definitionen nach Krauth (1995)
Ein psychologischer Test besteht aus
- einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen, d.h. aus einer Menge von manifesten Variablen und
- einer Vorschrift (Skala), die den Reaktionsmustern der manifesten Variablen Ausprägungen einer oder mehrerer latenter Variablen zuordnet
Tests: Klassifikation Brickenkamp (2002) - Leistungstests
Entwicklungstests (18)
- z.B. Heidelberger Sprachentwicklungstest
Intelligenztests (57)
- z.B. Advanced Progressive Matrices
Allgemeine Leistungstests (17) - z.B. d2-Aufmerksamkeitstest
Tests: Klassifikation Brickenkamp (2002) - Schultests
Schultests (72)
- Einschulungstests (13)
- Spezielle Schuleignungstests (3)
- Mehrfächertests (6)
- Lesetests (8)
- Rechtschreibtests (14)
- Mathematik- und Rechentests (9)
- Sonstige Schultests (19)
Spezielle Funktionsprüfungs- und Eignungstests (29)
Tests: Klassifikation Brickenkamp (2002) - Psychometrische Persönlichkeitstests
- Persönlichkeits-Struktur-Tests
- Einstellungs- und Interessentests
- Klinische Tests
- Fragebogen
- Interviews
- Sonstige klinische Verfahren
Tests: Klassifikation Brickenkamp (2002) - Persönlichkeits-Entfaltungsverfahren
Formdeuteverfahren
- z.B. Rorschach-Test
Verbal-thematische Verfahren
- z.B. Picture Frustration Test
Zeichnerische und Gestaltungsverfahren
- z.B. Familie in Tieren
Bezugsquellen für Tests
Testothek an der Universitätsbibliothek Düsseldorf (ca. 700 Tests)
www.testzentrale.de (Hogrefe Verlag) - nicht unabhängig!
www.pearsonclinical.de (Pearson Verlag)
zis.gesis.org (GESIS, ZIS = Zusammenstellung sozialwissenschaftlicher Items und Skalen)
www.testarchiv.eu (ZPID, Elektronisches Testarchiv)
www.psychometrikon.de (Psychometrikon)
Tests - Unterscheidungsmerkmale
Dimensionalität (Subskalen)
- eindimensional - ->z.B. die sprachfreien Matrizenaufgaben in Ravens Advanced Progressive Matrices (APM)
- mehrdimensional
–> z.B. Test Anxiety Inventory
(Subskalen: Aufgeregtheit, Besorgtheit, Interferenz, Mangel an Zuversicht)
Schnelligkeits- (Speed-)test
–> Aufgaben (bei beliebig viel Zeit) von allen lösbar
Niveau- (Power-)test
–> Aufgaben auch bei viel Zeit nur von manchen lösbar
- direkt interpretierbare (psychometrische, z.B. Intelligenz-) Tests vs. nicht direkt interpretierbare (projektive, z.B. Rorschach-) Tests
- Testmedium: Papier-Bleistift, computergestützt, andere
- Individual- vs. Gruppentests
Beispielitem aus Speedtest: d2-Aufmerksamkeitstest
Markieren Sie so schnell wie möglich alle Zeichen, in denen ein „d“ mit genau zwei Strichen vorkommt!
Beispielitem aus Niveautest: 9-Punkte-Problem
Wie lassen sich die neun abgebildeten Punkte mit maximal vier Strichen verbinden, ohne den Stift abzusetzen?
Dunckers Kerzenproblem
Der Test erfordert vom Probanden, eine brennende Kerze an einem an der Wand hängenden Korkbrett so zu befestigen, dass das Wachs nicht auf den Boden tropft.
Dabei dürfen die Testsubjekte folgende Materialien, die mit der Kerze gereicht werden, verwenden:
- Eine Packung Streichhölzer
- Eine Schachtel mit Reißnägeln darin
Klassische Testtheorie (KTT)
- Kein beobachteter Testwert gibt absolut verlässliche Auskunft über die tatsächliche Ausprägung des erfassten Merkmals
- Innere und äußere Bedingungen einer Testung sind nicht so perfekt standardisiert, dass keine Störquellen wirksam werden
- Mögliche Differenz zwischen beobachtetem und „wahrem“ Testwert wird auf Messfehler zurückgeführt
Erwartungswert des Fehlers = 0
Fehler sind weder mit dem wahren Wert noch untereinander korreliert
→ Durch Hinzunahme weiterer Items mitteln sich die Fehler aus; der wahre Wert wird zunehmend genauer geschätzt.
Axiome der klassischen Testtheorie Gulliksen (1950)
- Jede Messung ist aus einem wahren Wert und einem zufälligen Fehlerwert zusammengesetzt.
- Für jede Testperson stellt der Messfehler eine Zufallsvariable mit dem Erwartungswert (Mittelwert) Null und endlicher Varianz dar.
- Die Fehlerwerte sind unabhängig von den wahren Werten des Tests, und unabhängig von den wahren Werten und Fehlerwerten anderer Tests
Aus diesen Axiomen folgt:
Die Summe der Fehlerwerte einer Person bei unendlich häufiger Messwiederholung ist Null.
Die Summe der Fehlerwerte bei einmaliger Messung an unendlich vielen Personen ist Null.
→ Die klassische Testtheorie kann als
Messfehlertheorie aufgefasst werden
Varianzzerlegung
Aus den Grundannahmen der KTT folgt
s²x = s²w + s²e
s²x = beobachtete Varianz, s²w = wahre Varianz und s²e = Fehlervarianz.
Die Varianz der beobachteten Testrohwerte setzt sich zusammen aus der „wahren“ Varianz und der „Fehler“ – Varianz.
Itemmittelwert, -schwierigkeit und -varianz
Itemmittelwert – xi(Mittelwert) = Σ(xi) / N = pi
Summe aller Messwerte einer Stichprobe, dividiert durch Stichprobengröße
qi = 1 - pi p = Itemschwierigkeit (sic!) -> Anteil richtiger Lösungen q = (1-p) -> Anteil falscher Lösungen
Varianz eines dichotomen Items i
Durchschnittliche quadrierte Differenz aller xi vom Mittelwert des Items; entspricht pi(1-pi). Die Varianz eines Items ist also eine Funktion seiner Schwierigkeit p, und maximale Varianz hat ein Item mit p = 0.5.
s²i = Σ(xi - xi(mw))² / N
Zusammenhang zwischen Streuung und Schwierigkeit
si=√(pi⋅qⅈ)
Trennschärfe
- Gibt an, wie gut ein Item zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt
- Korrelation des Items mit dem Testgesamtwert
- korrigiert („part-whole“-Korrektur)
- unkorrigiert
- Mittelschwere Items (in der Regel) am trennschärfsten – warum?
Trennschärfe - Definition nach Amelang & Zielinski
„Die Trennschärfe einer Aufgabe ist definiert als die Korrelation der Itembeantwortung mit dem Summenwert der Skala, zu der das betreffende Item gehört. Sie ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Probanden in Löser und Nichtlöser durch das Item mit denjenigen durch die Skala als Ganzes übereinstimmt“
Handschüttelmetapher (Lienert, 1989)
- Jeder „Verlierer“ (0 = Item nicht gelöst) schüttelt- jedem „Gewinner“ (1 = Item gelöst) die Hand
- Die meiste Information (das meiste Händeschütteln) liefert ein Item mit p = .5
Beispielrechnung: 100 Personen bearbeiten ein Item
p = .01 führt zu 1 x 99 = 99 informativen Gratulationen p = .10 führt zu 10 x 90 = 900 informativen Gratulationen p = .50 führt zu 50 x 50 = 2500 informativen Gratulationen
–> p = .5 ermöglicht hohe Trennschärfen, garantiert sie aber nicht
Warum können sehr schwere und sehr leichte Items trotzdem sinnvoll sein?
Schiefe Verteilung des Summenscores bei zu wenig leichten Items (Bodeneffekt)
Schiefe Verteilung des Summenscores bei zu wenig schweren Items (Deckeneffekt)
Itemselektion
- möglichst hohe Trennschärfe
- aber nicht nur mittelschwere Items
- sonst keine Diskrimination im oberen und unteren Bereich
- Kompromiss: sehr leichte und sehr schwere Items trotz geringerer Trennschärfe akzeptabel (bis r(it) >/= .11)
- mittelschwere Items sollten auch tatsächlich die mit ihnen erreichbare hohe Trennschärfe haben (r(it) > .7)
Selektionskennwert (Lienert & Raatz, 1994; Fisseni, 2004)
Die Berechnung des Selektionskennwerts orientiert sich an Trennschärfe und Schwierigkeit
Das wichtigere Kriterium ist die Trennschärfe
- Sel = Selektionskennwert
- r_ it=Trennschärfe
- p = Itemschwierigkeit
- q = (1-p)
Sel = r_it / 2*√(p⋅q)
Selektionskennwert bei konstanter Schwierigkeit:
Gewählt werden Items mit hoher Trennschärfe
Selektionskennwert bei konstanter Trennschärfe: Gewählt werden Items mit extremer Schwierigkeit
Testwert (klassische Testtheorie)
Testrohwert einer Person j: Summe der richtig gelösten Items
Arithmetisches Mittel des Tests: Summe aller Itemmittelwerte
Testverlängerung
- Die Verlängerung des Tests durch Hinzunahme weiterer paralleler Testteile (z.B. in Form zusätzlicher Items) führt zu einer Erhöhung der Reliabilität.
- Eine Verdoppelung der Testlänge führt zu einer Vervierfachung der wahren Varianz, aber nur zu einer Verdoppelung der Fehlervarianz
- Testverlängerung erhöht deshalb den Anteil der wahren Varianz an der beobachtbaren Varianz (=die Reliabilität).
Messung in der Klassischen Testtheorie
Vergleich des Testrohwertes mit der Verteilung des Rohwertes in einer Normstichprobe
Kritik an der Klassischen Testtheorie
1) Axiomensystem in sich geschlossen und logisch widerspruchsfrei
–> aber: ist das mathematisch nicht falsifizierbare Modell empirisch angemessen?
2) Erwartungswert des Fehlers = 0 relativ unproblematisch
3) Annahme der Unabhängigkeit von wahrem Wert und Fehler problematisch
→ z.B. bei größeren Werten von X größere Messfehler, oder bei niedrigen Werten von X eher positive, bei höheren eher negative Fehler usw…
4) Annahme der Unabhängigkeit der Messfehler problematisch
→ Situationen denkbar, in denen Messfehler kovariieren (z.B. bei hoher Testangst)
5) Die Bildung des Testwertes erfolgt durch Bildung der Summe aller Items
→ Zustandekommen der Messungen wird in der KTT aber gar nicht explizit thematisiert
6) Das Antwortverhalten der Testteilnehmer wird in Zahlen abgebildet, ohne die Frage nach der Messbarkeit zu stellen
7) Die Intervallskalenqualität der resultierenden Messungen wird lediglich angenommen
8) Alle Kennwerte (z.B. Testschwierigkeit, Itemtrennschärfen, Reliabilität) sind untrennbar mit der Referenzpopulation verknüpft, in der sie gewonnen wurden (Stichprobenabhängigkeit)
9) Eine Überprüfung der hierbei vorausgesetzten Eindimensionalität aller Items ist im Rahmen der klassischen Testtheorie nicht möglich (lediglich behelfsweise durch Faktorenanalysen); den Messwerten können durchaus mehrere oder gar keine latenten Merkmale zugrunde liegen
Vergleich klassische und probabilistische Testtheorie
Klassische Testtheorie (KTT)
1) Testwert = „wahre“ Ausprägung des Merkmals + Messfehler
2) Der Testwert wird mit der Ausprägung des Merkmals gleichgesetzt. Die zugrunde gelegten Axiome sind nicht überprüfbar. Eine Theorie über das Zustandekommen der Antworten gibt es nicht.
Probabilistische Theorien (IRT)
1) Das Auftreten eines bestimmten Testverhaltens hängt vom Ausprägungsgrad einer zugrunde liegenden latenten Variable ab.
2) Es wird ein probabilistischer Zusammenhang zwischen manifester und latenter Variable postuliert, der empirisch prüfbar ist. Ob alle Items dieselbe latente Dimension messen, ist testbar.