Klassische Testtheorie Flashcards by M G

Test - Definitionen nach Lienert (1968)

ein Verfahren zur Untersuchung eines Persönlichkeitsmerkmals

Vorgang der Durchführung der Untersuchung

die Gesamtheit der zur Durchführung nötigen Requisiten

jede Untersuchung, sofern sie Stichprobencharakter hat

mathematisch-statistisches Prüfverfahren (z.B. F-Test)
Test ist wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirischer Persönlichkeitsmerkmale, mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der Merkmalsausprägung.

How well did you know this?

Not at all

Perfectly

Test - Definitionen nach Krauth (1995)

Ein psychologischer Test besteht aus

- einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen, d.h. aus einer Menge von manifesten Variablen und

- einer Vorschrift (Skala), die den Reaktionsmustern der manifesten Variablen Ausprägungen einer oder mehrerer latenter Variablen zuordnet

How well did you know this?

Not at all

Perfectly

Tests: Klassifikation Brickenkamp (2002) - Leistungstests

Entwicklungstests (18)
- z.B. Heidelberger Sprachentwicklungstest

Intelligenztests (57)
- z.B. Advanced Progressive Matrices

Allgemeine Leistungstests (17)
 - z.B. d2-Aufmerksamkeitstest

How well did you know this?

Not at all

Perfectly

Tests: Klassifikation Brickenkamp (2002) - Schultests

Schultests (72)

Einschulungstests (13)
Spezielle Schuleignungstests (3)
Mehrfächertests (6)
Lesetests (8)
Rechtschreibtests (14)
Mathematik- und Rechentests (9)
Sonstige Schultests (19)

Spezielle Funktionsprüfungs- und Eignungstests (29)

How well did you know this?

Not at all

Perfectly

Tests: Klassifikation Brickenkamp (2002) - Psychometrische Persönlichkeitstests

Persönlichkeits-Struktur-Tests
Einstellungs- und Interessentests
Klinische Tests
- - Fragebogen
- - Interviews
- - Sonstige klinische Verfahren

How well did you know this?

Not at all

Perfectly

Tests: Klassifikation Brickenkamp (2002) - Persönlichkeits-Entfaltungsverfahren

Formdeuteverfahren
- z.B. Rorschach-Test

Verbal-thematische Verfahren
- z.B. Picture Frustration Test

Zeichnerische und Gestaltungsverfahren
- z.B. Familie in Tieren

How well did you know this?

Not at all

Perfectly

Bezugsquellen für Tests

Testothek an der Universitätsbibliothek Düsseldorf (ca. 700 Tests)

www.testzentrale.de (Hogrefe Verlag) - nicht unabhängig!

www.pearsonclinical.de (Pearson Verlag)

zis.gesis.org (GESIS, ZIS = Zusammenstellung sozialwissenschaftlicher Items und Skalen)

www.testarchiv.eu (ZPID, Elektronisches Testarchiv)

www.psychometrikon.de (Psychometrikon)

How well did you know this?

Not at all

Perfectly

Tests - Unterscheidungsmerkmale

Dimensionalität (Subskalen)

- eindimensional
- ->z.B. die sprachfreien Matrizenaufgaben in Ravens   Advanced Progressive Matrices (APM)

- mehrdimensional
–> z.B. Test Anxiety Inventory
(Subskalen: Aufgeregtheit, Besorgtheit, Interferenz, Mangel an Zuversicht)

Schnelligkeits- (Speed-)test
–> Aufgaben (bei beliebig viel Zeit) von allen lösbar

Niveau- (Power-)test
–> Aufgaben auch bei viel Zeit nur von manchen lösbar

direkt interpretierbare (psychometrische, z.B. Intelligenz-) Tests vs. nicht direkt interpretierbare (projektive, z.B. Rorschach-) Tests

Testmedium: Papier-Bleistift, computergestützt, andere

Individual- vs. Gruppentests

How well did you know this?

Not at all

Perfectly

Beispielitem aus Speedtest: d2-Aufmerksamkeitstest

Markieren Sie so schnell wie möglich alle Zeichen, in denen ein „d“ mit genau zwei Strichen vorkommt!

How well did you know this?

Not at all

Perfectly

Beispielitem aus Niveautest: 9-Punkte-Problem

Wie lassen sich die neun abgebildeten Punkte mit maximal vier Strichen verbinden, ohne den Stift abzusetzen?

How well did you know this?

Not at all

Perfectly

Dunckers Kerzenproblem

Der Test erfordert vom Probanden, eine brennende Kerze an einem an der Wand hängenden Korkbrett so zu befestigen, dass das Wachs nicht auf den Boden tropft.

Dabei dürfen die Testsubjekte folgende Materialien, die mit der Kerze gereicht werden, verwenden:

Eine Packung Streichhölzer
Eine Schachtel mit Reißnägeln darin

How well did you know this?

Not at all

Perfectly

Klassische Testtheorie (KTT)


- Kein beobachteter Testwert gibt absolut verlässliche Auskunft über die tatsächliche Ausprägung des erfassten Merkmals

- Innere und äußere Bedingungen einer Testung sind nicht so perfekt standardisiert, dass keine Störquellen wirksam werden

- Mögliche Differenz zwischen beobachtetem und „wahrem“ Testwert wird auf Messfehler zurückgeführt

Erwartungswert des Fehlers = 0

Fehler sind weder mit dem wahren Wert noch untereinander korreliert
→ Durch Hinzunahme weiterer Items mitteln sich die Fehler aus; der wahre Wert wird zunehmend genauer geschätzt.

How well did you know this?

Not at all

Perfectly

Axiome der klassischen Testtheorie Gulliksen (1950)

Jede Messung ist aus einem wahren Wert und einem zufälligen Fehlerwert zusammengesetzt.

Für jede Testperson stellt der Messfehler eine Zufallsvariable mit dem Erwartungswert (Mittelwert) Null und endlicher Varianz dar.

Die Fehlerwerte sind unabhängig von den wahren Werten des Tests, und unabhängig von den wahren Werten und Fehlerwerten anderer Tests

Aus diesen Axiomen folgt:

Die Summe der Fehlerwerte einer Person bei unendlich häufiger Messwiederholung ist Null.

Die Summe der Fehlerwerte bei einmaliger Messung an unendlich vielen Personen ist Null.
→ Die klassische Testtheorie kann als
Messfehlertheorie aufgefasst werden

How well did you know this?

Not at all

Perfectly

Varianzzerlegung

Aus den Grundannahmen der KTT folgt
s²x = s²w + s²e

s²x = beobachtete Varianz,
s²w = wahre Varianz und
s²e = Fehlervarianz.

Die Varianz der beobachteten Testrohwerte setzt sich zusammen aus der „wahren“ Varianz und der „Fehler“ – Varianz.

How well did you know this?

Not at all

Perfectly

Itemmittelwert, -schwierigkeit und -varianz

Itemmittelwert – xi(Mittelwert) = Σ(xi) / N = pi
Summe aller Messwerte einer Stichprobe, dividiert durch Stichprobengröße

qi = 1 - pi
p = Itemschwierigkeit (sic!) -> Anteil richtiger Lösungen
q = (1-p) -> Anteil falscher Lösungen

Varianz eines dichotomen Items i
Durchschnittliche quadrierte Differenz aller xi vom Mittelwert des Items; entspricht pi(1-pi). Die Varianz eines Items ist also eine Funktion seiner Schwierigkeit p, und maximale Varianz hat ein Item mit p = 0.5.

s²i = Σ(xi - xi(mw))² / N

How well did you know this?

Not at all

Perfectly

Zusammenhang zwischen Streuung und Schwierigkeit

si=√(pi⋅qⅈ)

Trennschärfe

Gibt an, wie gut ein Item zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt

Korrelation des Items mit dem Testgesamtwert
- korrigiert („part-whole“-Korrektur)
- unkorrigiert
  
Mittelschwere Items (in der Regel) am trennschärfsten – warum?

Trennschärfe - Definition nach Amelang & Zielinski

„Die Trennschärfe einer Aufgabe ist definiert als die Korrelation der Itembeantwortung mit dem Summenwert der Skala, zu der das betreffende Item gehört. Sie ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Probanden in Löser und Nichtlöser durch das Item mit denjenigen durch die Skala als Ganzes übereinstimmt“

Handschüttelmetapher (Lienert, 1989)

Jeder „Verlierer“ (0 = Item nicht gelöst) schüttelt- jedem „Gewinner“ (1 = Item gelöst) die Hand
Die meiste Information (das meiste Händeschütteln) liefert ein Item mit p = .5
Beispielrechnung: 100 Personen bearbeiten ein Item

p = .01 führt zu 1 x 99 = 99 informativen Gratulationen
p = .10 führt zu 10 x 90 = 900 informativen Gratulationen
p = .50 führt zu 50 x 50 = 2500 informativen Gratulationen

–> p = .5 ermöglicht hohe Trennschärfen, garantiert sie aber nicht

Warum können sehr schwere und sehr leichte Items trotzdem sinnvoll sein?

Schiefe Verteilung des Summenscores bei zu wenig leichten Items (Bodeneffekt)

Schiefe Verteilung des Summenscores bei zu wenig schweren Items (Deckeneffekt)

Itemselektion

möglichst hohe Trennschärfe
aber nicht nur mittelschwere Items
sonst keine Diskrimination im oberen und unteren Bereich
Kompromiss: sehr leichte und sehr schwere Items trotz geringerer Trennschärfe akzeptabel (bis r(it) >/= .11)
mittelschwere Items sollten auch tatsächlich die mit ihnen erreichbare hohe Trennschärfe haben (r(it) > .7)

Selektionskennwert (Lienert & Raatz, 1994; Fisseni, 2004)

Die Berechnung des Selektionskennwerts orientiert sich an Trennschärfe und Schwierigkeit

Das wichtigere Kriterium ist die Trennschärfe
- Sel = Selektionskennwert
- r_ it=Trennschärfe
- p = Itemschwierigkeit
- q = (1-p)

Sel = r_it / 2*√(p⋅q)

Selektionskennwert bei konstanter Schwierigkeit:
Gewählt werden Items mit hoher Trennschärfe

Selektionskennwert bei konstanter Trennschärfe: Gewählt werden Items mit extremer Schwierigkeit

Testwert (klassische Testtheorie)

Testrohwert einer Person j: Summe der richtig gelösten Items

Arithmetisches Mittel des Tests: Summe aller Itemmittelwerte

Testverlängerung


- Die Verlängerung des Tests durch Hinzunahme weiterer paralleler Testteile (z.B. in Form zusätzlicher Items) führt zu einer Erhöhung der Reliabilität.

- Eine Verdoppelung der Testlänge führt zu einer Vervierfachung der wahren Varianz, aber nur zu einer Verdoppelung der Fehlervarianz

- Testverlängerung erhöht deshalb den Anteil der wahren Varianz an der beobachtbaren Varianz (=die Reliabilität).

Messung in der Klassischen Testtheorie

Vergleich des Testrohwertes mit der Verteilung des Rohwertes in einer Normstichprobe

Kritik an der Klassischen Testtheorie

1) Axiomensystem in sich geschlossen und logisch widerspruchsfrei --> aber: ist das mathematisch nicht falsifizierbare Modell empirisch angemessen?  2) Erwartungswert des Fehlers = 0 relativ unproblematisch  3) Annahme der Unabhängigkeit von wahrem Wert und Fehler problematisch → z.B. bei größeren Werten von X größere Messfehler, oder bei niedrigen Werten von X eher positive, bei höheren eher negative Fehler usw...  4) Annahme der Unabhängigkeit der Messfehler problematisch → Situationen denkbar, in denen Messfehler kovariieren (z.B. bei hoher Testangst) 5) Die Bildung des Testwertes erfolgt durch Bildung der Summe aller Items → Zustandekommen der Messungen wird in der KTT aber gar nicht explizit thematisiert  6) Das Antwortverhalten der Testteilnehmer wird in Zahlen abgebildet, ohne die Frage nach der Messbarkeit zu stellen  7) Die Intervallskalenqualität der resultierenden Messungen wird lediglich angenommen 8) Alle Kennwerte (z.B. Testschwierigkeit, Itemtrennschärfen, Reliabilität) sind untrennbar mit der Referenzpopulation verknüpft, in der sie gewonnen wurden (Stichprobenabhängigkeit)  9) Eine Überprüfung der hierbei vorausgesetzten Eindimensionalität aller Items ist im Rahmen der klassischen Testtheorie nicht möglich (lediglich behelfsweise durch Faktorenanalysen); den Messwerten können durchaus mehrere oder gar keine latenten Merkmale zugrunde liegen

Vergleich klassische und probabilistische Testtheorie

Klassische Testtheorie (KTT)  1) Testwert = „wahre“ Ausprägung des Merkmals + Messfehler  2) Der Testwert wird mit der Ausprägung des Merkmals gleichgesetzt. Die zugrunde gelegten Axiome sind nicht überprüfbar. Eine Theorie über das Zustandekommen der Antworten gibt es nicht.  Probabilistische Theorien (IRT)  1) Das Auftreten eines bestimmten Testverhaltens hängt vom Ausprägungsgrad einer zugrunde liegenden latenten Variable ab.  2) Es wird ein probabilistischer Zusammenhang zwischen manifester und latenter Variable postuliert, der empirisch prüfbar ist. Ob alle Items dieselbe latente Dimension messen, ist testbar.