Klassische Testtheorie Flashcards

1
Q

Test - Definitionen nach Lienert (1968)

A
  • ein Verfahren zur Untersuchung eines Persönlichkeitsmerkmals
  • Vorgang der Durchführung der Untersuchung
  • die Gesamtheit der zur Durchführung nötigen Requisiten
  • jede Untersuchung, sofern sie Stichprobencharakter hat
  • mathematisch-statistisches Prüfverfahren (z.B. F-Test)
  • Test ist wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirischer Persönlichkeitsmerkmale, mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der Merkmalsausprägung.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Test - Definitionen nach Krauth (1995)

A

Ein psychologischer Test besteht aus

- einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen, d.h. aus einer Menge von manifesten Variablen und

- einer Vorschrift (Skala), die den Reaktionsmustern der manifesten Variablen Ausprägungen einer oder mehrerer latenter Variablen zuordnet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Tests: Klassifikation Brickenkamp (2002) - Leistungstests

A

Entwicklungstests (18)
- z.B. Heidelberger Sprachentwicklungstest

Intelligenztests (57)
- z.B. Advanced Progressive Matrices

Allgemeine Leistungstests (17)
 - z.B. d2-Aufmerksamkeitstest
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Tests: Klassifikation Brickenkamp (2002) - Schultests

A

Schultests (72)

  • Einschulungstests (13)
  • Spezielle Schuleignungstests (3)
  • Mehrfächertests (6)
  • Lesetests (8)
  • Rechtschreibtests (14)
  • Mathematik- und Rechentests (9)
  • Sonstige Schultests (19)

Spezielle Funktionsprüfungs- und Eignungstests (29)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Tests: Klassifikation Brickenkamp (2002) - Psychometrische Persönlichkeitstests

A
  • Persönlichkeits-Struktur-Tests
  • Einstellungs- und Interessentests
  • Klinische Tests
      • Fragebogen
      • Interviews
      • Sonstige klinische Verfahren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Tests: Klassifikation Brickenkamp (2002) - Persönlichkeits-Entfaltungsverfahren

A

Formdeuteverfahren
- z.B. Rorschach-Test

Verbal-thematische Verfahren
- z.B. Picture Frustration Test

Zeichnerische und Gestaltungsverfahren
- z.B. Familie in Tieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Bezugsquellen für Tests

A

Testothek an der Universitätsbibliothek Düsseldorf (ca. 700 Tests)

www.testzentrale.de (Hogrefe Verlag) - nicht unabhängig!

www.pearsonclinical.de (Pearson Verlag)

zis.gesis.org (GESIS, ZIS = Zusammenstellung sozialwissenschaftlicher Items und Skalen)

www.testarchiv.eu (ZPID, Elektronisches Testarchiv)

www.psychometrikon.de (Psychometrikon)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Tests - Unterscheidungsmerkmale

A

Dimensionalität (Subskalen)

- eindimensional
- ->z.B. die sprachfreien Matrizenaufgaben in Ravens   Advanced Progressive Matrices (APM)

- mehrdimensional
–> z.B. Test Anxiety Inventory
(Subskalen: Aufgeregtheit, Besorgtheit, Interferenz, Mangel an Zuversicht)

Schnelligkeits- (Speed-)test
–> Aufgaben (bei beliebig viel Zeit) von allen lösbar

Niveau- (Power-)test
–> Aufgaben auch bei viel Zeit nur von manchen lösbar

  • direkt interpretierbare (psychometrische, z.B. Intelligenz-) Tests vs. nicht direkt interpretierbare (projektive, z.B. Rorschach-) Tests
  • Testmedium: Papier-Bleistift, computergestützt, andere
  • Individual- vs. Gruppentests
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Beispielitem aus Speedtest: d2-Aufmerksamkeitstest

A

Markieren Sie so schnell wie möglich alle Zeichen, in denen ein „d“ mit genau zwei Strichen vorkommt!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Beispielitem aus Niveautest: 9-Punkte-Problem

A

Wie lassen sich die neun abgebildeten Punkte mit maximal vier Strichen verbinden, ohne den Stift abzusetzen?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Dunckers Kerzenproblem

A

Der Test erfordert vom Probanden, eine brennende Kerze an einem an der Wand hängenden Korkbrett so zu befestigen, dass das Wachs nicht auf den Boden tropft.

Dabei dürfen die Testsubjekte folgende Materialien, die mit der Kerze gereicht werden, verwenden:

  • Eine Packung Streichhölzer
  • Eine Schachtel mit Reißnägeln darin
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Klassische Testtheorie (KTT)

A


- Kein beobachteter Testwert gibt absolut verlässliche Auskunft über die tatsächliche Ausprägung des erfassten Merkmals

- Innere und äußere Bedingungen einer Testung sind nicht so perfekt standardisiert, dass keine Störquellen wirksam werden

- Mögliche Differenz zwischen beobachtetem und „wahrem“ Testwert wird auf Messfehler zurückgeführt

Erwartungswert des Fehlers = 0

Fehler sind weder mit dem wahren Wert noch untereinander korreliert
→ Durch Hinzunahme weiterer Items mitteln sich die Fehler aus; der wahre Wert wird zunehmend genauer geschätzt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Axiome der klassischen Testtheorie Gulliksen (1950)

A
  • Jede Messung ist aus einem wahren Wert und einem zufälligen Fehlerwert zusammengesetzt.
  • Für jede Testperson stellt der Messfehler eine Zufallsvariable mit dem Erwartungswert (Mittelwert) Null und endlicher Varianz dar.
  • Die Fehlerwerte sind unabhängig von den wahren Werten des Tests, und unabhängig von den wahren Werten und Fehlerwerten anderer Tests

Aus diesen Axiomen folgt:

Die Summe der Fehlerwerte einer Person bei unendlich häufiger Messwiederholung ist Null.

Die Summe der Fehlerwerte bei einmaliger Messung an unendlich vielen Personen ist Null.
→ Die klassische Testtheorie kann als
Messfehlertheorie aufgefasst werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Varianzzerlegung

A

Aus den Grundannahmen der KTT folgt
s²x = s²w + s²e

s²x = beobachtete Varianz,
s²w = wahre Varianz und
s²e = Fehlervarianz.

Die Varianz der beobachteten Testrohwerte setzt sich zusammen aus der „wahren“ Varianz und der „Fehler“ – Varianz.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Itemmittelwert, -schwierigkeit und -varianz

A

Itemmittelwert – xi(Mittelwert) = Σ(xi) / N = pi
Summe aller Messwerte einer Stichprobe, dividiert durch Stichprobengröße

qi = 1 - pi
p = Itemschwierigkeit (sic!) -> Anteil richtiger Lösungen
q = (1-p) -> Anteil falscher Lösungen

Varianz eines dichotomen Items i
Durchschnittliche quadrierte Differenz aller xi vom Mittelwert des Items; entspricht pi(1-pi). Die Varianz eines Items ist also eine Funktion seiner Schwierigkeit p, und maximale Varianz hat ein Item mit p = 0.5.

s²i = Σ(xi - xi(mw))² / N

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Zusammenhang zwischen Streuung und Schwierigkeit

A

si=√(pi⋅qⅈ)

17
Q

Trennschärfe

A
  • Gibt an, wie gut ein Item zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt
  • Korrelation des Items mit dem Testgesamtwert
    • korrigiert („part-whole“-Korrektur)
    • unkorrigiert
  • Mittelschwere Items (in der Regel) am trennschärfsten – warum?
18
Q

Trennschärfe - Definition nach Amelang & Zielinski

A

„Die Trennschärfe einer Aufgabe ist definiert als die Korrelation der Itembeantwortung mit dem Summenwert der Skala, zu der das betreffende Item gehört. Sie ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Probanden in Löser und Nichtlöser durch das Item mit denjenigen durch die Skala als Ganzes übereinstimmt“

19
Q

Handschüttelmetapher (Lienert, 1989)

A
  • Jeder „Verlierer“ (0 = Item nicht gelöst) schüttelt- jedem „Gewinner“ (1 = Item gelöst) die Hand
  • Die meiste Information (das meiste Händeschütteln) liefert ein Item mit p = .5
    Beispielrechnung: 100 Personen bearbeiten ein Item
p = .01 führt zu 1 x 99 = 99 informativen Gratulationen
p = .10 führt zu 10 x 90 = 900 informativen Gratulationen
p = .50 führt zu 50 x 50 = 2500 informativen Gratulationen

–> p = .5 ermöglicht hohe Trennschärfen, garantiert sie aber nicht

20
Q

Warum können sehr schwere und sehr leichte Items trotzdem sinnvoll sein?

A

Schiefe Verteilung des Summenscores bei zu wenig leichten Items (Bodeneffekt)

Schiefe Verteilung des Summenscores bei zu wenig schweren Items (Deckeneffekt)

21
Q

Itemselektion

A
  • möglichst hohe Trennschärfe
  • aber nicht nur mittelschwere Items
  • sonst keine Diskrimination im oberen und unteren Bereich
  • Kompromiss: sehr leichte und sehr schwere Items trotz geringerer Trennschärfe akzeptabel (bis r(it) >/= .11)
  • mittelschwere Items sollten auch tatsächlich die mit ihnen erreichbare hohe Trennschärfe haben (r(it) > .7)
22
Q

Selektionskennwert (Lienert & Raatz, 1994; Fisseni, 2004)

A

Die Berechnung des Selektionskennwerts orientiert sich an Trennschärfe und Schwierigkeit

Das wichtigere Kriterium ist die Trennschärfe
- Sel = Selektionskennwert
- r_ it=Trennschärfe
- p = Itemschwierigkeit
- q = (1-p)

Sel = r_it / 2*√(p⋅q)

Selektionskennwert bei konstanter Schwierigkeit:
Gewählt werden Items mit hoher Trennschärfe

Selektionskennwert bei konstanter Trennschärfe: Gewählt werden Items mit extremer Schwierigkeit

23
Q

Testwert (klassische Testtheorie)

A

Testrohwert einer Person j: Summe der richtig gelösten Items

Arithmetisches Mittel des Tests: Summe aller Itemmittelwerte

24
Q

Testverlängerung

A


- Die Verlängerung des Tests durch Hinzunahme weiterer paralleler Testteile (z.B. in Form zusätzlicher Items) führt zu einer Erhöhung der Reliabilität.

- Eine Verdoppelung der Testlänge führt zu einer Vervierfachung der wahren Varianz, aber nur zu einer Verdoppelung der Fehlervarianz

- Testverlängerung erhöht deshalb den Anteil der wahren Varianz an der beobachtbaren Varianz (=die Reliabilität).

25
Q

Messung in der Klassischen Testtheorie

A

Vergleich des Testrohwertes mit der Verteilung des Rohwertes in einer Normstichprobe

26
Q

Kritik an der Klassischen Testtheorie

A

1) Axiomensystem in sich geschlossen und logisch widerspruchsfrei
–> aber: ist das mathematisch nicht falsifizierbare Modell empirisch angemessen?

2) Erwartungswert des Fehlers = 0 relativ unproblematisch

3) Annahme der Unabhängigkeit von wahrem Wert und Fehler problematisch
→ z.B. bei größeren Werten von X größere Messfehler, oder bei niedrigen Werten von X eher positive, bei höheren eher negative Fehler usw…

4) Annahme der Unabhängigkeit der Messfehler problematisch
→ Situationen denkbar, in denen Messfehler kovariieren (z.B. bei hoher Testangst)

5) Die Bildung des Testwertes erfolgt durch Bildung der Summe aller Items
→ Zustandekommen der Messungen wird in der KTT aber gar nicht explizit thematisiert

6) Das Antwortverhalten der Testteilnehmer wird in Zahlen abgebildet, ohne die Frage nach der Messbarkeit zu stellen

7) Die Intervallskalenqualität der resultierenden Messungen wird lediglich angenommen

8) Alle Kennwerte (z.B. Testschwierigkeit, Itemtrennschärfen, Reliabilität) sind untrennbar mit der Referenzpopulation verknüpft, in der sie gewonnen wurden (Stichprobenabhängigkeit)

9) Eine Überprüfung der hierbei vorausgesetzten Eindimensionalität aller Items ist im Rahmen der klassischen Testtheorie nicht möglich (lediglich behelfsweise durch Faktorenanalysen); den Messwerten können durchaus mehrere oder gar keine latenten Merkmale zugrunde liegen

27
Q

Vergleich klassische und probabilistische Testtheorie

A

Klassische Testtheorie (KTT)

1) Testwert = „wahre“ Ausprägung des Merkmals + Messfehler

2) Der Testwert wird mit der Ausprägung des Merkmals gleichgesetzt. Die zugrunde gelegten Axiome sind nicht überprüfbar. Eine Theorie über das Zustandekommen der Antworten gibt es nicht.

Probabilistische Theorien (IRT)

1) Das Auftreten eines bestimmten Testverhaltens hängt vom Ausprägungsgrad einer zugrunde liegenden latenten Variable ab.

2) Es wird ein probabilistischer Zusammenhang zwischen manifester und latenter Variable postuliert, der empirisch prüfbar ist. Ob alle Items dieselbe latente Dimension messen, ist testbar.