10 - Interpretation von Testergebnissen und Testeichung Flashcards
Interpretation von Testergebnissen
Problem: Die rohen Testergebnisse (Rohwerte) sind für sich genommen nicht aussagekräftig
2 Möglichkeiten:
- Normorientierte Interpretation durch den Vergleich mit einer Bezugsgruppe (z.B. IQ als Abweichung von der durchschnittlichen Intelligenz der Population; die meisten psychologischen Tests sind normorientiert)
- Kriteriumsorientierte Interpretation durch den Bezug auf ein vorab definiertes inhaltlich-psychologisches Kriterium (z.B. die Person wird als depressiv eingestuft, wenn sie > 23 Punkte auf der Depressionsskala erreicht)
Norm- und kriteriumsorientierte Testwertinterpretationen schließen sich nicht gegenseitig aus, vielmehr ist je nach Anwendungsfall die eine oder andere Art vorherrschend. Sie können sich auch ergänzen, z.B. bei der Beurteilung der Schulleistung (Bezug zum Lehrziel und zur Klasse: ab 5 durchgefallen, aber wenn besser wird auch noch differenziert)
Normorientierte Interpretation
Vom Rohwert zum Normwert: Es gibt zwei Arten von Normwerten:
- Die Bildung von Prozenträngen durch eine nicht-lineare Transformation auf Basis der Häufigkeitsverteilung der Testwerte
- Die Bildung von z-Normen durch Standardisierung an Mittelwert und Standardabweichung der Testwerteverteilung
- Prozentrang = wie viel Prozent der Bezugsgruppe erzielten einen Testwert, der maximal gleich hoch ist, wie der Testwert xv der Testperson v. Entspricht dem prozentualen Flächenanteil der Häufigkeitsverteilung, der am unteren Skalenende beginnt und nach oben hin durch den Testwert xv begrenzt wird.
- z-Normwert = wie stark weicht der Testwert einer Testperson vom Mittelwert der Verteilung in Einheiten der Standardabweichung der Testwerte ab. Die z-Verteilung hat Mittelwert 0 und Standardabweichung 1.
z-Normwerte werden oft zusätzlich transformiert, weil man negative Vorzeichen und Dezimalstellen vermeiden will. Beispiel:
- Person hat in Intelligenztest 27 Punkte erzielt. Mittelwert = 31, Standardabweichung = 12
- z-Normwert = (27 - 31) / 12 = -0.33
- IQ = 100 + 15* z-Normwert = 95
Normdifferenzierung
- Wie spezifisch soll meine Vergleichsgruppe sein? Mit der Population vergleichen? Nur mit allen Frauen vergleichen?
- Normdifferenzierung = nicht mit der Population vergleichen, sondern einer Vergleichsgruppe, die mit der Testperson etwas besser übereinstimmt (in Merkmalen, die mit dem Untersuchungsmerkmal korrelieren, z.B. Alter, Geschlecht). Oder andersrum: evtl wurde die Norm nur bei Studenten erhoben und nicht bei der Gesamtpopulation. Meine Testperson hat aber nur Hauptschulabschluss.
- Vorsicht! Eine zu starke Normdifferenzierung, also eine ‘Überanpassung’ kann zu einer Fehleinschätzung und einem Zerrbild der „Normalität“ führen. Z.B: Ich halte Ahmed für ein Genie, weil er im Sprachtest viel besser abschneidet als die Norm der Migranten. Im Vergleich zu in Deutschland geborenen Kindern ist Ahmeds Sprachfertigkeit aber tatsächlich nur durchschnittlich
Testeichung = Erhebung von Testnormen
Letzter Schritt einer Testkonstruktion
Wichtig sich zu überlegen: was ist denn meine Zielpopulation unter Berücksichtigung von Anwenderinteressen? (ggf. Normdifferenzierung notwendig)
- Globale Repräsentativität = Normstichprobe ist die Gesamtpopulation
vs
- Spezifische Repräsentativität = Normstichprobe ähnelt der Testperson
Die Größe der Normierungsstichprobe ist abhängig von:
- Der Normabstufung (je genauere Ergebnisse ich brauche, desto größer muss die Normierungsstichprobe sein)
- Der Reliabilität der Messung (Je reliabler, desto kleiner darf die Normstichprobe sein)
- Dem Geltungsbereich des Tests (Wenn ich mich nur für eine sehr spezifische Gruppe interessiere darf die Normstichprobe kleiner sein als wenn ich mit der Gesamtpopulation vergleichen will)
Nach der Datenerhebung: prüfen ob normalverteilt. Wenn ja —> Standardnormen möglich
Nach spätestens 8 Jahren sollte man die Gültigkeit von Normen erneut überprüfen (siehe Flynn-Effekt!)
Normen im Testmanual dokumentieren! (Zielpopulation, Erhebungsdesign, Stichprobe, Deskriptivstatistiken, Erhebungsjahr)
Kriteriumsorientierte Interpretation
Kriteriumsorientierte Tests sind häufiger im Leistungsbereich zu finden:
Es interessiert nicht, wieviele Personen das Kriterium erfüllen. Nur, ob die fragliche Person es erfüllt. Z.B. ist die Person für den Beruf geeignet oder nicht
Kriterienorientiert interpretierbare Tests können jederzeit auch normorientiert verwendet werden, nicht jedoch umgekehrt
Schwellenwertermittlung bei der Kriteriumsorientierten Interpretation
Vorab: Schwellenwerte definieren, ab denen das Kriterium als zutreffend gilt. 2 Möglichkeiten zur Schwellenwertermittlung:
- Bezug zu einem externen Kriterium
- Beispiel Depressionsfragebogen - welchen Mittelwert erzielen Personen, von denen man weiß, dass sie depressiv sind? —> Das als Referenz nehmen für den Kriteriumsschwellenwert.
- Nachteil: zusätzliche externe Untersuchungen notwendig. Man muss ja zunächst irgendwie unabhängig vom Depressionsfragebogen separat feststellen, dass die depressive Vergleichsgruppe auch wirklich depressiv ist (meist auch aufwendiger feststellen - der Test ist dann die zeitökonomischere Variante mit möglichst geringer Feherquote).
- Bezug auf Testinhalte. ABER: nur dann möglich, wenn die Items eine repräsentative Stichprobe für den Pool aller Itemns darstellen (eher nur bei Leistungstests möglich).
- Beispiel: Zum Bestehen des Kurses müssen am Ende 80% der Vokabeln beherrscht werden. Solange die in der Abschlussprüfung abgefragten Vokabeln repräsentativ für alle Vokabeln sind, kann man schon vorab das Kriterium festlegen. Das ist aber nur selten möglich. Vor allem nicht bei Persönlichkeitstests mit Rating-Skalen, da dabei die Itemschwierigkeit (= der Mittelwert) stark von der Formulierung beeinflusst wird.
ROC-Analyse zur Schwellenwertermittlung
Der Schwellenwert kann z.B. mit einer ROC-Analyse (Receiver-Operator-Characteristics-Analyse) ermittelt werden.
4 Möglichkeiten:
- Kriterium + und Klassifikation + –> RP richtig positiv
- Kriterium + und Klassifikation - –> FN falsch negativ
- Kriterium - und Klassifikation + –> RP falsch positiv
- Kriterium - und Klassifikation - –> RN richtig negativ
Sensitivität = Trefferquote = RP / (FN + RP)
Spezifität = Quote korrekter Ablehnungen = RN / (FP + RN)
Wenn man die Sensitivität erhöht, geht das immer auf Kosten der Spezifität. Und vice versa.
—> grundsätzlich wählt man den Schwellenwert so, dass die Summe Spezifität + Sensitivität maximal wird. Man kann aber auch davon abweichen, wenn einem z.B. die Sensitivität wichtiger ist