4. Gütekriterien Flashcards
Objektivität
Wie stark hängt das Ergebnis davon ab, wer die Testdurchführung leitet, den Test auswertet und interpretiert?
Eine Forschung ist objektiv, wenn keine ungewollten Einflüsse durch involvierte Personen, insbesondere die Versuchsleitenden, entstehen.
Reliabilität
Wie genau oder zuverlässig ist das Messergebnis? Wie stark verändert sich das Ergebnis beispielsweise bei einer Testwiederholung?
Validität
Wie gut gelingt es, genau das Merkmal zu messen, das mit dem Test gemessen werden soll (und nicht ein anderes)?
Normierung
Wie gut lässt sich das Testergebnis mit den Ergebnissen anderer Menschen vergleichen?
Weitere Gütekriterien
Fairness, Ökonomie, Nützlichkeit, Zumutbarkeit/ soziale Akzeptanz
Durchführungsobjektivität
Durchführungsbedingungen müssen genau spezifiziert sein
Durchführung unabhängig von Testleiter*in immer gleich (Ausschluss des Einflusses
von Störvariablen) Anweisungen im Testmanual
‒ Zeitvorgaben
‒ Benötigte Materialien
‒ Umgang mit Fragen und Störungen ‒ Standardisierte Instruktionen
wird (kann) in der Regel nicht numerisch angegeben oder bestimmt (werden) Durchführungsobjektivität darf als hoch oder gegeben angesehen werden, wenn alle
Bedingungen festgelegt sind, die sich auf das Testverhalten auswirken können
Durchführungsobjektivität Beispiel
„[…] Ob und wann Aufgabenstellungen wiederholt werden dürfen, ist abhängig vom jeweiligen Untertest. Bei den Untertests Zahlen nachsprechen und Buchstaben-Zahlen-Folgen dürfen Aufgaben zum Beispiel nicht wiederholt werden. Wenn eine Testperson fragt, ob die Aufgabe noch einmal wiederholt werden kann, sagen Sie: „Sag einfach das, woran du dich noch am ehesten erinnern kannst.“ […]“
Auswertungsobjektivität
Genaue Angaben, wie eine Antwort (numerische Angabe) zu verstehen ist, müssen vorliegen (= Auswertungsregeln)
Das Testergebnis hängt nicht von Auswerterin ab ‒ richtig oder falsch (z.B. Leistungstest)
‒ hoch oder niedrig (z.B. Persönlichkeitstest)
‒ gegeben oder nicht (z.B. Klinische Diagnose)
kann numerisch bestimmt und somit angegeben werden (Auswerterinnenübereinstimmung)
Auswertungsobjektivität darf als hoch oder gegeben angesehen werden, wenn klare Anweisungen und Hilfsmittel (z.B. Schablonen, Computertests) zur Auswertung vorliegen
Insbesondere schwierig, wenn Aufgaben ein offenes Antwortformat haben Erfordert detailliertere Auswertungsregeln (Beispiel WISC-V)
Interpretationsobjektivität
Klare Vorgaben, was individuelle (numerische) Rohwerte bedeuten (→ Normierung)
Testergebnis unabhängig von Ort, Zeit, Testleiterin und Auswerterin
‒ Leistung in einem Test → unterdurchschnittlich, normal, überdurchschnittlich
(gemindert, normal, hochbegabt)
‒ Persönlichkeitsausprägung → normal vs. extrem ‒ Anzahl gegebener Symptome → Störungsbild
Interpretationsobjektivität darf als hoch oder gegeben angesehen werden, wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (Normtabellen, Kriterien)
Reliabilität
= Messgenauigkeit (Messfehlerfreiheit)
Mehrere Methoden zur Schätzung
Beispiel: Die Waage zeigt immer das gleiche an, wenn ich das gleiche drauf lege Oder: Mehrere Waagen stimmen in ihrer Anzeige überein
Eine Forschung ist reliabel, wenn sie bei wiederholter Durchführung zuverlässige Ergebnisse liefert.
Reliabilität
Reliabilitätskoeffizient =
Korrelationskoeffizient
Kann Werte zwischen -1 und 1 annehmen
1 = Freiheit von Messfehlern (perfekte Reliabilität)
0 = Testergebnis ist ausschließlich durch Messfehler zustande gekommen Negative Werte = es wurde vergessen Items zu rekodieren oder ähnliches
Methoden der Reliabilität
- Retest Methode:
der gleiche test wird 2x dargeboten - paralleltest methode: der test und eine parralele Version dessen werden dargeboten
- split half methode: ein test wird in zwei teile zerlegt, Korrelation der beiden wird geprüft
- interne Konsistenz: jedes item wird als Testteil betrachtet
A) Retest Reliabilität
Dasselbe Testverfahren wird an derselben Stichprobe mehrfach durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der unterschiedlichen Durchgänge (rtt)
Annahme:
Die wahren Werte der Personen haben sich zwischen den Testdurchführungen nicht verändert
Höhe des Reliabilitätsindex ist abhängig von:
‒ Stabilität des/ der Merkmals/Merkmalsträger*in ‒ Länge des Messzeitintervalls
Zu empfehlen bei:
‒ Kurzen Messzeitintervallen (wenige Wochen bis Monate), aber Vorsicht:
Erinnerungseffekte, Übungseffekte
‒ Breite Maße mit wenigen Items zur Erfassung komplexer Merkmalskonstrukte ‒ Erfassung relativ stabiler Merkmale
B) Paralleltest Reliabilität
Parallele Testformen (verschiedene Varianten des gleichen Tests) werden an derselben Stichprobe durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der beiden Tests
Annahme:
Beide Tests messen das gleiche Merkmal
In der Realität eher selten
Hoher Aufwand und schwierige Konstruktion
Eher bei Leistungstests als bei Persönlichkeitstests
Parallelität wird angenommen, wenn Mittelwerte und Streuungen der Testwerte gleich
sind (und wenn Paralleltest Reliabilität hoch ist)
C) Split-Half Reliabilität
Quasi-parallele Halbtests (Test wird in zwei Hälften geteilt) werden an derselben Stichprobe durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der beiden Testhälften
Annahme:
Beide Testhälften messen das gleiche Merkmal
Methoden der Testhalbierung:
a)Odd-Even-Methode: Items werden abwechselnd den Tests zugeordnet, z.B. alle geradzahligen Items = Test 1, alle ungeradzahligen Items = Test 2
b) Zeitpartitionierungs-Methode: Testbearbeitung wird in zeitlich zwei gleich lange Abschnitte aufgeteilt
c) Methode der Itemzwillinge: Anhand von Schwierigkeit und Trennschärfe werden Itempaare gebildet, ein Item pro Paar wird zufällig Test 1, das andere Test 2 zugeordnet
Test