4. Gütekriterien Flashcards
Objektivität
Wie stark hängt das Ergebnis davon ab, wer die Testdurchführung leitet, den Test auswertet und interpretiert?
Eine Forschung ist objektiv, wenn keine ungewollten Einflüsse durch involvierte Personen, insbesondere die Versuchsleitenden, entstehen.
Reliabilität
Wie genau oder zuverlässig ist das Messergebnis? Wie stark verändert sich das Ergebnis beispielsweise bei einer Testwiederholung?
Validität
Wie gut gelingt es, genau das Merkmal zu messen, das mit dem Test gemessen werden soll (und nicht ein anderes)?
Normierung
Wie gut lässt sich das Testergebnis mit den Ergebnissen anderer Menschen vergleichen?
Weitere Gütekriterien
Fairness, Ökonomie, Nützlichkeit, Zumutbarkeit/ soziale Akzeptanz
Durchführungsobjektivität
Durchführungsbedingungen müssen genau spezifiziert sein
Durchführung unabhängig von Testleiter*in immer gleich (Ausschluss des Einflusses
von Störvariablen) Anweisungen im Testmanual
‒ Zeitvorgaben
‒ Benötigte Materialien
‒ Umgang mit Fragen und Störungen ‒ Standardisierte Instruktionen
wird (kann) in der Regel nicht numerisch angegeben oder bestimmt (werden) Durchführungsobjektivität darf als hoch oder gegeben angesehen werden, wenn alle
Bedingungen festgelegt sind, die sich auf das Testverhalten auswirken können
Durchführungsobjektivität Beispiel
„[…] Ob und wann Aufgabenstellungen wiederholt werden dürfen, ist abhängig vom jeweiligen Untertest. Bei den Untertests Zahlen nachsprechen und Buchstaben-Zahlen-Folgen dürfen Aufgaben zum Beispiel nicht wiederholt werden. Wenn eine Testperson fragt, ob die Aufgabe noch einmal wiederholt werden kann, sagen Sie: „Sag einfach das, woran du dich noch am ehesten erinnern kannst.“ […]“
Auswertungsobjektivität
Genaue Angaben, wie eine Antwort (numerische Angabe) zu verstehen ist, müssen vorliegen (= Auswertungsregeln)
Das Testergebnis hängt nicht von Auswerterin ab ‒ richtig oder falsch (z.B. Leistungstest)
‒ hoch oder niedrig (z.B. Persönlichkeitstest)
‒ gegeben oder nicht (z.B. Klinische Diagnose)
kann numerisch bestimmt und somit angegeben werden (Auswerterinnenübereinstimmung)
Auswertungsobjektivität darf als hoch oder gegeben angesehen werden, wenn klare Anweisungen und Hilfsmittel (z.B. Schablonen, Computertests) zur Auswertung vorliegen
Insbesondere schwierig, wenn Aufgaben ein offenes Antwortformat haben Erfordert detailliertere Auswertungsregeln (Beispiel WISC-V)
Interpretationsobjektivität
Klare Vorgaben, was individuelle (numerische) Rohwerte bedeuten (→ Normierung)
Testergebnis unabhängig von Ort, Zeit, Testleiterin und Auswerterin
‒ Leistung in einem Test → unterdurchschnittlich, normal, überdurchschnittlich
(gemindert, normal, hochbegabt)
‒ Persönlichkeitsausprägung → normal vs. extrem ‒ Anzahl gegebener Symptome → Störungsbild
Interpretationsobjektivität darf als hoch oder gegeben angesehen werden, wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (Normtabellen, Kriterien)
Reliabilität
= Messgenauigkeit (Messfehlerfreiheit)
Mehrere Methoden zur Schätzung
Beispiel: Die Waage zeigt immer das gleiche an, wenn ich das gleiche drauf lege Oder: Mehrere Waagen stimmen in ihrer Anzeige überein
Eine Forschung ist reliabel, wenn sie bei wiederholter Durchführung zuverlässige Ergebnisse liefert.
Reliabilität
Reliabilitätskoeffizient =
Korrelationskoeffizient
Kann Werte zwischen -1 und 1 annehmen
1 = Freiheit von Messfehlern (perfekte Reliabilität)
0 = Testergebnis ist ausschließlich durch Messfehler zustande gekommen Negative Werte = es wurde vergessen Items zu rekodieren oder ähnliches
Methoden der Reliabilität
- Retest Methode:
der gleiche test wird 2x dargeboten - paralleltest methode: der test und eine parralele Version dessen werden dargeboten
- split half methode: ein test wird in zwei teile zerlegt, Korrelation der beiden wird geprüft
- interne Konsistenz: jedes item wird als Testteil betrachtet
A) Retest Reliabilität
Dasselbe Testverfahren wird an derselben Stichprobe mehrfach durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der unterschiedlichen Durchgänge (rtt)
Annahme:
Die wahren Werte der Personen haben sich zwischen den Testdurchführungen nicht verändert
Höhe des Reliabilitätsindex ist abhängig von:
‒ Stabilität des/ der Merkmals/Merkmalsträger*in ‒ Länge des Messzeitintervalls
Zu empfehlen bei:
‒ Kurzen Messzeitintervallen (wenige Wochen bis Monate), aber Vorsicht:
Erinnerungseffekte, Übungseffekte
‒ Breite Maße mit wenigen Items zur Erfassung komplexer Merkmalskonstrukte ‒ Erfassung relativ stabiler Merkmale
B) Paralleltest Reliabilität
Parallele Testformen (verschiedene Varianten des gleichen Tests) werden an derselben Stichprobe durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der beiden Tests
Annahme:
Beide Tests messen das gleiche Merkmal
In der Realität eher selten
Hoher Aufwand und schwierige Konstruktion
Eher bei Leistungstests als bei Persönlichkeitstests
Parallelität wird angenommen, wenn Mittelwerte und Streuungen der Testwerte gleich
sind (und wenn Paralleltest Reliabilität hoch ist)
C) Split-Half Reliabilität
Quasi-parallele Halbtests (Test wird in zwei Hälften geteilt) werden an derselben Stichprobe durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der beiden Testhälften
Annahme:
Beide Testhälften messen das gleiche Merkmal
Methoden der Testhalbierung:
a)Odd-Even-Methode: Items werden abwechselnd den Tests zugeordnet, z.B. alle geradzahligen Items = Test 1, alle ungeradzahligen Items = Test 2
b) Zeitpartitionierungs-Methode: Testbearbeitung wird in zeitlich zwei gleich lange Abschnitte aufgeteilt
c) Methode der Itemzwillinge: Anhand von Schwierigkeit und Trennschärfe werden Itempaare gebildet, ein Item pro Paar wird zufällig Test 1, das andere Test 2 zugeordnet
Test
Paralleltest- und Split-Half Reliabilität
Vorteil: Keine Erinnerungseffekte, eher keine Übungseffekte
Problem: Streng parallele Test(hälften) so gut wie unmöglich!
Halbierungsmethode (Split-Half-Methode) ist abhängig von: ‒ Homogenität der Items (Einzeltests eines Gesamttests) ‒ Anzahl der Items (meist nur bei gerader Anzahl möglich)
Testhalbierungsreliabilitätsbestimmung erfordert zusätzlich eine Indexkorrektur um eine Testverdoppelung (siehe Spearman-Brown-Formel)
→ Diese Methoden der Reliabilitätsbestimmung kommen eher selten zur Anwendung.
D) Interne Konsistenz
Testverfahren wird einmalig durchgeführt
Reliabilität ergibt sich aus der Korrelation der Werte der einzelnen Items (jedes Item wird quasi als einzelner Testteil betrachtet)
Annahme:
Alle Items messen das gleiche Merkmal
Häufigstes Maß: Cronbachs alpha (α)
Höhe der Reliabilität ist abhängig von:
- Homogenität vs. Heterogenität der Items - Testlänge (Anzahl der Items)
Zu empfehlen bei:
- Maßen mit vielen heterogenen Items zur Erfassung breiter Konstrukte - Wenn nur einmalige Testdurchführung möglich / ökonomisch / sinnvoll
Problem mit Cronbachs α: Vorannahmen, die nicht immer zutreffen (essentielle τ-Äquivalenz), z.B. empfinden nicht alle Teilnehmenden dieselben Items als schwierig oder leicht Alternative: McDonalds Omega (ω)
- komplizierter zu bestimmen
- weniger strenge Voraussetzung
- Voraussetzung: τ-Kongenerität
(Items messen gemeinsames Merkmal,
aber wahre Werte hängen
unterschiedlich mit dem Merkmal zusammen)
Interpretation Reliabilität
Alle Reliabilitätsindices basieren auf Korrelationen und sind daher stichprobenabhängig
Wie hoch sollte die Reliabilität eines Tests sein?
- Das kann nicht genau festgemacht werden, denn es ist vom jeweiligen Anwendungsfall und Verfahren abhängig!
- Daumenregel:
Rel <.70unakzeptabel
Rel > .70akzeptabel
Rel > .80gut
Rel > .90sehr gut
Möglichkeiten zur Reliabilitätssteigerung
Umsicht bei der Konstruktion von Messverfahren (Prinzip: Einfache Formulierung von Fragen/Aussagen)
Verwendung möglichst homogener Items (aber Vorsicht vor Redundanz) Größere Stichprobe (reduziert Messfehler)
Testverlängerung (mehr Items; reduziert Messfehler)
Testverlängerung (Prinzip: Je mehr Informationen, umso genauer wird das zu erfassende Objekt gemessen)
→ Bestimmung durch Spearman-Brown-Formel
Voraussetzung: homogene Items
Mittels der sogenannten Spearman-Brown-Formel der Testverlängerung kann bestimmt werden,wie die Reliabilität eines Tests mit seiner Verlängerung zunimmt
a) Fairness
Als fair gilt ein diagnostisches Verfahren dann, wenn es Messwerte liefert, die nicht „durch eine Gruppenzugehörigkeit eines/r Diagnostikandin“ in irrelevanter Weise beeinflusst werden.
Also wenn das Verfahren für alle Probandinnen frei ist von Diskriminierung Bsp.: Mathematiktest aus Textaufgaben, der Kinder mit Migrationshintergrund
benachteiligt
Lösung: Gruppenspezifische Normwerte für unterschiedliche Gruppen (z.B. Geschlecht, Alter, Sprachniveau)
b) Ökonomie
Als ökonomisch gilt ein Instrument, wenn es diagnostische Daten gleicher Qualität zu einem günstigeren Preis (bzw. in kürzerer Zeit) liefert als alternative Instrumente.
Bsp. 1: Gruppentestung vs. Einzeltestung
Bsp. 2: Computertestung für 5.000 € vs. 2.000 € teure Papier-Bleistift-Testung,
die aber 5-mal mehr Zeitaufwand erfordert.
Problem: Kosten-Nutzen-Erwägungen sind nicht immer eindeutig lösbar!
c) Nützlichkeit
Nützlich ist ein diagnostisches Verfahren, wenn es…
Informationen liefert, die bereits vorhandene Verfahren nicht liefern können
Bsp: Auswahlgespräch zusätzlich zu Bewerbungsunterlagen (Lebenslauf)
hilft, Fehler zu verhindern, die bei mehrmaliger Verwendung eines bereits vorhandenen Instruments zu befürchten wären (z.B. Testwiederholungseffekte)
ABER: Der Nutzen eines Messinstruments verringert sich mit der Zahl bereits vorhandener Instrumente für das gleiche Merkmal!
d) Zumutbarkeit und soziale Akzeptanz
Zumutbar gelten und sozial akzeptiert werden solche Verfahren, die im Rahmen der erforderlichen Informationsgewinnung von Seiten der Diagnostikerinnen und Diagnostikandinnen als gewinnbringend angesehen werden.
→ wenig zeitaufwendige Verfahren gelten in der Regel als zumutbar
→ Intelligenztests werden bei der Personaldiagnostik als wenig akzeptabel empfunden
→ transparente Verfahren werden in der Regel eher akzeptiert
ABER: Transparente Verfahren sind weniger verfälschungssicher!