Vorlesung 3 Flashcards
Drei Hauptgütekriterien
Objektivität (Unabhängigkeit)
Reliabilität (Zuverlässigkeit)
Validität (Gültigkeit)
Objektivität
Gibt an, in welchem Maße die Ergebnisse vom Testanwender abhängig sind
Durchführungsobjektivität
Durchführungsbedingungen müssen genau spezifiziert sein.
Durchführung unabhängig von Testleiter immer gleich.
Anweisungen zu: Zeitvorgaben, Materialien, Umgang mit Fragen, standardisierte Instruktionen
Auswertungsobjektivität
Genaue Angaben, wie eine Antwort zu verstehen ist.
Leistungstest: richtig falsch
Persönlichkeitstest: hoch niedrig
Klinische Diagnose: gegeben nicht gegeben
Interpretationsobjektivität
Klare Vorgaben, was individuelle Rohwerte bedeuten.
Test somit unabhängig vom Ort, Zeit, Testleiter:in oder Auswerter:in
Reliabilität
Zuverlässigkeit oder Genauigkeit der Messung
Definiert als das Verhältnis der Varianz der True Scores und der beobachteten Testwerte
Werte der Reliabilität
Maximalwert: rel(X) = 1
▶ Die Varianz der Messfehler ist 0.
▶ Die Messung ist frei von Messfehlern.
Minimalwert: rel(X) = 0
▶ Die Varianz der True Scores ist 0.
▶ Die Messung reflektiert nur Messfehler.
Reliabilität sollte > .80 sein; problematisch, wenn < .60
Retest-Reliabilität
Eine Person mehrmals mit demselben Test untersuchen
Bei Zeitstabilen Merkmalen bleibt der wahre Wert einer Person identisch, der Fehleranteil variiert
Probleme: Reliabilität vs. Stabilität, Lerneffekte
Paralleltest-Reliabilität
Entwicklung von zwei parallelen Testversionen, die das Merkmal X identisch operationalisieren
Die Korrelation zwischen den Tests dient als Schätzer der Reliabilität
Probleme: Hoher Aufwand, Positionseffekte (Ermüdung)
Testhalbierungs-Reliabilität
Man schaut, ob verschiedene Teile des gleichen Tests zu ̈ahnlichen Ergebnissen kommen.
Korrelation zwischen beiden Testhälftem dient als Schätzer der Reliabilität
Probleme: Aufteilung der Items, Testhälften selbst schon mit Fehlern behaftet
Interne-Konsistenz
Man schaut, ob die einzelnen Items eines Tests zu dem gleichen Ergebnis kommen.
Jedes Item ist ein eigener kleiner Test und wird mit den anderen korreliert
Mittlere Korrelation zwischen den Items dient als Schätzer der Reliabilität
Probleme: Heterogene Konstrukte, mehrdimensionale Tests
Cronbachs alpha
Variiert zwischen -unendlich und 1
Negative Werte können nicht interpretiert werden
Werte über .6 gelten als akzeptabel, Werte über .8 als gut
Validität
Gibt an, wie gut der Test das misst, was er zu messen vorgibt
Inhaltsvalidität
Der Inhalt der Testitems deckt alle relevanten Aspekte des Konstrukts erschöpfend ab
Problem: nicht quantifizierbar, Einschätzung
Kriteriumsvalidität
Korrelation mit einem relevanten Außenmerkmal
Entweder Konkurrent (gleichzeitige Erfassung) oder prognostisch (spätere Erfassung)
Validitäten zwischen .4 und .6 zufriedenstellend
Konstruktvalidität
Ableitung von Hypothesen, die durch die Testergebnisse bestätigt werden
Konstruktvalidität (konvergent)
Korrelationen mit Konstrukten, mit denen der Test korrelieren sollte (z.B. sollte die Leseleistung mit der Rechtschreibleistung korrelieren)
Konstruktvalidität (diskriminant)
Keine Korrelationen mit Konstrukten, mit denen der Test nicht korrelieren sollte (z.B. sollte die Leseleistung, nur schwach mit der non-verbalen Intelligenz korrelieren)
Beziehung zwischen den Gütekriterien
Bauen auf einander auf:
▶ Die Reliabilität kann nur so hoch sein, wie die Objektivität; aber ein objektiver Test ist nicht zwangsläufig reliabel.
▶ Die Validität kann nur so hoch sein, wie die Reliabilität; aber ein reliabler Test ist nicht zwangsläufig valide.
Reliabilitäts-Fidelitäts-Dilemma
Reliabilit ̈ats-Verfahren, die auf der Bestimmung der Homogenit ̈at basieren (z.B. interne Konsistenz), fallen höher aus, je homogener die eingesetzten Aufgaben sind?
Kann Breite (Fidelität) des abgedeckten Konstrukts einschränken
Nebengütekriterium Fairness
Wenn Messwerte für alle Probanden frei von Diskriminierung sind
Nebengütekriterium Ökonomie
Wenn ein Instrument diagnostische Daten gleicher Qualität zu einem günstigeren Preis (bzw. in kürzerer Zeit) liefert als alternative Instrumente.
Gruppen vs. Einzeltestung beispielsweise
Nebengütekriterium Nützlichkeit
Wenn:
Liefert Informationen, die bereits vorhandene Verfahren nicht liefern können
Hilft Fehler zu verhindern, die bei anderen Instrumenten durch mehrmalige Verwendung zu befürchten wären
Nebengütekriterium Zumutbarkeit und soziale Akzeptanz
Wenn erforderlichen Informationsgewinnung von Seiten der Diagnostiker:innen und Proband:innen als gewinnbringend angesehen werden
▶ zeitsparende Verfahren sind in der Regel eher akzeptiert.
▶ transparente Verfahren werden in der Regel eher akzeptiert.