03 Gütekriterien Flashcards
Was sind die drei Haupttestgütekriterien?
Objektivität = Unabhängigkeit der Messung
Reliabilität = Zuverlässigkeit (Genauigkeit) der Messung
Validität = Gültigkeit der Messung
Was gibt die Objektivität an?
in welchem Maß die Testergebnisse vom Testanwender unabhängig sind
In welche drei Unterbereiche kann man die Objektivität unterteilen?
o Durchführungsobjektivität
o Auswertungsobjektivität
o Interpretationsobjektivität
Was gilt für die Durchführungsobjektivität?
- Durchführungsbedingungen müssen genau spezifiziert sein
- Durchführung unabhängig von Testleiter:in immer gleich (Ausschluss des Einflusses von Störvariablen)
- Anweisungen im Testmanual
Welche Anweisungen sollten im Testmanual bei der Durchführungsobjektivität gegeben sein?
o Zeitvorgaben
o Benötigte Materialien
o Umgang mit Fragen und Störungen
o Standardisierte Instruktionen
Wann kann die Durchführungsobjektivität als hoch oder gegeben angesehen werden?
wenn alle Bedingungen festgelegt sind, die sich auf das Testverhalten auswirken können
Was gilt bei der Auswertungsobjektivität?
- Genaue Angaben, wie eine Antwort zu verstehen ist, müssen vorliegen (= Auswertungsregeln)
- Das Testergebnis hängt nicht von Auswerter:in ab
- kann numerisch bestimmt und somit angegeben werden (Auswerterübereinstimmung)
Inwiefern kann das Testergebnis nach der Auswertungsobjektivität von der Auswerter*in abhängen?
o richtig oder falsch (z.B. Leistungstest)
o hoch oder niedrig (z.B. Persönlichkeitstest)
o gegeben oder nicht (z.B. Klinische Diagnose
Wann gilt die Auswertungsobjektivität als hoch oder gegeben?
wenn klare Anweisungen und Hilfsmittel (z.B. Schablonen, Computertests) zur Auswertung vorliegen
Was versteht man unter Interpretationsobjektivität?
- Klare Vorgaben, was individuelle (numerische) Rohwerte bedeuten (→ Normierung)
- Testergebnis unabhängig von Ort, Zeit, Testleiter:in und Auswerter:in
o Leistung in einem Test → unterdurchschnittlich, normal, überdurchschnittlich (gemindert, normal, hochbegabt)
o Persönlichkeitsausprägung → normal vs. extrem
o Anzahl gegebener Symptome → Störungsbild
Wann kann die Interpretationsobjektivität als hoch oder gegeben angesehen werden?
wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (Normtabellen, Kriterien)
Welche Verfahren können verwendet werden, um die Reliabilität einer Messung zu erhöhen?
- Zweimalige Erfassung des gleichen Merkmals
o Retest
o Paralleltest
o Testhalbierung - Über Interkorrelation der Items
o Interne Konsistenz
Wie setzt sich der Testwert zusammen?
Kombination des ”wahren” Messwertes (True Score) und Abweichung
xi=τi+ϵi
Was ist der (Mess-)Fehler?
Diskrepanz zwischen dem beobachteten Wert und dem True-Score
Was sind die drei Annahmen den klassischer Testtheorie?
- Mittelwert der Messfehler ist 0 (Messfehler als Abweichung):
M(ϵi ) = 0 - True Scores und Fehler sind unkorreliert (hängen nicht voneinander ab):
Cov(τi, ϵi ) = 0 - Die Fehler sind untereinander unkorreliert:
Cov(ϵi,ϵj ) = 0
Was kennzeichnet die Reliabilität und wie ist sie mathematisch definiert?
- Reliabilität (Zuverlässigkeit) eines Tests kennzeichnet den Grad der Genauigkeit (Präzision), mit dem das geprüfte Merkmal gemessen wird
- Die Reliabilität ist definiert als das Verhältnis der Varianz der True-Scores und der beobachteten Testwerte
rel(X) = Var(T)/Var(X) = Var(T)/ (Var(T)+Var(ϵ))
Was ist der Maximal- und der Minimalwert der Reliabilität und was bedeuten sie?
Maximalwert: rel(X) = 1
o Die Varianz der Messfehler ist 0
o Die Messung ist frei von Messfehlern
Minimalwert: rel(X) = 0
o Die Varianz der True Scores ist 0
o Die Messung reflektiert nur Messfehler
Wie groß sollte die Reliabilität sein, ab wann wird es problematisch?
Reliabilität sollte >.80 sein; problematisch, wenn <.60
Durch welche Variablen ist die Reliabilität definiert?
durch nicht direkt beobachtbare Variablen definiert (True-Score- und Fehlervarianz)
Was ist der Re-Test? Wann wird er eingesetzt?
- Person mehrmals mit dem demselben Test untersuchen
- zeitstabile Merkmale (z.B. Intelligenz, SES etc.): wahrer Wert einer Person bleibt identisch, Fehleranteil variiert
- Korrelation zwischen beiden Messzeitpunkten Schätzer der Reliabilität
Was sind die Probleme beim Retest?
o Reliabilität vs. Stabilität
o Lerneffekte
Was ist der Paralleltest?
- zwei parallele Testversionen, die das Merkmal X identisch operationalisieren
- Beide Testversionen werden von einer Person bearbeitet
- Korrelation zwischen den Tests ist Schätzer der Reliabilität:
Was sind die Probleme beim Paralleltest?
o Parallele Versionen?
o Hoher Aufwand
o Positionseffekte (Ermüdung, Transfer etc.)
Was ist die Testhalbierung?
- verschiedene Teile des gleichen Tests kommen zu ähnlichen Ergebnissen
- Untersuchung einer Stichprobe mit einem Test danach Items in zwei Hälften aufteilen
- Korrelation zwischen den beiden Testhälften dient als Schätzer der Reliabilität
Was sind die Probleme bei der Testhalbierung?
- Aufteilung der Items
- Testhälften selbst schon mit Messfehler behaftet
Was untersucht die Interne Konsistenz? Und wie?
- Kommen die einzelnen Items eines Tests zu dem gleichen Ergebnis ?
- Jedes Item wird als kleiner Test für sich behandelt und mit dem Testwert korreliert
- mittlere Korrelation zwischen den Items dient als Schätzer der Reliabilität (z.B. KR20, Cronbachs α)
Was sind die Probleme der Internen Konsistenz?
Heterogene Konstrukte, mehrdimensionale Tests
Was gibt die Validität an?
- Gültigkeit der Messung
- gibt an, wie gut der Test das misst, was er zu messen vorgibt
Welche drei Unterbereiche gibt es bei der Validität?
- Inhaltsvalidität = Passung Konstrukt
- Kriteriumsvalidität = Außenkriterium
- Konstruktvaldität = Passung nomologisches Netzwert
Was wird bei der Inhaltsvalidität überprüft? Und wie? Was gibt es dabei für Probleme?
- Inhalt der Testitems deckt alle relevanten Aspekte des Konstrukts erschöpfend ab
o Augenschein-Validität: Die Bestandteile des Tests erscheinen selbst Laien als gerechtfertigt
o Curriculare Validität = Passung zu Curriculum - Problem: Nicht quantifizierbar, Einschätzung
- Meist wird die Inhaltsvalidität durch die Einbeziehung von Experten/innen in die Testentwicklung gesichert
Was wird bei der Kriteriumsvalidität geprüft? Welche beiden Optionen gibt es? Welche Validitäten sind dabei zufriedenstellend?
- Korrelation mit einem relevanten Außenmerkmal
o konkurrent: gleichzeitige Erfassung (z.B. Korrelation mit einem bereits etabliertem Testverfahren)
o prädiktiv/prognostisch: spätere Erfassung (z.B. Korrelation mit Note am Schuljahresende) - Validitäten zwischen .40 und .60 zufriedenstellend, aber inhaltlich je nach Konstrukt gewichten
Was ist die Konstruktionsvalidität und welche zwei Optionen gibt es?
Ableitung von Hypothesen, die durch die Testergebnisse bestätigt werden (nomologisches Netzwerk)
o konvergent: Korrelationen mit Konstrukten, mit denen der Test korrelieren sollte (z.B. Leseleistung mit Rechtschreibleistung)
o diskriminant: Keine Korrelationen mit Konstrukten, mit denen der Test nicht korrelieren sollte (z.B. Leseleistung nur schwach mit non-verbaler Intelligenz)
Welche Beziehungen gelten zwischen der Reliabilität, Objektivität und Validität?
- Reliabilität kann nur so hoch sein, wie die Objektivität aber ein objektiver Test ist nicht zwangsläufig reliabel
- Die Validität kann nur so hoch sein, wie die Reliabilität; aber ein reliabler Test ist nicht zwangsläufig valide
Was ist das Reliabilität-Fidelitäts-Dilemma? Was resultiert daraus?
- Reliabilitäts-Verfahren, die auf der Bestimmung der Homogenität basieren (z.B. interne Konsistenz), fallen höher aus, je homogener die eingesetzten Aufgaben sind
- kann die Breite (Fidelität) des abgedeckten Konstruktes einschränken, was ein Teilaspekt der Validität ist
- Breiten-Tiefen-Tradeoff: Es ist selten möglich, ein Konstrukt in seiner gesamten Breite mit einer begrenzten Menge von Aufgaben zuverlässig abzubilden.
Was ist die systematische Fehlervarianz?
- Klasssiche Testtheorie geht davon aus, dass Fehler unsystematisch sind und sich deshalb gegenseitig aufheben
- Wenn alle Items ähnlich sind (Formulierungen etc.), dann führt dies u.U. zu systematischer Fehlervarianz
- Da diese konstant ist und nicht variiert, kann sie nicht von der True-Score-Varianz unterschieden werden
–> wahre Reliabilität wird überschätzt
xi = Ti +ϵi
Cov(Ti, ϵi) = 0
Cov(ϵi, ϵj) = 0
Welche vier Nebengütekriterien gibt es?
- Fairness
- Ökonomie
- Nützlichkeit
- Zumutbarkeit und soziale Akzeptanz
Wann gilt das Nebengütekriterium Fairness als erfüllt? Welche Beispiele gibt es dafür?
- fair ist diagnostisches Verfahren, wenn es Messwerte liefert, die für alle Proband:innen frei ist von Diskriminierung sind
- Beispiel: Mathematiktest aus Textaufgaben, der Kinder mit Migrationshintergrund benachteiligt
- Lösung: Gruppenspezifische Normwerte für unterschiedliche Gruppen (z.B. Geschlecht, Alter, Sprachniveau)
Wann gilt das Nebengütekriterium Ökonomie als erfüllt? Welche Beispiele gibt es? Welche Probleme ergeben sich daraus?
- Als ökonomisch gilt ein Instrument, wenn es diagnostische Daten gleicher Qualität zu einem günstigeren Preis (bzw. in kürzerer Zeit) liefert als alternative Instrumente.
o Beispiel 1: Gruppentestung vs. Einzeltestung
o Beispiel 2: Computertestung für 5.000 vs. 2.000 d teure Papier-Bleistift-Testung, die aber 5-mal mehr Zeitaufwand erfordert - Problem: Kosten-Nutzen-Erwägungen sind nicht immer eindeutig lösbar!
Wann ist das Nebengütekriterium Nützlichkeit erfüllt?
- Nützlich ist ein diagnostisches Verfahren, wenn es:
o Informationen liefert, die bereits vorhandene Verfahren nicht liefern können
o hilft, Fehler zu verhindern, die bei mehrmaliger Verwendung eines bereits vorhandenen Instruments zu befürchten wären (z.B. Testwiederholungseffekte) - ABER: Nutzen eines Messinstruments verringert sich mit der Zahl bereits vorhandener Instrumente für das gleiche Merkmal!
Wann ist das Nebengütekriterium Zumutbarkeit und soziale Akzeptanz erfüllt?
- Zumutbar gelten und sozial akzeptiert werden solche Verfahren, die im Rahmen der erforderlichen Informationsgewinnung von Seiten der Diagnostiker:innen und Proband:innen als gewinnbringend angesehen werden
o zeitsparende Verfahren idR eher akzeptiert
o transparente Verfahren idR eher akzeptiert. - ABER: Transparente Verfahren sind weniger verfälschungssicher!