03 Gütekriterien Flashcards

Question 1

Q

Was sind die drei Haupttestgütekriterien?

Answer

A

Objektivität = Unabhängigkeit der Messung

Reliabilität = Zuverlässigkeit (Genauigkeit) der Messung

Validität = Gültigkeit der Messung

Question 2

Q

Was gibt die Objektivität an?

Answer

A

in welchem Maß die Testergebnisse vom Testanwender unabhängig sind

Question 3

Q

In welche drei Unterbereiche kann man die Objektivität unterteilen?

Answer

A

o Durchführungsobjektivität
o Auswertungsobjektivität
o Interpretationsobjektivität

Question 4

Q

Was gilt für die Durchführungsobjektivität?

Answer

A

Durchführungsbedingungen müssen genau spezifiziert sein
Durchführung unabhängig von Testleiter:in immer gleich (Ausschluss des Einflusses von Störvariablen)
Anweisungen im Testmanual

Question 5

Q

Welche Anweisungen sollten im Testmanual bei der Durchführungsobjektivität gegeben sein?

Answer

A

o Zeitvorgaben
o Benötigte Materialien
o Umgang mit Fragen und Störungen
o Standardisierte Instruktionen

Question 6

Q

Wann kann die Durchführungsobjektivität als hoch oder gegeben angesehen werden?

Answer

A

wenn alle Bedingungen festgelegt sind, die sich auf das Testverhalten auswirken können

Question 7

Q

Was gilt bei der Auswertungsobjektivität?

Answer

A

Genaue Angaben, wie eine Antwort zu verstehen ist, müssen vorliegen (= Auswertungsregeln)
Das Testergebnis hängt nicht von Auswerter:in ab
kann numerisch bestimmt und somit angegeben werden (Auswerterübereinstimmung)

Question 8

Q

Inwiefern kann das Testergebnis nach der Auswertungsobjektivität von der Auswerter*in abhängen?

Answer

A

o richtig oder falsch (z.B. Leistungstest)
o hoch oder niedrig (z.B. Persönlichkeitstest)
o gegeben oder nicht (z.B. Klinische Diagnose

Question 9

Q

Wann gilt die Auswertungsobjektivität als hoch oder gegeben?

Answer

A

wenn klare Anweisungen und Hilfsmittel (z.B. Schablonen, Computertests) zur Auswertung vorliegen

Question 10

Q

Was versteht man unter Interpretationsobjektivität?

Answer

A

Klare Vorgaben, was individuelle (numerische) Rohwerte bedeuten (→ Normierung)
Testergebnis unabhängig von Ort, Zeit, Testleiter:in und Auswerter:in
o Leistung in einem Test → unterdurchschnittlich, normal, überdurchschnittlich (gemindert, normal, hochbegabt)
o Persönlichkeitsausprägung → normal vs. extrem
o Anzahl gegebener Symptome → Störungsbild

Question 11

Q

Wann kann die Interpretationsobjektivität als hoch oder gegeben angesehen werden?

Answer

A

wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (Normtabellen, Kriterien)

Question 12

Q

Welche Verfahren können verwendet werden, um die Reliabilität einer Messung zu erhöhen?

Answer

A

Zweimalige Erfassung des gleichen Merkmals
o Retest
o Paralleltest
o Testhalbierung
Über Interkorrelation der Items
o Interne Konsistenz

Question 13

Q

Wie setzt sich der Testwert zusammen?

Answer

A

Kombination des ”wahren” Messwertes (True Score) und Abweichung

xi=τi+ϵi

Question 14

Q

Was ist der (Mess-)Fehler?

Answer

A

Diskrepanz zwischen dem beobachteten Wert und dem True-Score

Question 15

Q

Was sind die drei Annahmen den klassischer Testtheorie?

Answer

A

Mittelwert der Messfehler ist 0 (Messfehler als Abweichung):
M(ϵi ) = 0
True Scores und Fehler sind unkorreliert (hängen nicht voneinander ab):
Cov(τi, ϵi ) = 0
Die Fehler sind untereinander unkorreliert:
Cov(ϵi,ϵj ) = 0

Question 16

Q

Was kennzeichnet die Reliabilität und wie ist sie mathematisch definiert?

Answer

A

Reliabilität (Zuverlässigkeit) eines Tests kennzeichnet den Grad der Genauigkeit (Präzision), mit dem das geprüfte Merkmal gemessen wird
Die Reliabilität ist definiert als das Verhältnis der Varianz der True-Scores und der beobachteten Testwerte
rel(X) = Var(T)/Var(X) = Var(T)/ (Var(T)+Var(ϵ))

Question 17

Q

Was ist der Maximal- und der Minimalwert der Reliabilität und was bedeuten sie?

Answer

A

Maximalwert: rel(X) = 1
o Die Varianz der Messfehler ist 0
o Die Messung ist frei von Messfehlern

Minimalwert: rel(X) = 0
o Die Varianz der True Scores ist 0
o Die Messung reflektiert nur Messfehler

Question 18

Q

Wie groß sollte die Reliabilität sein, ab wann wird es problematisch?

Answer

A

Reliabilität sollte >.80 sein; problematisch, wenn <.60

Question 19

Q

Durch welche Variablen ist die Reliabilität definiert?

Answer

A

durch nicht direkt beobachtbare Variablen definiert (True-Score- und Fehlervarianz)

Question 20

Q

Was ist der Re-Test? Wann wird er eingesetzt?

Answer

A

Person mehrmals mit dem demselben Test untersuchen
zeitstabile Merkmale (z.B. Intelligenz, SES etc.): wahrer Wert einer Person bleibt identisch, Fehleranteil variiert
Korrelation zwischen beiden Messzeitpunkten Schätzer der Reliabilität

Question 21

Q

Was sind die Probleme beim Retest?

Answer

A

o Reliabilität vs. Stabilität
o Lerneffekte

Question 22

Q

Was ist der Paralleltest?

Answer

A

zwei parallele Testversionen, die das Merkmal X identisch operationalisieren
Beide Testversionen werden von einer Person bearbeitet
Korrelation zwischen den Tests ist Schätzer der Reliabilität:

Question 23

Q

Was sind die Probleme beim Paralleltest?

Answer

A

o Parallele Versionen?
o Hoher Aufwand
o Positionseffekte (Ermüdung, Transfer etc.)

Question 24

Q

Was ist die Testhalbierung?

Answer

A

verschiedene Teile des gleichen Tests kommen zu ähnlichen Ergebnissen
Untersuchung einer Stichprobe mit einem Test  danach Items in zwei Hälften aufteilen
Korrelation zwischen den beiden Testhälften dient als Schätzer der Reliabilität

Question 25

Q

Was sind die Probleme bei der Testhalbierung?

Answer

A

Aufteilung der Items
Testhälften selbst schon mit Messfehler behaftet

Question 26

Q

Was untersucht die Interne Konsistenz? Und wie?

Answer

A

Kommen die einzelnen Items eines Tests zu dem gleichen Ergebnis ?
Jedes Item wird als kleiner Test für sich behandelt und mit dem Testwert korreliert
mittlere Korrelation zwischen den Items dient als Schätzer der Reliabilität (z.B. KR20, Cronbachs α)

Question 27

Q

Was sind die Probleme der Internen Konsistenz?

Answer

A

Heterogene Konstrukte, mehrdimensionale Tests

Question 28

Q

Was gibt die Validität an?

Answer

A

Gültigkeit der Messung
gibt an, wie gut der Test das misst, was er zu messen vorgibt

Question 29

Q

Welche drei Unterbereiche gibt es bei der Validität?

Answer

A

Inhaltsvalidität = Passung Konstrukt
Kriteriumsvalidität = Außenkriterium
Konstruktvaldität = Passung nomologisches Netzwert

Question 30

Q

Was wird bei der Inhaltsvalidität überprüft? Und wie? Was gibt es dabei für Probleme?

Answer

A

Inhalt der Testitems deckt alle relevanten Aspekte des Konstrukts erschöpfend ab
o Augenschein-Validität: Die Bestandteile des Tests erscheinen selbst Laien als gerechtfertigt
o Curriculare Validität = Passung zu Curriculum
Problem: Nicht quantifizierbar, Einschätzung
Meist wird die Inhaltsvalidität durch die Einbeziehung von Experten/innen in die Testentwicklung gesichert

Question 31

Q

Was wird bei der Kriteriumsvalidität geprüft? Welche beiden Optionen gibt es? Welche Validitäten sind dabei zufriedenstellend?

Answer

A

Korrelation mit einem relevanten Außenmerkmal
o konkurrent: gleichzeitige Erfassung (z.B. Korrelation mit einem bereits etabliertem Testverfahren)
o prädiktiv/prognostisch: spätere Erfassung (z.B. Korrelation mit Note am Schuljahresende)
Validitäten zwischen .40 und .60 zufriedenstellend, aber inhaltlich je nach Konstrukt gewichten

Question 32

Q

Was ist die Konstruktionsvalidität und welche zwei Optionen gibt es?

Answer

A

Ableitung von Hypothesen, die durch die Testergebnisse bestätigt werden (nomologisches Netzwerk)

o konvergent: Korrelationen mit Konstrukten, mit denen der Test korrelieren sollte (z.B. Leseleistung mit Rechtschreibleistung)

o diskriminant: Keine Korrelationen mit Konstrukten, mit denen der Test nicht korrelieren sollte (z.B. Leseleistung nur schwach mit non-verbaler Intelligenz)

Question 33

Q

Welche Beziehungen gelten zwischen der Reliabilität, Objektivität und Validität?

Answer

A

Reliabilität kann nur so hoch sein, wie die Objektivität aber ein objektiver Test ist nicht zwangsläufig reliabel
Die Validität kann nur so hoch sein, wie die Reliabilität; aber ein reliabler Test ist nicht zwangsläufig valide

Question 34

Q

Was ist das Reliabilität-Fidelitäts-Dilemma? Was resultiert daraus?

Answer

A

Reliabilitäts-Verfahren, die auf der Bestimmung der Homogenität basieren (z.B. interne Konsistenz), fallen höher aus, je homogener die eingesetzten Aufgaben sind
kann die Breite (Fidelität) des abgedeckten Konstruktes einschränken, was ein Teilaspekt der Validität ist
Breiten-Tiefen-Tradeoff: Es ist selten möglich, ein Konstrukt in seiner gesamten Breite mit einer begrenzten Menge von Aufgaben zuverlässig abzubilden.

Question 35

Q

Was ist die systematische Fehlervarianz?

Answer

A

Klasssiche Testtheorie geht davon aus, dass Fehler unsystematisch sind und sich deshalb gegenseitig aufheben
Wenn alle Items ähnlich sind (Formulierungen etc.), dann führt dies u.U. zu systematischer Fehlervarianz
Da diese konstant ist und nicht variiert, kann sie nicht von der True-Score-Varianz unterschieden werden
–> wahre Reliabilität wird überschätzt

xi = Ti +ϵi
Cov(Ti, ϵi) = 0
Cov(ϵi, ϵj) = 0

Question 36

Q

Welche vier Nebengütekriterien gibt es?

Answer

A

Fairness
Ökonomie
Nützlichkeit
Zumutbarkeit und soziale Akzeptanz

Question 37

Q

Wann gilt das Nebengütekriterium Fairness als erfüllt? Welche Beispiele gibt es dafür?

Answer

A

fair ist diagnostisches Verfahren, wenn es Messwerte liefert, die für alle Proband:innen frei ist von Diskriminierung sind
Beispiel: Mathematiktest aus Textaufgaben, der Kinder mit Migrationshintergrund benachteiligt
Lösung: Gruppenspezifische Normwerte für unterschiedliche Gruppen (z.B. Geschlecht, Alter, Sprachniveau)

Question 38

Q

Wann gilt das Nebengütekriterium Ökonomie als erfüllt? Welche Beispiele gibt es? Welche Probleme ergeben sich daraus?

Answer

A

Als ökonomisch gilt ein Instrument, wenn es diagnostische Daten gleicher Qualität zu einem günstigeren Preis (bzw. in kürzerer Zeit) liefert als alternative Instrumente.
o Beispiel 1: Gruppentestung vs. Einzeltestung
o Beispiel 2: Computertestung für 5.000 vs. 2.000 d teure Papier-Bleistift-Testung, die aber 5-mal mehr Zeitaufwand erfordert
Problem: Kosten-Nutzen-Erwägungen sind nicht immer eindeutig lösbar!

Question 39

Q

Wann ist das Nebengütekriterium Nützlichkeit erfüllt?

Answer

A

Nützlich ist ein diagnostisches Verfahren, wenn es:
o Informationen liefert, die bereits vorhandene Verfahren nicht liefern können
o hilft, Fehler zu verhindern, die bei mehrmaliger Verwendung eines bereits vorhandenen Instruments zu befürchten wären (z.B. Testwiederholungseffekte)
ABER: Nutzen eines Messinstruments verringert sich mit der Zahl bereits vorhandener Instrumente für das gleiche Merkmal!

Question 40

Q

Wann ist das Nebengütekriterium Zumutbarkeit und soziale Akzeptanz erfüllt?

Answer

A

Zumutbar gelten und sozial akzeptiert werden solche Verfahren, die im Rahmen der erforderlichen Informationsgewinnung von Seiten der Diagnostiker:innen und Proband:innen als gewinnbringend angesehen werden
o zeitsparende Verfahren idR eher akzeptiert
o transparente Verfahren idR eher akzeptiert.
ABER: Transparente Verfahren sind weniger verfälschungssicher!