4. Gütekriterien Flashcards

Question 1

Q

Objektivität

Answer

A

Wie stark hängt das Ergebnis davon ab, wer die Testdurchführung leitet, den Test auswertet und interpretiert?
Eine Forschung ist objektiv, wenn keine ungewollten Einflüsse durch involvierte Personen, insbesondere die Versuchsleitenden, entstehen.

Question 2

Q

Reliabilität

Answer

A

Wie genau oder zuverlässig ist das Messergebnis? Wie stark verändert sich das Ergebnis beispielsweise bei einer Testwiederholung?

Question 3

Q

Validität

Answer

A

Wie gut gelingt es, genau das Merkmal zu messen, das mit dem Test gemessen werden soll (und nicht ein anderes)?

Question 4

Q

Normierung

Answer

A

Wie gut lässt sich das Testergebnis mit den Ergebnissen anderer Menschen vergleichen?

Question 5

Q

Weitere Gütekriterien

Answer

A

Fairness, Ökonomie, Nützlichkeit, Zumutbarkeit/ soziale Akzeptanz

Question 6

Q

Durchführungsobjektivität

Answer

A

Durchführungsbedingungen müssen genau spezifiziert sein
Durchführung unabhängig von Testleiter*in immer gleich (Ausschluss des Einflusses
von Störvariablen) Anweisungen im Testmanual
‒ Zeitvorgaben
‒ Benötigte Materialien
‒ Umgang mit Fragen und Störungen ‒ Standardisierte Instruktionen
wird (kann) in der Regel nicht numerisch angegeben oder bestimmt (werden) Durchführungsobjektivität darf als hoch oder gegeben angesehen werden, wenn alle
Bedingungen festgelegt sind, die sich auf das Testverhalten auswirken können

Question 7

Q

Durchführungsobjektivität Beispiel

Answer

A

„[…] Ob und wann Aufgabenstellungen wiederholt werden dürfen, ist abhängig vom jeweiligen Untertest. Bei den Untertests Zahlen nachsprechen und Buchstaben-Zahlen-Folgen dürfen Aufgaben zum Beispiel nicht wiederholt werden. Wenn eine Testperson fragt, ob die Aufgabe noch einmal wiederholt werden kann, sagen Sie: „Sag einfach das, woran du dich noch am ehesten erinnern kannst.“ […]“

Question 8

Q

Auswertungsobjektivität

Answer

A

Genaue Angaben, wie eine Antwort (numerische Angabe) zu verstehen ist, müssen vorliegen (= Auswertungsregeln)
Das Testergebnis hängt nicht von Auswerterin ab ‒ richtig oder falsch (z.B. Leistungstest)
‒ hoch oder niedrig (z.B. Persönlichkeitstest)
‒ gegeben oder nicht (z.B. Klinische Diagnose)
kann numerisch bestimmt und somit angegeben werden (Auswerterinnenübereinstimmung)
Auswertungsobjektivität darf als hoch oder gegeben angesehen werden, wenn klare Anweisungen und Hilfsmittel (z.B. Schablonen, Computertests) zur Auswertung vorliegen
Insbesondere schwierig, wenn Aufgaben ein offenes Antwortformat haben Erfordert detailliertere Auswertungsregeln (Beispiel WISC-V)

Question 9

Q

Interpretationsobjektivität

Answer

A

Klare Vorgaben, was individuelle (numerische) Rohwerte bedeuten (→ Normierung)
Testergebnis unabhängig von Ort, Zeit, Testleiterin und Auswerterin
‒ Leistung in einem Test → unterdurchschnittlich, normal, überdurchschnittlich
(gemindert, normal, hochbegabt)
‒ Persönlichkeitsausprägung → normal vs. extrem ‒ Anzahl gegebener Symptome → Störungsbild
Interpretationsobjektivität darf als hoch oder gegeben angesehen werden, wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (Normtabellen, Kriterien)

Question 10

Q

Reliabilität

Answer

A

= Messgenauigkeit (Messfehlerfreiheit)
 Mehrere Methoden zur Schätzung
 Beispiel: Die Waage zeigt immer das gleiche an, wenn ich das gleiche drauf lege  Oder: Mehrere Waagen stimmen in ihrer Anzeige überein

Eine Forschung ist reliabel, wenn sie bei wiederholter Durchführung zuverlässige Ergebnisse liefert.

Question 11

Q

Reliabilität
Reliabilitätskoeffizient =

Answer

A

Korrelationskoeffizient
Kann Werte zwischen -1 und 1 annehmen
1 = Freiheit von Messfehlern (perfekte Reliabilität)
0 = Testergebnis ist ausschließlich durch Messfehler zustande gekommen Negative Werte = es wurde vergessen Items zu rekodieren oder ähnliches

Question 12

Q

Methoden der Reliabilität

Answer

A

Retest Methode:
der gleiche test wird 2x dargeboten
paralleltest methode: der test und eine parralele Version dessen werden dargeboten
split half methode: ein test wird in zwei teile zerlegt, Korrelation der beiden wird geprüft
interne Konsistenz: jedes item wird als Testteil betrachtet

Question 13

Q

A) Retest Reliabilität

Answer

A

Dasselbe Testverfahren wird an derselben Stichprobe mehrfach durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der unterschiedlichen Durchgänge (rtt)
Annahme:
Die wahren Werte der Personen haben sich zwischen den Testdurchführungen nicht verändert
Höhe des Reliabilitätsindex ist abhängig von:
‒ Stabilität des/ der Merkmals/Merkmalsträger*in ‒ Länge des Messzeitintervalls
Zu empfehlen bei:
‒ Kurzen Messzeitintervallen (wenige Wochen bis Monate), aber Vorsicht:
Erinnerungseffekte, Übungseffekte
‒ Breite Maße mit wenigen Items zur Erfassung komplexer Merkmalskonstrukte ‒ Erfassung relativ stabiler Merkmale

Question 14

Q

B) Paralleltest Reliabilität

Answer

A

Parallele Testformen (verschiedene Varianten des gleichen Tests) werden an derselben Stichprobe durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der beiden Tests
Annahme:
Beide Tests messen das gleiche Merkmal
In der Realität eher selten
Hoher Aufwand und schwierige Konstruktion
Eher bei Leistungstests als bei Persönlichkeitstests
Parallelität wird angenommen, wenn Mittelwerte und Streuungen der Testwerte gleich
sind (und wenn Paralleltest Reliabilität hoch ist)

Question 15

Q

C) Split-Half Reliabilität

Answer

A

Quasi-parallele Halbtests (Test wird in zwei Hälften geteilt) werden an derselben Stichprobe durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der beiden Testhälften
Annahme:
Beide Testhälften messen das gleiche Merkmal

Methoden der Testhalbierung:
a)Odd-Even-Methode: Items werden abwechselnd den Tests zugeordnet, z.B. alle geradzahligen Items = Test 1, alle ungeradzahligen Items = Test 2

b) Zeitpartitionierungs-Methode: Testbearbeitung wird in zeitlich zwei gleich lange Abschnitte aufgeteilt

c) Methode der Itemzwillinge: Anhand von Schwierigkeit und Trennschärfe werden Itempaare gebildet, ein Item pro Paar wird zufällig Test 1, das andere Test 2 zugeordnet
Test

Question 16

Q

Paralleltest- und Split-Half Reliabilität

Answer

A

Vorteil: Keine Erinnerungseffekte, eher keine Übungseffekte
Problem: Streng parallele Test(hälften) so gut wie unmöglich!
Halbierungsmethode (Split-Half-Methode) ist abhängig von: ‒ Homogenität der Items (Einzeltests eines Gesamttests) ‒ Anzahl der Items (meist nur bei gerader Anzahl möglich)
Testhalbierungsreliabilitätsbestimmung erfordert zusätzlich eine Indexkorrektur um eine Testverdoppelung (siehe Spearman-Brown-Formel)
→ Diese Methoden der Reliabilitätsbestimmung kommen eher selten zur Anwendung.

Question 17

Q

D) Interne Konsistenz

Answer

A

Testverfahren wird einmalig durchgeführt
Reliabilität ergibt sich aus der Korrelation der Werte der einzelnen Items (jedes Item wird quasi als einzelner Testteil betrachtet)
Annahme:
Alle Items messen das gleiche Merkmal

Häufigstes Maß: Cronbachs alpha (α)

Höhe der Reliabilität ist abhängig von:
- Homogenität vs. Heterogenität der Items - Testlänge (Anzahl der Items)

Zu empfehlen bei:
- Maßen mit vielen heterogenen Items zur Erfassung breiter Konstrukte - Wenn nur einmalige Testdurchführung möglich / ökonomisch / sinnvoll

Problem mit Cronbachs α: Vorannahmen, die nicht immer zutreffen (essentielle τ-Äquivalenz), z.B. empfinden nicht alle Teilnehmenden dieselben Items als schwierig oder leicht Alternative: McDonalds Omega (ω)
- komplizierter zu bestimmen
- weniger strenge Voraussetzung
- Voraussetzung: τ-Kongenerität
(Items messen gemeinsames Merkmal,
aber wahre Werte hängen
unterschiedlich mit dem Merkmal zusammen)

Question 18

Q

Interpretation Reliabilität

Answer

A

Alle Reliabilitätsindices basieren auf Korrelationen und sind daher stichprobenabhängig
Wie hoch sollte die Reliabilität eines Tests sein?
- Das kann nicht genau festgemacht werden, denn es ist vom jeweiligen Anwendungsfall und Verfahren abhängig!
- Daumenregel:
Rel <.70unakzeptabel
Rel > .70akzeptabel
Rel > .80gut
Rel > .90sehr gut

Question 19

Q

Möglichkeiten zur Reliabilitätssteigerung

Answer

A

Umsicht bei der Konstruktion von Messverfahren (Prinzip: Einfache Formulierung von Fragen/Aussagen)
Verwendung möglichst homogener Items (aber Vorsicht vor Redundanz) Größere Stichprobe (reduziert Messfehler)
Testverlängerung (mehr Items; reduziert Messfehler)

Testverlängerung (Prinzip: Je mehr Informationen, umso genauer wird das zu erfassende Objekt gemessen)
→ Bestimmung durch Spearman-Brown-Formel
Voraussetzung: homogene Items
Mittels der sogenannten Spearman-Brown-Formel der Testverlängerung kann bestimmt werden,wie die Reliabilität eines Tests mit seiner Verlängerung zunimmt

Question 20

Q

a) Fairness

Answer

A

Als fair gilt ein diagnostisches Verfahren dann, wenn es Messwerte liefert, die nicht „durch eine Gruppenzugehörigkeit eines/r Diagnostikandin“ in irrelevanter Weise beeinflusst werden.
Also wenn das Verfahren für alle Probandinnen frei ist von Diskriminierung Bsp.: Mathematiktest aus Textaufgaben, der Kinder mit Migrationshintergrund
benachteiligt
Lösung: Gruppenspezifische Normwerte für unterschiedliche Gruppen (z.B. Geschlecht, Alter, Sprachniveau)

Question 21

Q

b) Ökonomie

Answer

A

Als ökonomisch gilt ein Instrument, wenn es diagnostische Daten gleicher Qualität zu einem günstigeren Preis (bzw. in kürzerer Zeit) liefert als alternative Instrumente.
Bsp. 1: Gruppentestung vs. Einzeltestung
Bsp. 2: Computertestung für 5.000 € vs. 2.000 € teure Papier-Bleistift-Testung,
die aber 5-mal mehr Zeitaufwand erfordert.
Problem: Kosten-Nutzen-Erwägungen sind nicht immer eindeutig lösbar!

Question 22

Q

c) Nützlichkeit

Answer

A

Nützlich ist ein diagnostisches Verfahren, wenn es…
Informationen liefert, die bereits vorhandene Verfahren nicht liefern können
Bsp: Auswahlgespräch zusätzlich zu Bewerbungsunterlagen (Lebenslauf)
hilft, Fehler zu verhindern, die bei mehrmaliger Verwendung eines bereits vorhandenen Instruments zu befürchten wären (z.B. Testwiederholungseffekte)
ABER: Der Nutzen eines Messinstruments verringert sich mit der Zahl bereits vorhandener Instrumente für das gleiche Merkmal!

Question 23

Q

d) Zumutbarkeit und soziale Akzeptanz

Answer

A

Zumutbar gelten und sozial akzeptiert werden solche Verfahren, die im Rahmen der erforderlichen Informationsgewinnung von Seiten der Diagnostikerinnen und Diagnostikandinnen als gewinnbringend angesehen werden.
→ wenig zeitaufwendige Verfahren gelten in der Regel als zumutbar
→ Intelligenztests werden bei der Personaldiagnostik als wenig akzeptabel empfunden
→ transparente Verfahren werden in der Regel eher akzeptiert
ABER: Transparente Verfahren sind weniger verfälschungssicher!

Question 24

Q