4. Gütekriterien Flashcards

1
Q

Objektivität

A

Wie stark hängt das Ergebnis davon ab, wer die Testdurchführung leitet, den Test auswertet und interpretiert?
Eine Forschung ist objektiv, wenn keine ungewollten Einflüsse durch involvierte Personen, insbesondere die Versuchsleitenden, entstehen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Reliabilität

A

Wie genau oder zuverlässig ist das Messergebnis? Wie stark verändert sich das Ergebnis beispielsweise bei einer Testwiederholung?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Validität

A

Wie gut gelingt es, genau das Merkmal zu messen, das mit dem Test gemessen werden soll (und nicht ein anderes)?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Normierung

A

Wie gut lässt sich das Testergebnis mit den Ergebnissen anderer Menschen vergleichen?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Weitere Gütekriterien

A

Fairness, Ökonomie, Nützlichkeit, Zumutbarkeit/ soziale Akzeptanz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Durchführungsobjektivität

A

Durchführungsbedingungen müssen genau spezifiziert sein
Durchführung unabhängig von Testleiter*in immer gleich (Ausschluss des Einflusses
von Störvariablen) Anweisungen im Testmanual
‒ Zeitvorgaben
‒ Benötigte Materialien
‒ Umgang mit Fragen und Störungen ‒ Standardisierte Instruktionen
wird (kann) in der Regel nicht numerisch angegeben oder bestimmt (werden) Durchführungsobjektivität darf als hoch oder gegeben angesehen werden, wenn alle
Bedingungen festgelegt sind, die sich auf das Testverhalten auswirken können

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Durchführungsobjektivität Beispiel

A

„[…] Ob und wann Aufgabenstellungen wiederholt werden dürfen, ist abhängig vom jeweiligen Untertest. Bei den Untertests Zahlen nachsprechen und Buchstaben-Zahlen-Folgen dürfen Aufgaben zum Beispiel nicht wiederholt werden. Wenn eine Testperson fragt, ob die Aufgabe noch einmal wiederholt werden kann, sagen Sie: „Sag einfach das, woran du dich noch am ehesten erinnern kannst.“ […]“

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Auswertungsobjektivität

A

Genaue Angaben, wie eine Antwort (numerische Angabe) zu verstehen ist, müssen vorliegen (= Auswertungsregeln)
Das Testergebnis hängt nicht von Auswerterin ab ‒ richtig oder falsch (z.B. Leistungstest)
‒ hoch oder niedrig (z.B. Persönlichkeitstest)
‒ gegeben oder nicht (z.B. Klinische Diagnose)
kann numerisch bestimmt und somit angegeben werden (Auswerter
innenübereinstimmung)
Auswertungsobjektivität darf als hoch oder gegeben angesehen werden, wenn klare Anweisungen und Hilfsmittel (z.B. Schablonen, Computertests) zur Auswertung vorliegen
Insbesondere schwierig, wenn Aufgaben ein offenes Antwortformat haben Erfordert detailliertere Auswertungsregeln (Beispiel WISC-V)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Interpretationsobjektivität

A

Klare Vorgaben, was individuelle (numerische) Rohwerte bedeuten (→ Normierung)
Testergebnis unabhängig von Ort, Zeit, Testleiterin und Auswerterin
‒ Leistung in einem Test → unterdurchschnittlich, normal, überdurchschnittlich
(gemindert, normal, hochbegabt)
‒ Persönlichkeitsausprägung → normal vs. extrem ‒ Anzahl gegebener Symptome → Störungsbild
Interpretationsobjektivität darf als hoch oder gegeben angesehen werden, wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (Normtabellen, Kriterien)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Reliabilität

A

= Messgenauigkeit (Messfehlerfreiheit)
 Mehrere Methoden zur Schätzung
 Beispiel: Die Waage zeigt immer das gleiche an, wenn ich das gleiche drauf lege  Oder: Mehrere Waagen stimmen in ihrer Anzeige überein

Eine Forschung ist reliabel, wenn sie bei wiederholter Durchführung zuverlässige Ergebnisse liefert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Reliabilität
Reliabilitätskoeffizient =

A

Korrelationskoeffizient
Kann Werte zwischen -1 und 1 annehmen
1 = Freiheit von Messfehlern (perfekte Reliabilität)
0 = Testergebnis ist ausschließlich durch Messfehler zustande gekommen Negative Werte = es wurde vergessen Items zu rekodieren oder ähnliches

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Methoden der Reliabilität

A
  1. Retest Methode:
    der gleiche test wird 2x dargeboten
  2. paralleltest methode: der test und eine parralele Version dessen werden dargeboten
  3. split half methode: ein test wird in zwei teile zerlegt, Korrelation der beiden wird geprüft
  4. interne Konsistenz: jedes item wird als Testteil betrachtet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

A) Retest Reliabilität

A

Dasselbe Testverfahren wird an derselben Stichprobe mehrfach durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der unterschiedlichen Durchgänge (rtt)
Annahme:
Die wahren Werte der Personen haben sich zwischen den Testdurchführungen nicht verändert
Höhe des Reliabilitätsindex ist abhängig von:
‒ Stabilität des/ der Merkmals/Merkmalsträger*in ‒ Länge des Messzeitintervalls
Zu empfehlen bei:
‒ Kurzen Messzeitintervallen (wenige Wochen bis Monate), aber Vorsicht:
Erinnerungseffekte, Übungseffekte
‒ Breite Maße mit wenigen Items zur Erfassung komplexer Merkmalskonstrukte ‒ Erfassung relativ stabiler Merkmale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

B) Paralleltest Reliabilität

A

Parallele Testformen (verschiedene Varianten des gleichen Tests) werden an derselben Stichprobe durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der beiden Tests
Annahme:
Beide Tests messen das gleiche Merkmal
In der Realität eher selten
Hoher Aufwand und schwierige Konstruktion
Eher bei Leistungstests als bei Persönlichkeitstests
Parallelität wird angenommen, wenn Mittelwerte und Streuungen der Testwerte gleich
sind (und wenn Paralleltest Reliabilität hoch ist)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

C) Split-Half Reliabilität

A

Quasi-parallele Halbtests (Test wird in zwei Hälften geteilt) werden an derselben Stichprobe durchgeführt
Reliabilität ergibt sich aus der Korrelation der Testwerte der beiden Testhälften
Annahme:
Beide Testhälften messen das gleiche Merkmal

Methoden der Testhalbierung:
a)Odd-Even-Methode: Items werden abwechselnd den Tests zugeordnet, z.B. alle geradzahligen Items = Test 1, alle ungeradzahligen Items = Test 2

b) Zeitpartitionierungs-Methode: Testbearbeitung wird in zeitlich zwei gleich lange Abschnitte aufgeteilt

c) Methode der Itemzwillinge: Anhand von Schwierigkeit und Trennschärfe werden Itempaare gebildet, ein Item pro Paar wird zufällig Test 1, das andere Test 2 zugeordnet
Test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Paralleltest- und Split-Half Reliabilität

A

Vorteil: Keine Erinnerungseffekte, eher keine Übungseffekte
Problem: Streng parallele Test(hälften) so gut wie unmöglich!
Halbierungsmethode (Split-Half-Methode) ist abhängig von: ‒ Homogenität der Items (Einzeltests eines Gesamttests) ‒ Anzahl der Items (meist nur bei gerader Anzahl möglich)
Testhalbierungsreliabilitätsbestimmung erfordert zusätzlich eine Indexkorrektur um eine Testverdoppelung (siehe Spearman-Brown-Formel)
→ Diese Methoden der Reliabilitätsbestimmung kommen eher selten zur Anwendung.

17
Q

D) Interne Konsistenz

A

Testverfahren wird einmalig durchgeführt
Reliabilität ergibt sich aus der Korrelation der Werte der einzelnen Items (jedes Item wird quasi als einzelner Testteil betrachtet)
Annahme:
Alle Items messen das gleiche Merkmal

Häufigstes Maß: Cronbachs alpha (α)

Höhe der Reliabilität ist abhängig von:
- Homogenität vs. Heterogenität der Items - Testlänge (Anzahl der Items)

Zu empfehlen bei:
- Maßen mit vielen heterogenen Items zur Erfassung breiter Konstrukte - Wenn nur einmalige Testdurchführung möglich / ökonomisch / sinnvoll

Problem mit Cronbachs α: Vorannahmen, die nicht immer zutreffen (essentielle τ-Äquivalenz), z.B. empfinden nicht alle Teilnehmenden dieselben Items als schwierig oder leicht Alternative: McDonalds Omega (ω)
- komplizierter zu bestimmen
- weniger strenge Voraussetzung
- Voraussetzung: τ-Kongenerität
(Items messen gemeinsames Merkmal,
aber wahre Werte hängen
unterschiedlich mit dem Merkmal zusammen)

18
Q

Interpretation Reliabilität

A

Alle Reliabilitätsindices basieren auf Korrelationen und sind daher stichprobenabhängig
Wie hoch sollte die Reliabilität eines Tests sein?
- Das kann nicht genau festgemacht werden, denn es ist vom jeweiligen Anwendungsfall und Verfahren abhängig!
- Daumenregel:
Rel <.70unakzeptabel
Rel > .70akzeptabel
Rel > .80gut
Rel > .90sehr gut

19
Q

Möglichkeiten zur Reliabilitätssteigerung

A

Umsicht bei der Konstruktion von Messverfahren (Prinzip: Einfache Formulierung von Fragen/Aussagen)
Verwendung möglichst homogener Items (aber Vorsicht vor Redundanz) Größere Stichprobe (reduziert Messfehler)
Testverlängerung (mehr Items; reduziert Messfehler)

Testverlängerung (Prinzip: Je mehr Informationen, umso genauer wird das zu erfassende Objekt gemessen)
→ Bestimmung durch Spearman-Brown-Formel
Voraussetzung: homogene Items
Mittels der sogenannten Spearman-Brown-Formel der Testverlängerung kann bestimmt werden,wie die Reliabilität eines Tests mit seiner Verlängerung zunimmt

20
Q

a) Fairness

A

Als fair gilt ein diagnostisches Verfahren dann, wenn es Messwerte liefert, die nicht „durch eine Gruppenzugehörigkeit eines/r Diagnostikandin“ in irrelevanter Weise beeinflusst werden.
Also wenn das Verfahren für alle Proband
innen frei ist von Diskriminierung Bsp.: Mathematiktest aus Textaufgaben, der Kinder mit Migrationshintergrund
benachteiligt
Lösung: Gruppenspezifische Normwerte für unterschiedliche Gruppen (z.B. Geschlecht, Alter, Sprachniveau)

21
Q

b) Ökonomie

A

Als ökonomisch gilt ein Instrument, wenn es diagnostische Daten gleicher Qualität zu einem günstigeren Preis (bzw. in kürzerer Zeit) liefert als alternative Instrumente.
Bsp. 1: Gruppentestung vs. Einzeltestung
Bsp. 2: Computertestung für 5.000 € vs. 2.000 € teure Papier-Bleistift-Testung,
die aber 5-mal mehr Zeitaufwand erfordert.
Problem: Kosten-Nutzen-Erwägungen sind nicht immer eindeutig lösbar!

22
Q

c) Nützlichkeit

A

Nützlich ist ein diagnostisches Verfahren, wenn es…
Informationen liefert, die bereits vorhandene Verfahren nicht liefern können
Bsp: Auswahlgespräch zusätzlich zu Bewerbungsunterlagen (Lebenslauf)
hilft, Fehler zu verhindern, die bei mehrmaliger Verwendung eines bereits vorhandenen Instruments zu befürchten wären (z.B. Testwiederholungseffekte)
ABER: Der Nutzen eines Messinstruments verringert sich mit der Zahl bereits vorhandener Instrumente für das gleiche Merkmal!

23
Q

d) Zumutbarkeit und soziale Akzeptanz

A

Zumutbar gelten und sozial akzeptiert werden solche Verfahren, die im Rahmen der erforderlichen Informationsgewinnung von Seiten der Diagnostikerinnen und Diagnostikandinnen als gewinnbringend angesehen werden.
→ wenig zeitaufwendige Verfahren gelten in der Regel als zumutbar
→ Intelligenztests werden bei der Personaldiagnostik als wenig akzeptabel empfunden
→ transparente Verfahren werden in der Regel eher akzeptiert
ABER: Transparente Verfahren sind weniger verfälschungssicher!

24
Q
A