Gütekriterien 1 Flashcards
Testbatterie - Definition
Kombination aus unterschiedlichen Einzeltests (z.B.: Intelligenztests, die verschiedene Bereiche der Intelligenz erfassen)
Unterschied zwischen Itemvarianz, Itemschwierigkeit und -trennschärfe
Itemvarianz = Differenzierungfähigkeit eines Items = Streuung (SD) –> Wie gut differenziert das Item die Merkmalsträger?
Trennschärfe = Die Korrelation des Items mit dem Testwert (also allen anderen Items der Skala) –> wie gut repräsentiert das Item die Skala?
Itemschwierigkeit = prozentualer Anteil richtiger (bzw. zustimmender) Antworten)
–> Itemschwierigkeit und -varianz hängen quadratisch zusammen und treffen auch Aussagen über die Differenzierungfähigkeit des Items, sind aber nicht dasselbe, da die Varainz niedrig ist bei sehr hoher und sehr geringer Schwierigkeit s.F. 8
Übersicht Gütekriterien: Objektivität, Validität, Reliabilität & Normierung
- Objektivität: Wie stark hängt das Ergebnis davon ab, wer die testdurchführung leitet, den Test auswertet und interpretiert?
- Reliabilität: Wie genau oder zuverlässig ist das Messergebnis? Wie stark verändert sich das Ergebnis bei einer Testwiederholung?
- Validität: Wie gut gelingt es genau das Merkmal zu messen, das mit dem Test gemessen werden soll (und nicht ein anderes)?
- Normierung: wie gut lässt sich das Testergebnis mit den Ergebnissen anderer Menschen vergleichen?
Objektivität -Definition
Das Ergebniss eines diagnostischen Verfahren kommt unabhängig davon zustande, wer die Untersuchung, die Auswertung und die Interpretation durchführt
Objektivität - Arten
- Durchführungsobjektivität
- Auswertungsobjektivität
- Interpretationsobjektivität
Objektivität - 1. Durchführungsojektivität: Definition
Durchführungsbedingungen müssen genau spezifiziert werden –> Durchführung unabhängig von VL immer gleich (Ausschluss des Einflusses von Störvariablen)
s.F. 19 Beispiel
Objektivität - Auswertungsobjektivität: Definition
- Definition: Genaue Abgaben, wie eine Antwort (nummerische Abgabe) zu verstehen ist, müssen vorliegen (= Auswertungsregeln)
- Das Testergebnis hängt nicht von Auswerter ab:
a) richtig oder falsch (z.B.: Leistungstests)
b) hoch oder niedrig (z.B.: Persönlichkeitstests)
c) gegeben oder nicht gegeben (z.B.: klinische Diagnose)
Objektivität - Interpretationsobjektivität: Definition
- Definition: Kalre Vorgaben, was individuelle (numerische) Rohwerte bedeuten (–> Normierung)
- Testergebnis unabhängig von Ort, Zeit, VL und Auswerter:
a) Lesitung in einem Test: unterdurchschnittlich, normal, überdurchschnittlich (gemindert, normal, hochbegabt)
b) Persönlichkeitsausprägung: normal vs. extrem
c) Anzahl gegebener Symptome: Störungsbild
Reliabilität - Definition
Die Genauigkeit einer Messung; ein Testverfahren ist perfekt reliabel, wenn die damit erhaltenen Testwerte frei von zufälligen Messfehlern sind. Das Testverfahren ist umso weniger reliabel, je größer die Einflüsse von zufälligen Messfehlern sind
= Messgenaugigkeit
Beispiel: mehrere Waagen stimmen in ihre Anzeige überein/ eine Waage zeigt immer das gleich, wenn ich das gleich drauflege
Reliabilität - Reliabilitätskoeffizient
= Korrelationskoeffizient
Wertebereich zwischen -1 und 1
1 = Freiheit von Messfehlern (perfekte Reliabilität)
0 = Testergebnis ist ausschlißlich durch Messfehler zustandegekommen
negativer Wert = es wurde vergessen Ites zu rekodieren oder ähnliches
s.F. 27
Reliabilität - Methoden der Reliabilitätsschätzung
- Retest-Methode: der gleiche Test wird 2 mal dargeboten
- Paralleltest-Methode: Der Test und eine parallele Version desselben werden verwendet
- Spilt-Half-Test bzw. Testhalbierungsmethode: Ein Test wird in 2 Teile “zerlegt”; es wird die Korrelation der beide Testteile geprüft
- Interne Konsisitenz: Jedes Items wird als Testteil betrachtet
Reliabilität: Methoden der Reliabilitätsschätzung: 1. Retest Reliabilität - Definition, Bestimmung, Annhahme
- Definition: Dasselbe Testverfahren wird an derselben Stichprobe mehrfach durchgeführt
- Bestimmung:
Reliabilität ergibt sich aus der Korrelation der Testwerte der unterschiedlichen Druchgänge (rtt) - Annahme: die wahren Werte der Person haben sich zwischen den Testdruchführungen nicht verändert
s. F. 23
Reliabilität: Methoden der Reliabilitätsschätzung- Retest Reliabilität: Wann anwenden und wovon ist der Reliabilitätsindex abhängig
- Höhe des Reliabilitätsindex ist abhängig von:
a) Stabilität des/ der Merkmals/Merkmalsträger
b) Länge des Messintervalls - Anwenden bei:
a) kruzen Messzeitintervallen (wenige Wochen bis Monate), aber Vorsicht: Erinnerungs- und Übungseffekte
b) Bereite Maße mit wenigen Items zur Erfassung komplexer Merkmalskonstrukte
c) Erfassung relativ stabiler Merkmale
Reliabilität: Methoden der Reliabilitätsschätzung - Paralleltestreliabilität: Definition, Bestimmung und Annahme
- Definition: Parallele Testformen werden an derselben Stichprobe durchgeführt
- Bestimmung:
Reliabilität ergibt sich aus der Korrelation der Testwerte der beiden Tests - Annahme: Beide Tests messen das gleiche Merkmal
s. F. 25
Reliabilität: Methoden der Reliabilitätsschätzung - Paralleltest Reliabilität - Anwendung und wann wird Parallelität der Tests angenommen?
- In der Realität eher selten –> da hoher Aufwand und schwierige Konstruktion
- eher bei Leistungs als bei Perönlichkeitstests
- Parallelität wird angenommen, wenn Mittelwerte und Streuung der Testwerte gleich sind (und wenn Paralleltest Reliabilität hoch ist)
Reliabilität: Methoden der Reliabilitätsschätzung - Split-Half Reliabilität: Definition, Bestimmung & Annahme
- Definition: Quasi-parallele Halbtests (Test wird in zwei Hälften geteilt) werden an derselben Stichprobe durchgeführt
- Bestimmung: Reliabilität ergibt sich aud der Korrelation der Testwerte der beiden Testhälften
- Annahme: Beide Testhälften messen das gleiche Merkmal
s. F. 27
Reliabilität: Methoden der Reliabilitätsschätzung - Split-Half Reliabilität - Methoden de Testhalbierung
- Odd-Even-Methode: Items werden abwechselnd den Tests zugeordnet, z.B.: alle gradzahligen Items = Test 1, alle ungeraden Items = Tests 2 (s. F.28)
- Zeitpartitionierungs-Methode: Testberartung wird in zeitlich zwei gleich lange Abschnitte aufgeteilt (s. F. 29)
- Methode der Itemzwillige: Anhand von Schwierigkeit und Trennschärfe werden Itempaare gebildet, ein Item pro Paar wird zufällig Test 1, das andere Test 2 zugeteilt
Reliabilität: Methoden der Reliabilitätsschätzung - Paralleltest und Split-Half Reliabilität: Vorteil und Problem
- Vorteile: Keine Erinnerungs- und Übungseffekte
- Problem: Streng parallele Test(hälften) so gut wie unmöglich
Reliabilität: Methoden der Reliabilitätsschätzung - Split-Half Reliabilität - Wovon ist die Halbierungsmethode abhängig, was erfordert eine Testhaldierungsbestimmung und Einsatz
- Halbierungsmethode abhöngig von:
a) Homogenität edr Items (Einzeltests eines Gesamttests)
b) Anzahl der Items (meist nur bei gerader Anzahl möglich) - Testhalbierungsreliabilitätsbestimmung erfordert zusätzlich eine Indexkorrektur um eine Testverdopplung (siehe Spearman-Brown-Formel)
- Einsatz: eher seltene Anwendung
Fallbeispiel s. F. 32
Reliabilität: Methoden der Reliabilitätsschätzung - Interne Konsistenz: Definition, Bestimmung & Annahme
- Definition: Testverfahren wird einmalig durchgeführt
- Bestimmung: Reliabilität ergibt sich aus der Korrelation der Werte der einzelnen Items (jedes Item wird quasi als eizelner Testteil betrachtet)
- Annahme: Alle Items messen das gleiche Merkmal
Reliabilität: Methoden der Reliabilitätsschätzung - Interne Konsistenz - häufigstes Maß, Wovon ist die höhe der Reliabilität abhängig & wann zu empfehlen?
- Häufigstes Maß: Cronbachs alpha
- Höhe der Reliabilität ist abhängig von:
a) Homogenität vs. Heterogenität der Items
b) Testlänge (Anzahl der Items) - Zu empfehlen bei:
a) Maßen mit vielen heterogenen Items zur Erfassung breiter Konstrukte
b) Wenn nur einmalige Testdurchführung möglich/ökonomisch/sinnvoll ist
–>Formel s. F. 34 (nicht klausurrelvant)
Reliabilität: Methoden der Reliabilitätsschätzung - Interne Konsistenz - Probleme mit Cronbachs alpha und Alternative
- Probleme: Vorannahmen, die nicht immer zutreffen (essentielle T-Äquivalanz) z.B.: empfinden nicht alle dieselben Items als schwierig oder leicht
- Alternative: McDonalds Omega:
a) weniger kompliziert zu bestimmen
b) weniger strenge vorraussetzungen
c) Vorraussetzung: T-Kongenerität: Items messen gemeinsames Merkmal, aber wahre Werte hängen unterschiedlich mit dem Merkmal zusammen
–> Formel s. F. 35 (nicht klausurrelevant)
Interpretation Reliabilität
- Stichprobenabhängigkeit: Alle Reliabilitätsindices basieren auf Korrelationen und sind daher stichprobenabhängig
- Interpretation: Wie hoch die Reliabilität sein sollte, kann nicht genau festgemacht werden, denn es ist vom jeweiligen Anwendungsfall/ Verfahren abhängig - Daumenregel:
Rel < .70 = unakzeptabel
Rel > .70 = akzeptabel
Rel > .80 = gut
Rel > .90 = Sehr gut
Möglichkeiten zur Reliabilitätssteigerung
- Einfache Formulierung: Umsicht bei der Konstruktion von Messverfahren –> Prinzip einfache Formulierung von Frage/Aussagen (s.F. 37)
- homogene Items: möglichst Verwendung homogener Items (aber Vorsicht vor Redundanz)
- gröere Stichproben
- Testverlängerung (mehr Items)
Möglichkeiten zur Reliabilitätssteigerung: Testverlängerung - Prinzip & Bestimmung
- Prinzip: je mehr Informationen, umso genauer wird das zu erfassende Objekt gemessen
- Bestimmung: durch Spearman-Brown-Formel
a) Vorraussetzung: homogene Items
b) Mittels der Formel kann bestimmt werden, wie die Reliabilität eines Tests mit seiner Verlängerung zunimmt/ Kürzung veringert wird
c) Formel: (p + Rel(Y1)) / ((1 + (p-1) * Rel(Y1))
p: Verlängerungsfaktor (wieviel mal so viele Items als vorher?)
Rel(Y1): Reliabilität des Tests, der um Faktor p verlängert wird
Rel(Y2): Reliabilität des um p verlängerten Faktors
s. F. 38-40
Weitere Gütekriterien: 1. Fairness
- Definition: Als fair gibt ein diagnostische Verfahren dann, wenn es Messwerte liefert, die nicht durch eine Gruppenzugehöhrigkeit eines Diagnostikanten in irrelevanter Weise beeinflusst werden –> das Verfahren ist für alle Probanten frei von Diskriminierung (z.B.: Mathematiktest aus Textaufgaben benachteiligt Kinder mit adnerer Muttersprache)
- Lösung:Gruppenspezifische Normwerte für unterschiedliche Gruppen (z.B.: Geschlecht, Alter, Sprachnievau)
Weitere Gütekriterien: Ökonomie
- Definition: Als ökonomisch gilt ein Instrument, wenn es diagnostische Daten gleicher Qualität zu einem günstigeren Preis (bzw. in kürzerer Zeit) liefert als alternative Instrumente (z.B.: Gruppen- vs. Einzeltests)
- Problem:Kosten-Nutzen-Erwägungen sind nicht immer eindeutig lösbar
Weitere Gütekriterien: Nützlichkeit
- Definition: ein diagnostisches Verfahren ist dann nützlich, wenn es:
a) Informationen liefert, die bereits vorhandene Verfahren nicht liefern können
b) hilft, Fehler zu vermeiden, die bei mehrmaliger Verwendung eines bereits vorhandenen Verfahrens zu befürchten wären (z.B.: Testwiederholdungseffekte) - Problem: Der Nutzen eines Messinstruentes verringert sich mit der Zahl bereits vorhandener Instrumente für das gleiche Merkmal
Weitere Gütekriterien: Zumutbarkeit / soziale Akzeptanz und Eigenschaften zumutbarer Verfahren
- Definition: Zumutbar gelten und sozial akzeptiert werden solche Verfahren, die im Rahmen der erforderlichen Informationsgewinnung von Seiten der Diagnostikerinnen und Diagnostikandinnen als gewinnbringend angesehen werden.
- Eigenschaften zumutbarer Verfahren:
a) wenig zeitaufwand
b) transparente Verfahren werden i.d.R. eher akzeptiert (Achtung weniger Verfälschungssicher!)
c) Intelligenztests werden bei der Personaldiagnostik als wenig akzeptabel empfunden
Übersicht: Weitere Gütekriterien
- Fairness
- Ökonomie
- Nützlichkeit
- Zumutbarkeit/ Soziale Akzeptanz
Objektivität - 1. Durchführungsojektivität: Anweisungen im Testmanual: Welche sind wichtig?
- Zeitvorgaben
- Benötigte Materialien
- Umgang mit Fragen und Störungen
- Standardierte Instruktionen
Objektivität - 1. Durchführungsojektivität: Berechnung
- wird (kann) i.d.R. nicht nummerisch angegeben / bestimmt werden
- Durchführungsobjektivität darf als hoch/ gegeben angesehen werden, wenn alle Bedingungen festgelegt sind, die sich auf das Testverhalten auswirken können
Beispiel s. F. 14
Objektivität - 2. Auswertungsobjektivität: Berechnung
- Auswertungsübereinstimmung: kann numerisch bestimmt und somit angegeben werden
- Auswertungsobjektivität darf als hoch/ gegeben angesehen werden, wenn klare Anweisungen und Hilfsmittel (z.B.: Schablonen, Computertests) zur Auswertung vorliegen
- Probleme: insbesondere, wenn Antworte offen sind –> erfordert detallierte Auswertungsregeln (z.B.: WISC-V) s. F. 16
Objektivität - 3. Interpretationsobjektivität: Darf wann als hoch angesehen werden?
Interpretationsobjektivität darf als hoch / gegeben angesehen werden, wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (Normtabellen, Kritierien)
Beispiel s. F. 23