2. Reliabilität, Validität, Soziale Validität MTMM, Eichmasstäbe Flashcards
Definition von Test (Lienert, 1969):
„Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung“
• anzumerken bleibt, dass es nicht ausschließlich um quantitative Aussagen geht, sondern auch um klassifikatorische oder kategoriale Feststellungen
Klassische Testtheorie Annahmen
- Die Reliabilität gibt den Anteil der wahren Werte an der Varianz der beobachteten Werte an
- die Varianz der beobachteten Werte ist die Summe der Varianz der wahren Werte und der Fehlerwerte Sxt2 = Swt2 + S et2
Gütekriterien
- Maßstäbe zur Beurteilung der möglichen Fehler, die man bei der Anwendung derartiger Tests machen kann
- (numerische) Größen, die Aussagen darüber machen, wie gut ein Testverfahren ist
- Aussagen darüber, wann man besser diesen Test nicht oder nur mit Vorsicht verwenden sollte
- die Testkennwerte dienen als Hinweise, wo und wie man den Test verbessern kann
- Reliabilität, Validität und Objektivität
Objektivität
Objektivität
-> soll garantieren, dass die Ergebnisse unabhängig vom Testanwender sind
Soll sich auf alle drei Phasen einer Testdurchführung beziehen
- Durchführungsobjektivität (in der Regel garantiert durch die Standardisierung der Testprozedur, mit Testmanual, Instruktionen etc.)
- Auswertungsobjektivität (meist gegeben durch „schablonisierte“ Auswertungen oder aber Auswertungsschlüssel oder PC- Programme zur Testauswertung)
- Interpretationsobjektivität (bezieht sich auf die Schlussfolgerungen, die aus den Testergebnissen gezogen werden können).
Testarten
- Leistungstests
a. power test b. speed test - Persönlichkeitstests
- Objektive Persönlichkeitstests
(Verfahren, bei denen das Verhalten in einer standardisierten Situation erhoben wird, ohne dass der Befragte sich selbst beurteilen muss) - Projektive Tests
- Situationsfragebögen („Stellen Sie sich vor, …“)
- Symptomlisten (Symptome z.B. gemäß ICD 10 oder DSM IV)
- Einstellungstests
- Motivations- und Interessenfragebögen
- Verhaltensfragebögen (Fragen nach tatsächlichem Verhalten)
Testkonstruktion in 8 Schritten:
1. Definition des „inhaltlichen Universums“ („universe of content“)
- Definition des „inhaltlichen Universums“ („universe of content“)
- Welches Konstrukt, welches Verhalten soll in einem Test erfasst werden?
- Welche Aussagen sollen überhaupt Berücksichtigung finden?:
- Beispiel: Arbeitszufriedenheit
- als Einstellung zur Arbeit? als Motivation? als Einstellungsfacetten?
- mit oder ohne Berücksichtigung allgemeiner Lebenszufriedenheit?
- unter Berücksichtigung der generellen Berufszufriedenheit?
Testkonstruktion in 8 Schritten:
2. Gewinnung einer Itemstichprobe/Formulierung von Items
- Gewinnung einer Itemstichprobe/Formulierung von Items
• z.B. über Befragung von Experten und/oder Betroffenen
• Berücksichtigung bereits vorhandener Verfahren
• Formulierung einfacher Aussagen
• Vorsicht vor sog. „Quantoren“ (einige/manche, manchmal/selten)
-> werden in den Itemformulierungen nicht einheitlich interpretiert
• Keine doppelten Verneinungen
• keine Begründungen innerhalb von Items („ich habe einen tollen Job, weil ich vierzig Tage Urlaub habe“)
Testkonstruktion in 8 Schritten:
3. Auswahl der Antwortalternativen (Antwortformate)
- Auswahl der Antwortalternativen (Antwortformate)
-freie Antwortformate
(z.B. bei projektiven Verfahren, bestimmten Interviews, Kreativitätstests etc.àmüssen aber anschließend signiert bzw. inhaltsanalytisch ausgewertet werden)
-gebundene Antwortformate
(in Form von Kategorien, die entweder numerisch oder verbal beschrieben sind)
-Wichtig ist, ob die Ratingskalen unipolar oder bipolar sind
Beispiel:
„Ich bin für die Quotierung von Frauen im höheren Management“ Antwortalternative: lehne ich sehr ab - stimme sehr zu
„Vor einem Bewerbungsgespräch bin ich sehr aufgeregt“ Antwortalternative: sehr selten/oft/fast immer
• besondere Variante der gebundenen Antworten:
-> „multiple choice“ Fragen
– Es sind 3,4, oder mehr Antwortalternativen vorgegeben , von denen eine
oder aber mehrere richtig bzw. falsch sein können
– Wichtig ist die Auswahl der sog. Distraktoren, d.h. jener Alternativen, die falsch sind, aber dennoch plausibel sein sollten
Weitere generelle Probleme:
a) Die Zahl der Antwortalternativen (gerade vs. ungerade etc.)
b) Response set Probleme (Ja-Sage Tendenz)
c) Reihenfolgeeffekte (mögl. Zufallsreihenfolge; ev. Puffer-Items)
Testkonstruktion in 8 Schritten:
4. Selektion von Items
- Selektion von Items
- Vorgehen im Rahmen der KTT:
- > erste Vorform der Itemsammlung einer Personenstichprobe (Analysenstichprobe) vorlegen
- > Sollte möglichst genau der Personengruppe gleichen, auf die der Test zugeschnitten werden soll
- drei Kriterien für möglichst hohe Reliabilität/Validität:
- Itemschwierigkeit
gibt den Prozentanteil derjenigen Personen an, die eine einzige Aufgabe (Item) „richtig“ gelöst haben
Weder 100%ige Zustimmung, noch 100%ige Ablehnung aller Befragten ist für Differenzierung v. verschiedenen Personen zielführend
Daumenregel: Schwierigkeitsindizes (oder p-Werte) sollten zwischen 20 und 80 liegen
Maximale Differenzierung ist bei einem p=50 er-reicht. Items die außerhalb dieser Grenzen liegen, werden eliminiert. - Trennschärfe der Items
• Formal: Korrelation zwischen der Aufgabenantwort und dem Gesamttestwert
• Inhaltlich: die Personen beantworten nach Möglichkeit jedes einzelne Item so, wie den gesamten Test
• Trennschärfekoeffizient (Berechnung durch punktbiserialen Korrelationkoeffizienten) sagt auch etwas über die Homogenität des Testverfahrens aus
-> damit auch über die Eindimensionalität des Messinstruments • Untergrenze für Trennschärfekoeffizient bei .30 - Interkorrelation der Items
• Information über die Ähnlichkeit in der Beurteilungsstruktur der einzelnen Items
• brauchbare Abschätzung der Dimensionalität des Messverfahrens und der Homogenität der zugrundeliegenden Beurteilungsdimension
• Die Interkorrelationskoeffizienten sollten eine Größenordnung von .20 nicht unterschreiten
-> sonst besteht Verdacht, dass zusätzlich zur intendierten inhaltlichen Ausrichtung des Test einzelne Items andere Dimensionen beinhalten
Testkonstruktion in 8 Schritten:
5. Bestimmung der Reliabilität des Tests
- Bestimmung der Reliabilität des Tests
• = Zuverlässigkeit eines Tests
• ist ein Maß für die Genauigkeit, mit der der Test ein Merkmal
misst
• Reliabilität als Indikator der Genauigkeit einer Messung lässt sich über verschiedene Methoden erheben, die jeweils unterschiedliche Aspekte der Zuverlässigkeit erfassen
Testkonstruktion in 8 Schritten:
5. Bestimmung der Reliabilität des Tests: 5.1 Retest-Reliabilität
5.1 Retest-Reliabilität
• überprüft nach einem bestimmten Zeitintervall bei den gleichen Personen die Übereinstimmung zwischen den Ergebnissen der ersten und zweiten Testanwendung
• wird als Korrelation zwischen erster und zweiter Messung ermittelt
• Die Zeitabstände zwischen erster und zweiter Messung sind je nach Testinhalt und Testumfang in ihren Auswirkungen
unterschiedlich (Lern-und Übungseffekte/ zwischenzeitliche Reifungs-und Veränderungsphasen)
Testkonstruktion in 8 Schritten:
5. Bestimmung der Reliabilität des Tests: 5.2 Paralleltest-Reliabilität
5.2 Paralleltest-Reliabilität
-Es werden zwei Varianten eines Test konstruiert
die hinsichtlich der Mittelwerte und Standardabweichungen identisch sind
und deren Rohwerte hoch miteinander korrelieren
-Es müssen also zwei äquivalente Tests konstruiert werden, die man den Befragten zur Beantwortung vorlegen kann
-die Reliabilität kann man über die Übereinstimmung der beiden Messungen erfassen
-gleichzeitig kann aber auch (sofern man einen entsprechenden Zeitabstand gewählt hat) die Konsistenz der Testergebnisse erfasst werden
Testkonstruktion in 8 Schritten:
5. Bestimmung der Reliabilität des Tests: 5.3 Testhalbierung
5.3 Testhalbierung
- stellt eine „ökonomische“ Variante dar
- der Test wird in zwei - äquivalente - Hälften geteilt
- Wichtig: die Korrelation als Maß der Genauigkeit basiert nur auf der Hälfte der Zahl der Items!
- Eine entsprechende Korrektur der Korrelation bei verdoppelter Itemzahl lässt sich aber durchführen
- Die Aufteilung in zwei Hälften kann dabei
nach geraden und ungeraden Items
aufgrund einer Zufallsaufteilung
die erste gegen die zweite Hälfte
oder über gleiche Schwierigkeits- und Trennschärfeindizes erfolgen
Testkonstruktion in 8 Schritten:
5. Bestimmung der Reliabilität des Tests: 5.4 Konsistenzanalyse
5.4 Konsistenzanalyse
• ist eine Verallgemeinerung der Halbierungsmethode
• besteht darin, eine Testskala in so viele Teile zu zerlegen, wie es
Items gibt
• Das heute gängigste Maß dieser Internen Konsistenz ist Cronbach ́s α
Testkonstruktion in 8 Schritten:
5. Bestimmung der Reliabilität des Tests: 5.4 Konsistenzanalyse
5.4 Konsistenzanalyse
• ist eine Verallgemeinerung der Halbierungsmethode
• besteht darin, eine Testskala in so viele Teile zu zerlegen, wie es
Items gibt
• Das heute gängigste Maß dieser Internen Konsistenz ist Cronbach ́s α