2b - Fragebogenkonstruktion Flashcards
Testgütekriterien
Nenne die drei Hauptgütekriterien!
- Objektivität: Unabhängigkeit des Ergebnisses von äußeren Einflüssen
- Reliabilität: Messgenauigkeit des Tests
- Validität: Test sollte das erfassen, was er zu erfassen vorgibt
Validität => setzt Reliabilität voraus => Reliabilität setzt Objektivität voraus
Ein Test kann reliabel, aber nicht valide sein.
Siehe dazu Zielscheiben auf Folie 5.
Testgütekriterien
Ein Hauptgütekriterium ist die Objektivität. Welche drei Arten der Objektivität gibt es?
- Durchführungsobjektivität: Der Test soll für alle unter vergleichbaren Bedingungen durchgeführt werden => Standardisierung der Testsituation mit genauen Anweisungen für die Durchführung
- Auswertungsobjektivität: Es muss klar sein, wie Antworten im Test zu bewerten sind (z.B. welche Antwort als richtig gilt, wie viele Punkte es für eine Antwort gibt etc. - erfordert bei merdeutigen, freien Antwortformaten klare Quantifizierungsrichtlinien und zwei unabhängige Auswerter/innen)
- Interpretationsobjektivität: Aus demselben Ergebnis müssen dieselben Folgerungen gezogen werden - wie ist ein bestimmtes Ergebnis zu werten?
Siehe zur Auswertungsobjektivität auch das Biespiel zur Anleitung zur Auswertung auf Folie 9
Testgütekriterien
Als Beispiel für die Bewertung der Objektivität haben wir uns in der Vorlesung ein Itembeispiel aus dem THINK 1-4 (von Baudson, Wollschläger & Preckel, 2016), für die Klassenstufe 1 agesehen. Die Kinder erhalten die ersten vier Bilder einer Reihe von aufeinanderfolgenden Bildern. Die letzten beiden Kästchen sind leer. Die Kinder müssen einzeichnen, wie die Reihe weitergeht (Siehe Folie 7). Welche Probleme können sich dabei auftun?
- Die Motorik der Kinder nimmt Einfluss auf die Fähigkeit zu zeichnen und ist vielleicht nicht gleich weit entwickelt (Auch Validität fraglich?)
- Die Kreativität führt zu alternativen Antworten seitens der Kinder
Siehe auch Beispiel zur Anleitung zur Auswertung auf Folie 9
Testgütekriterien
Wa ist ein anderes Wort für Reliabilität?
Reliabilität = Messgenauigkeit
Testgütekriterien
Was sind Aspekte der Reliabilität eines Testes?
Aspekte (< Eigenschaftsparadigmen)
* Stabilität - Niveau- vs. Positionsstabilität
* Äquivalenz - parallele Tests sollten vergleichbar sein
* Konsistenz - alle Items einer Skala sind Indikatoren desselben latenten Konstrukts
Testgütekriterien
Es gibt verschiedene Arten der Reliabilität. Eine Art ist die Wiederholungs- und Restreliabilität. Welchem Aspekt der Reliabilität ist dies zu zuordnen und welches Kürzel hat diese Art der Reliabilität? Was muss bei der Wiederholungs- und Restreliabilität erfüllt sein?
Wiederholungs- oder Restreliabilität
* =Stabilität (Entspricht dem Aspekt der Stabilität)
* Kürzel: r (und zwei tiefgestellte t)
* Die Ergebnisse zweier Messungen sollten hoch positiv korrelieren
* Stabiles Merkmal - Niveaustabilität: Die Ergebnisse der Messungen aus Testung 1 entsprechen den Ergebnissen aus Testung 2
* Systematische Merkmalsveränderung - Positionsstabilität: Die Ergebnisse der Messungen aus Testung 2 variieren systematisch zu den Ergebnissen der Messungen aus Testung 1
* Unsystematische Veränderung: Die Ergebnisse der Messungen aus Testung 2 variieren nicht systematisch mit denen aus Testung 1
* Instabiles Merkmal: Die Ergebisse der Messungen aus den beiden Testungen variieren stark
In den Fällen der Niveaustabilität und der Positionsstabilität liegen in beiden Fällen eine perfekte Korrelation (r=1) vor!
Siehe Folie 11
Testgütekriterien
Eine weitere Art der Reliabilität ist die Paralleltestreliabilität. Welchem Aspekt der Reliabilität entspricht dies? Was muss bei der Paralleltestreliabilität erfüllt sein?
Paralleltestreliabilität:
* Entspricht dem Aspekt der Äquivalenz der Reliabilität
* Zwei vergleichbare Tests (Paralleltests) werden konstruiert, die sowohl inhaltlich als auch hinsichtlich der Aufgabenschwierigkeit identisch sein sollten
* sollten hoch positiv korrelieren
* Sonderfall Pseudoparalleltest: Selbe Aufgaben und Antwortoptionen, nur in anderer Reihenfolge
Siehe Folie 13
Testgütekriterien
Eine weitere Art der Reliabilität ist die Testhalbierungs- oder Split-half-Reliabilität. Welchem Aspekt der Reliabilität ist dies zu zuordnen? Was müssen bei der Testhalbierungs- oder Split-half-Reliabilität erfüllt werden? Was ist ein übliches Verfahren zur Erhebung dieser Art der Reliabilität?
Test-halbierungsreliabilität oder Split-half-Reliabilität
* Entspricht dem Aspekt der Konsistenz
* Der Test wird in zwei Hälften geteilt, die miteinander korreliert werden
* Übliches Verfahren zur Messung dieser Art der Reliabilität ist die odd-even-Methode, das heißt gerade vs. ungerade Items
* Weil längere Tests genauer messen, muss hier ein Korrekturfaktor eingebaut werden
Testgütekriterien
Eine weitere Art der Reliabilität ist die Interne Konsistenz. Welchem Aspekt der Reliabilität ist dies zu zuordnen? Was müssen bei der internen Konsistenz erfüllt werden? Wie wird die interne Konsistenz am Beispiel eines Fragebogens mit vier Aufgaben ermittelt?
Interne Konsistenz:
* Entspricht dem Aspekt der Konsistenz
* Ist eine Verallgemeinerung der Testhalbierungsreliabilität
* Koeffizient: Cronbachs α
Beispiel:
* Einteilung in [Aufgabe 1 + Aufgabe 2] & [Aufgabe 3 + Aufgabe 4] => Korrelation beider Hälften miteinander = Korrelation 1
* Einteilung in [Aufgabe 1 + Aufgabe 3] & [Aufgabe 2 + Aufgabe 4] => Korrelation beider Hälften miteinander = Korrelation 2
* Einteilung in [Aufgabe 1 + Aufgabe 4] & [Aufgabe 2 + Aufgabe 3] => Korrelation beider Hälften miteinander = Korrelation 3
* Interne Konsistenz: Mittelwert aus Korrelation 1,2 und 3
Siehe Folie 15
Testgütekriterien
Was sind die Herausforderungen bei der Ermittlung der verschiedenen Arten der Reliabilität?
Bei Retestreliabilität:
* Was ist das optimale Zeitintervall zwischen zwei Tests? - Dilemma zwischen Vermeidung von Übungseffekten und möglichen Veränderungen des wahren Wertes.
Bei Paralleltestreliabilität:
* Extremer Aufwand, um tatsächlich äquivalente Parallelformen hinzubekommen - Paralleltests sollen identische Mittelwerte und Streuungen aufweisen, hoch miteinenader und gleich hoch mit anderen Variablen korrelieren.
* Besonders wichtig zur Ermittlung von Interventionserfolgen oder zur Vermeidung von Abschreiben bei Gruppentests!
Bei Split-Half-(oder Halbierungs-)Reliabilität - Techniken:
* Odd-even (gerade vs. ungerade Items) - gängigste Methode
* Erste und zweite Testhälfte - problematisch bei Zeitbegrenzung oder bei Sortierung der Aufgaben nach Schwierigkeit.
* Parallelisierung - Halbierung auf Basis der Itemkennwerte Schwierigkeit und Trennschärfe, dann Bildung ähnlicher Itempaare
* Bei Speedtests - Teilung nach Hälfte der Zeit
Testgütekriterien
Ein Problem bei der Reliabilität ist die länge eines Testes. Denn, je kürzer ein Test ist, desto weniger reliabel misst er. Die Reliabilität eines Testes nimmt also mit steigender Itemzahl zu. Was bedeutet das in Bezug auf die Halbierungs-Reliabilität im Vergleich zur Retestreliabilität und zur Paralleltestreliabilität? Wie schätzt man, wie viel Items man bräuchte, um eine gewünschte Reliabilität zu erzielen?
Bei der Halbierungs-(oder Split-Half-)Reliabilität haben wir das Problem, dass die Korrelation der beiden Testhälften die tatsächliche Reliabilität des Gesamttests unterschätzt!
* Retest und Paralleltest: Korrelation mit der selben Itemzahl, also Gesamttests werden korreliert
* Halbierungsreliabilität: Nur die Hälfte des Testes wird korreliert
Weil…
* …längere Tests genauer messen,
* …die Reliabilität eines Testes also mit steigender Itemzahl zunimmt,
* …und bei der Halbierungsreliabilität nur die Hälfte des Testes korreliert wird,
* …und die Reliabilität des Gesamttestes dadurch unterschätzt wird
* => muss für die Bestimmung der echten Reliabilität des gesamten Testes ein Korrekturfaktor eingebaut werden!
Dieser Korrekturfaktor bietet eine Schätzungsmöglichkeit, wie hoch die Reliabilität bei Verlängerung des Tests wäre (oder wie viele Items man bräuchte, um eine gewünschte Reliabilität zu erzielen):
Spearman-Brown-Formel zur Ermittlung der korrigierten Reliabilität:
* Rel(korr) = (k * Rel) / (1 + [k-1] * Rel)
mit
* Rel = Reliabilität des Tests
* Rel(korr) = korrigierte Reliabilität bei Testverlängerung
* k = Verlängerungsfaktor (z.B. 2 bei Verdopplung der Itemzahl)
Testgütekriterien
Übungsaufgabe zur Reliabilität: Die Reliabilität eines Tests mit 20 Items sei 0.70. Wie ändert sich die Messgenauigkeit, wenn Sie den Test
1. auf 40 Items verlängern?
2. auf 10 Items verlängern?
Spearman-Brown-Formel zur Ermittlung der korrigierten Reliabilität:
Rel(korr) = (k * Rel) / (1 + [k-1] * Rel)
zu 1)
Der Veränderungsfaktor von 20 Items auf 40 ist: k=2
Die Reliabilität ist: Rel = 0.7
In Formel einsetzen:
=> Rel(korr) = (2 * 0.7) / (1 + [2-1] * 0.7) = 0.83
zu 2)
k = 0.5
Rel = 0.7
=> Rel(korr) = (0.5 * 0.7) / (1 + [0.5-1] * 0.7) = 0.54
Testgütekriterien
Bei der internen Konsistenz ist der gängigste Koeffizient Cronbachs α - wovon hängt die Höhe der internen Konsistenz ab?
Interkorrelation der Items untereinander - je höher, desto höher ist α. ABER:
* Konstrukt muss komplett abgedeckt werden (z.B. Facetten der Big Five)
* Items dürfen nicht redundant sein
Anzahl der Items - je länger der Test, desto höher ist α (vgl. Sperman-Brown-Formel). ABER:
* Der Länge eines Tests sind Grenzen gesetzt (z.B. Ermüdung)
Heterogenität der Stichprobe - α ist wie alle Reliabilitätskoeffizienten stichprobenabhängig, bei heterogener Stichproben (= mehr Varianz) steig α.
Testgütekriterien
Für welche Art von Tests ist Cronbachs α zur Reliabilitätsschätzung nicht geeignet?
Für reine Speedtests (leichte Aufgaben, wo es nur auf das Tempo ankommt).
=> Weil die Aufgaben so gestaltet sind, dass kaum Fehler (= wenig Varianz in den Ergebnissen selbst) auftreten.
Testgütekriterien
Das wichtigste Gütekriterium ist die Validität. Welche Arten der Validität gibt es?
Augenscheinvalidität (face validity): Test erfasst auf den ersten Blick plausibel das, was er angeblich messen will => /!\ sagt noch nichts über tatsächliche Validität aus
Inhaltsvalidität: Die Itemstichprobe ist repräsentativ für das interessierende Konstrukt.
Kriteriumsvalidität: Vom Verhalten in der Testsituation kann auf Verhalten außerhalb der Testsituation geschlossen werden. Unterscheidung:
* Konvergente Validität: Test korreliert positiv mit verwandten Konstrukten
* Diskriminante Validität: Test korreliert negativ oder nicht mit nicht verwandten Konstrukten
* Konkurrente Validität: Test und Kriterium werden zeitgleich erhoben
* Prädiktive Validität: Kriterium wird nach dem test erhoben
Konstruktvalidität: Betrifft das gesamte Wissen um das Konstrukt - Test erfasst das Konstrukt so, wie es theoretisch sinnvoll ist (z.B. faktorielle Validität => erwartbare Faktorenstruktur, sinnvolle Zusammenhänge mit Variablen wie Geschlecht, Alter … gemäß wissenschaftlichen Theorien)