Gütekriterien, Indexbildung, Skalierungsverfahren (4) Flashcards
Testtheorie Formel
X = T + E
X = gemessener Wert
T = wahrer Wert (true score)
E = Fehler (Error)
alle Konstrukte haben wahren Wert, der aber nicht erfasst werden kann (Messfehler) → immer nur Annäherung an die Realität
zufällige Messfehler
durch unvorhergesehen Umstände (zB. Baustelle stört Interview)
→ gleicht sich aus, je häufiger man misst (Wahrscheinlichkeitsrechnung)
systematische Messfehler
Bsp. Menschen sind nicht ehrlich bei Fragebogen (soziale Erwünschtheit)
→ gleicht sich nicht einfach aus, sondern muss (vorher) identifiziert und eliminiert werden
Reliabilität
Zuverlässigkeit
(Kommt man bei Wiederholung der Messung auf gleiches Ergebnis?)
Validität
Gültigkeit
(Wird das gemessen, was gemessen werden soll?)
kann nicht mathematisch bestimmt oder gemessen werden, sondern wird in kritischem Diskurs thematisiert
Test-Retest-Verfahren
2 Messungen mit gleichen Personen, zeitlicher Abstand
→ Problem: Menschen verändern sich
Parallel-Test-Verfahren
2 zufällig zusammengestellte Gruppen gleichzeitige Befragung/ Codierer codieren Material gleichzeitig
Validität
Gültigkeit
(Wird das gemessen, was gemessen werden soll?)
kann nicht mathematisch bestimmt oder gemessen werden, sondern wird in kritischem Diskurs thematisiert
Inhaltsvalidität
Wird das zu messende Merkmal vollständig/ganzheitlich erfasst?
Kriteriumsvalidität
Vergleich mit Außenkriterium (Auswahl mitunter schwierig)
z.B. Umweltbewusstsein & Mitgliedschaft in Umweltorganisation
Konstruktvalidität
verwandte Konstrukte sollen mit verwendetem Konstrukt korrelieren
z.B. politisches Interesse & politisches Wissen
Cronbachs Alpha-Koeffizient
Korrelation aller Merkmale untereinander
0 = tiefe Reliabilität
1 = hohe Reliabilität
Zusammenhang zwischen Validität & Reliabilität
- Reliabilität ist notwendige, aber nicht hinreichende Bedingung für Reliabilität
- Validität sinkt mit fehlender Reliabilität
- Reliabilität garantiert keine Validität
Ebenen der Gütekriterien
- Güte der einzelnen Variable
- einzelne Variablen bzw. Items einer Skala
- Güte der einzelnen Messung
- Operationalisierung konkreter Merkmale (auch Skalen)
- Güte des Messinstruments
- Gültigkeit des Messinstruments
- unabhängig von konkreter Teilerhebung/Stichprobe
- Güte der Untersuchung
- Gültigkeit der gesamten Untersuchungsanalage
- inklusive Teilerhebung/Stichprobe
Definition Index
Zusammenfassung von mehreren Einzelvariablen (Indikatoren) zu einer neuen Variable
Kombinationen des Merkmalsraums werden zu wenigen (neuen) Kombinationen zusammengefasst
“Reduktion des Merkmalsraums” → Vereinfachung
Funktion Indizes
- Komplexe Phänomene
→ mehrere Indikatoren - Indizes stehen für latente (nicht direkt messbare) Variablen, die mithilfe mehrerer Items (also Indikatoren) erfasst werden
- Indizes werden erst bei der Datenaufbereitung berechnet, nicht bei Datenerhebung erhoben
Bsp.
Medienqualität = latente Variable
→ Aufteilung in Indikatoren: Sachlichkeit, Relevanz, Vielfalt, Professionalität etc.
- Festlegung der Dimensionen: Merkmalsraum
mehrere Merkmale pro Fall
→ Positionierung der Objekte in Raum anhand der Kriterien
Koordinatensystem
- Festlegung der Dimensionen: Typologie
/ “Rekonstruktion des Merkmalsraums”
Typologie = Gesamtheit aller möglicher Kombinationen der zugrundeliegenden Variablen (praktisch alle Permutationen, die möglich sind)
wird nicht immer gemacht, nur bei Merkmalen mit wenigen Ausprägungen (z.B. dichotome Skala)
(rein theoretische Arbeit -> Tabelle)
- Kombination der Dimensionen: Additive Indizes
Index = Indk 1 + Indk 2 + … + Indk n
Problem: funktioniert nur bei gleichen Skalenniveaus, sonst Verzerrung
Bsp. Medienqualitätsbefragung
- Kombination der Dimensionen: Gewichtet additive Indizes
Index = a1Indk 1+ a2Indk 2 + … + an*Indk n
Erlaubt Berücksichtigung unterschiedlicher Bedeutung einzelner Indikatoren
Bsp. Jahrbuch Qualität der Medien 2020
“Einordnungsleistung”
- Themenorientierung 60%
- Interpretationsleistung 40%
- Kombination der Dimensionen: Multiplikative Indizes
Index = Indk 1 * Indk 2 * … * Indk n
Achtung: Multiplikation mit 0 ergibt 0
Bsp. Jahrbuch Qualität der Medien 2020
Beitragsrelevanz * Akterusrelevanz, da sich das eine nicht durch das andere “mitteln” kann
Achtung bei Indexbildung:
Messungen (Indikatoren/Variablen), die in den Index einfließen, müssen dasselbe Skalenniveau aufweisen!
Skalierungsverfahren Definition
Verfahren zur Konstruktion von Messinstrumenten. Das Resultat ist eine Skala.
Zusammenfassung mehrerer Items (Einzelmessunegen) zu einem Gesamtwert
Skalen Bestandteile
Skalen bestehen aus Itembatterien
Items = Einzelfragen zu einem Sachverhalt, die Befragten gestellt werden
Skalenniveau vs. Skalierungsverfahren
- Skalenniveau = Differenziertheit der Messung (s. letzte Sitzung)
- Skalierungsverfahren = Zusammenfassung mehrerer Items (Einzelmessunegen) zu einem Gesamtwert
Index vs. Skala
- Skalen messen entlang einer Dimension
- Indizes erfassen mehrere Dimensionen
Erstellung von Skalen
- Itembatterien finden, die entlang einer (!) Dimension messen
& passende Antwortmöglichkeiten definieren - Skalensuche:
bereits getestete Skalen aus Handbüchern oder anderen Studien übernehmen - Statementformulierung:
wenn es keine getesteten Skalen gibt, müssen eigene formuliert werden
(bei Formulierung der Statements je Item Regeln beachten)
Likert-Skalen
häufig in KoWi
- Sammlung/Erstellung von ca. 100 Items
- sollen Einstellung wiedergeben
- i.d.R. von 1 “stimme überhaupt nicht zu” bis 5 “stimme voll und ganz zu”
- Zustimmungswahrscheinlichkeit soll mit latenter Variable korrellieren
- Pretests
- Items werden Personenstichprobe vorgelegt
- nur geeignete, die Konstrukt eindimensional messen, werden ausgewählt
- Scores werden zu Summen-Index verrechnet (negative gedreht)
- Item-Analyse
- Eindimensionalität & Trennschärfe werden (statistisch) geprüft
- Auswahl
- nur Items mit hohen Trennschärfekoeffizienten (Ladungen zur Gesamtskala)
Semantisches Differential
(Sonderform der Likert-Skala)
- 10-20 Gegensatzpaare
- Befragte ordnen Wert zwischen Polen zu
- individuelles Polaritätsprofil
Guttman-Skalen
selten in KoWi, misst eigentlich nur, wie extrem Meinung ist
- mehrere Aussagen, die immer extremer werden
- letzte Zustimmung (Schwellenwert) = Wert des Befragten
Thurstone-Skalen
selten in KoWi
- neutrale Personen sollen aus Perspektive anderer Items dichotom zurordnen
- Achtung: Nominalskale
- Bsp. Wie würde ein guter vs. ein schlechter Autofahrer dies beurteilen?
Magnitude-Skalen
selten in KoWi, eher Psychophysik
- Probanden sollen subjektive Empfindungsstärke bspw. durch gezeichnete Linienlänge darstellen