VL7: Von der Durchführung zur Auswertung Flashcards
Wie erhalte ich einen aufbereiteten Datensatz ?
1) Erstellen eines “Kodierplans”, Festlegen von Variableneigenschaften
2) Erstellen Rohdatensatz auf Basis des Kodierplans
3) Darenaufbereitung, -bereinigung
- Plausibilitätsprüfung
- Identifikation von fehlenden Werten und “careless responding”
- Identifikation von Ausreißerwerten
- Umkodieren und Skalenbildung
- >dann erst deskriptiv- und inferenzstatistische Auswertung
Was legt ein Skalenniveau fest ?
a) Regeln der Zuordnung von Zahlen zu Merkmalsträgern
b) Aussagen über Unterschiede zwischen Merkmalsträgern
c) stat. Koeffizienten und Analysemethoden
Nominalskalierte Variablen
-kategorial
-erlaubt Klassifikation von Merkmalsträgern auf Basis der Gleichheit vs Verschiedenheit in Bezug auf ein Merkmal (aber kein Vergleich i.S.v. doppelt)
(ZB Geschlecht, psych. Krankheiten)
-Messwerte: beliebige Zeichen (sofern Homomorphismus)
-zulässige Aussagen: Gleichheit vs Verschiedenheit von Merkmalsträgern
Ordinalskalierte Variablen
- kategorial
- erlauben Klassifikation und Ordnung von Merkmalsträgern
Zwei Arten:
- singuläre Daten: Merkmalsträger nach ihrer Ausprägung des Merkmals in Rangordnung
- kategoriale Daten mit geordneten Kategorien; Jeder Merkmalsträger wird je nach Merkmalsausprägung einer von mehreren Kategorien (geordnete Merkmalsklassen) zugewiesen.
-Messwere: Namen, Zahlen, Symbole (sofern Homomorphismus)
zulässige Aussagen:
- über Gleichheit vs Verschiedenheit
- über Art der Verschiedenheit (Größer-Kleiner-Beziehung)
Intervallskalierte Variablen
- metrisch
- erlauben Klassifikation und Ordnung von Merkmalsträgern, wobei Größe der Unterschiede zwischen Merkmalsträgern interpretierbar ist
- Messwerte: Zahlen
zulässige Aussagen:
- über Gleichheit vs Verschiedenheit
- über Art der Verschiedenheit (Größer-Kleiner-Beziehung)
- über Größe der Verschiedenheit zwischen Merkmalsträgern (aber Verhältnisse noch nicht interpretierbar: “Temperaturunterschied zwischen A und B ist doppelt so groß wie zwischen A und C” vs. “In C ist es doppelt so warm wir in A”
Verhältnisskalierte Variablen
- metrisch
- haben alle Eigenschaften von intervallskalierten Variablen und haben absoluten Nullpunkt (Vergleichwert 0; wenn 0= nichts)
- Messwere: Zahlen
Zulässige Aussagen:
- über Gleichheit vs Verschiedenheit
- über Art der Verschiedenheit (Größe-Kleiner-Beziehung)
- über Größe der Verschiedenheit
- über Verhältnis der Merkmalsausprägungen von Merkmalsträgern (“A doppelt so groß wie B”)
Absolutskalierte Variablen
- metrisch
- haben alle Eigenschaften von verhältnisskalierten Variablen und eine natürliche Maßeinheit
- Messwerte: Zahlen ohne Maßeinheiten (in Psychologie oft: Häufigkeitsskala)
Zulässige Aussagen:
- alle wie bei verhältnisskalierten Variablen
- über absolute Merkmalsausprägung in natürlicher Maßeinheit
Diskrete vs stetige Variablen
Diskret:
- nur bestimmte Ausprägungen (math: endlich viele oder abzählbsr unendlich viele Ausprägungen)
- metrisch und kategorial
Stetig:
- können innerhalb eines Intervalls jeglichen Wert annehmen (math: überabzählbar unendlich viele Ausprägungen innerhalb eines Intervalls)
- metrisch
Def. Kodierplan
- Auflistung aller verwendeten Variablen mit aussagekräftigen Itemkürzeln (=Variablennamen) und Variablenbeschreibungen (bei mehreren Messzeitpunkten muss dieser im Kürzel kodiert werden)
- mit Angabe des Fragentyps (bei multiple choice pro Antwortalternative eine Variable)
- mit Angabe des Variablentyps (Skalenniveau)
- mit eindeutiger Info zur inhaltlichen Bedeutung der numerischen Werte
- mit Info, wie fehlende Werte kodiert werden
- ggf. mit weiteren Infos zum Messvorgang (Instruktion etc)
- > sollte im Rahmen der Untersuchungsplanung entstehen
- > Weiterverarbeitung der Daten mithilfe Skript in Statistik-Software
Ziele:
- Rohdatenblatt
- maschinell lesbar
- spätere Nutzung
Datenaufbereitung, -bereinigung
1) Festlegen von Variableneigenschaften (Niveau, Metrik usw) in Statistik-Software (“R”)
2) Prüfen auf unplausible Werte
3) Prüfen auf fehlende Werte
4) Prüfen auf “careless responding”
5) Prüfen auf Ausreißerwerte (nur bei metrischen Variablen)
6) Umkodieren von Rohdaten
7) Skalenbildung (Summenwertvariablen vs Mittelwertsvarisblen bilden; Missings drastischer bei Summen; für Leistungstests Summe besser)