5. Datenkontrolle Flashcards
Wann liegt Non Random Missing vor?
Es liegt vor wenn das Fehlen des Wertes nicht von die Variablen des Datensatzes vorhergesehen werden kann
Problem bei NRM
Jede Form der Ersetzung ist sehr schwierig
Notwendigkeit der Datenkontrolle
- Primäre Aufgabe der Statistik: Datenanalyse
- man muss sich fragen: wie ist diese Datei entstanden?
Erhebungsmethoden
- Befragungsmethode („Standardmethode“)
• schriftlich —> sehr ökonomisch
• Interview —> offen, teilstandardisiert und standardisiert - Beobachtung
- Neue Datenquellen (EEG, Blutwerte, Online-Studien)
Wofür müssen die Daten vor der Analyse kontrolliert werden?
— Verständnis der VPn
— Fehleingaben
— Plausibilität
Umgang mit Ausreißern?
- mit und ohne Ausreißern rechnen
- Gibt es Unterschiede?
- Nur signifikante Ergebnisse mit Ausreißern —> kritische Diskussion
WINSORISIEREN
Winsorisieren
alle werte unterhalb der 5% Grenze —> werden durch den wert der unteren Grenze ersetzt
alle Wert oberhal ber 95% Grenze —> werden durch den Wert der oberen Grenze ersetzt
Winsorisieren: Vorteil?
SP Größe bleibt erhalten
Winsorisieren: Nachteil
keine gute Schaetzung des wahren Werts –> der ersetzte Wert ist falsch
Systematischer Dropout
Nur bestimmte Personen fallen raus
- -> die am staerksten belasteten
- -> die “schlechtesten”
- -> die ungeeigneten
- -> die am wenigsten motivierten
VERZERRUNG
“Missing Data”
wenn Werte im Datensatz fehlen, obwohl die entsprechenden Merkmalsauspraegungen empirisch vorhanden sind
Umgang mit Missing Data
listwise Deletion –> Person wird komplett aus der Analyse geschlossen
Pairwise Deletion –> Person wird teilweise ausgeschlossen
Ersetzung durch den Mittelwert
Regressionsimputation –> Vorhersage
Missing Data - Diagnose
- Anzahl fehlende Werte pro Variable und pro Person auftragen lassen
–> mehr als 5%?
- Suche nach Unterschieden zwischen Personen mit und ohne fehlende Werte
- Unterschiede innerhalb des Merkmals?
MCAR
Missing Completely at Random
- fehlende Werte sind VOLLKOMMEN ZUFAELLIG verteilt
- VPn mit fehlende Werte = VPn ohne
MCAR: Folgen
keine Verzerrung
MAR
Missing at Random
- Personen mit fehlenden Werten unterscheiden sich von Personen ohne
- Das Auftreten eines fehlenden Werts kann durch anderen Variablen vorhergesagt werden
- nicht von der untersuchten Variablen selbst
MAR: Folgen
Verzerrung
–> Ersetzungsverafhren moeglich
NRM
Non-Random Missing
- Personen mit fehlenden Werten unterscheiden sich von Personen ohne
- Das Auftreten von fehlenden Werten steht in Zusammenhang mit der Auspraegung der Person in DIESER Variable selbst
NRM: Folgen
Verzerrung
–> keine Ersetzungsverfahren moeglich