Fehlende Werte Flashcards
Welche Arten fehlender Werte gibt es?
MCAR
MAR
NMAR
Wie kann man fehlende Werte diagnostizieren?
Deskriptive Analyse
Vergleich von Subgruppen
Korrelation der “Missing-Indikatoren”
Wie kann man fehlende Werte ersetzen?
Traditionell
- Fallweises Löschen
- Paarweises Löschen
- Mittelwertsimputation
- Regressionsbasierte Imputation für Einzelwerte
- Hot Deck Imputation
- Cold Deck Imputation
Was ist das zentrale Problem bei den deterministischen Imputationsverfahren?
MAR und MCAR
Unterschätzung der Variation der Werte –> Effektgrößen und Signifikanztests werden überschätzt
Merkregel: Effektgröße = Signifikanztest (z.B. t- oder F-Werte) / Größe der Studie (z.B. n oder df)
Streuung unterschätzt, Effekt überschätzt
Welche Verfahren unterschätzen die Variation nicht?
EM-Algorithmus
Multiple (zufallsbasierte) Imputation
Warum sind fehlende Werte ein Problem?
- Generell: Kleinere SPs –> weniger reliable Aussagen
- Wenn Werte systematisch fehlen –> verfälschte Schlussfolgerungen
Vor allem bei multivariaten Analysen (SGM, MEA) können geeignete Verfahren u.U. nicht angewandt werden, weil n zu klein ist –> geringere Power. WS signifikantes Ergebnis zu bekommen sinkt deutlich bei fehlenden Werten.
Wann sind Werte MCAR?
Beobachtete Werte können als Zufallsstichprobe aus der ursprünglichen vollständigen SP betrachtet werden.
Bsp.: Biofeedbackgeräte messen einfach nicht
Wahrscheinlichkeit für das beobachtete Muster ist unabhängig von anderen Variablen. (X von Y und anderen Werten unabhängig)
Wann sind Werte MAR?
Fehlen von Y-Werten ist abhängig von der Ausprägung mind. einer weiteren Variable X (aber nicht von Y selbst): Für jeden X-Wert repräsentieren die Y-Werte eine Zufallsstichprobe (hierauf bezieht sich MAR), aber die Y-Werte sind keine Zufallsstichprobe aus der Gesamtstichprobe.
z.B. X=Alter, Y=Einkommen
X-Werte in Abhängigkeit der Y-Werte (X=Prädiktor, Y=AV)
Wahrscheinlichkeit für das beobachtete Muster an Werten hängt nur von beobachteten Variablenwerten ab.
Wann sind Werte NMAR?
Fehlen von Y-Werten ist abhängig von Ausprägungen der Y-Werte.
Bsp.: Es fehlen tendenziell die positiven Beurteilungen für die Radiosen
Wahrscheinlichkeit für das beobachtete Muster an Werten hängt von unbeobachteten Werten ab.
Diagnose
Deskriptive Analyse
Wie hoch ist das Ausmaß der fehlenden Werte? Lassen sie sich durch grafische Analyse (z.B. Matrix der Missing-Werte x Cases) Muster entdecken?
Diagnose
Vergleich von Subgruppen
Unterscheiden sich die Statistiken für andere Variablen X in Abhängigkeit davon, ob die Y-Werte fehlen oder nicht?
Wenn große Unterschiede: Hinweis auf nicht-zufällige Prozesse.
Können andere Variablen das Fehlen erklären?
Ist z.B. das Alter bei Personen, die die Frage beantwotet haben, höher als bei denen, die sie nicht beantwortet haben?
Diagnose
Korrelation der Missing-Indikatoren
(1: Wert vorhanden, 0: Wert nicht vorhanden) aller Variablen –> Bei großen Korrelationen: Hinweis auf systematische Zusammenhänge (Daten können nicht MCAR sein).
Besser erst deskriptiv schauen, wo fehlende Werte sind
Problem Signifikanztest: H0 soll angenommen werden! Alpha zu klein
Ersetzung der fehldenden Werte
Wie funktioniert fallweises Löschen?
Wenn bei einem Fall mind. ein Variablenwert fehlt, wird der ganze Fall gelöscht.
Ersetzung der fehldenden Werte
Was ist das Problem beim fallweisen Löschen?
- Potenziell geringe Power (für Signifikanztests) und Schätzgenauigkeit (für KIs & Effektgrößen), weil SP kleiner wird
- Vor allem bei MAR können Parameterschätzungen (z.B. für MW) systematisch verzerrt sein (Fehlen ist abhängig –> Löschen von Subgruppen)
Anwendung: Bei manchen Analysen (z.B. Regression mit fehlenden Y-Werten) kaum Bias zu erwarten, ansonsten nicht empfohlen.
Ersetzung der fehldenden Werte
Wie funktioniert paarweises Löschen?
Beobachtungspaare bleiben unberücksichtigt (z.B. bei der Berechnung einer Korrelation), wenn mind. ein Wert fehlt (bei univariaten Analysen werden alle vorhandenen Werte benutzt).