Fehlende Werte Flashcards
Welche Arten fehlender Werte gibt es?
MCAR
MAR
NMAR
Wie kann man fehlende Werte diagnostizieren?
Deskriptive Analyse
Vergleich von Subgruppen
Korrelation der “Missing-Indikatoren”
Wie kann man fehlende Werte ersetzen?
Traditionell
- Fallweises Löschen
- Paarweises Löschen
- Mittelwertsimputation
- Regressionsbasierte Imputation für Einzelwerte
- Hot Deck Imputation
- Cold Deck Imputation
Was ist das zentrale Problem bei den deterministischen Imputationsverfahren?
MAR und MCAR
Unterschätzung der Variation der Werte –> Effektgrößen und Signifikanztests werden überschätzt
Merkregel: Effektgröße = Signifikanztest (z.B. t- oder F-Werte) / Größe der Studie (z.B. n oder df)
Streuung unterschätzt, Effekt überschätzt
Welche Verfahren unterschätzen die Variation nicht?
EM-Algorithmus
Multiple (zufallsbasierte) Imputation
Warum sind fehlende Werte ein Problem?
- Generell: Kleinere SPs –> weniger reliable Aussagen
- Wenn Werte systematisch fehlen –> verfälschte Schlussfolgerungen
Vor allem bei multivariaten Analysen (SGM, MEA) können geeignete Verfahren u.U. nicht angewandt werden, weil n zu klein ist –> geringere Power. WS signifikantes Ergebnis zu bekommen sinkt deutlich bei fehlenden Werten.
Wann sind Werte MCAR?
Beobachtete Werte können als Zufallsstichprobe aus der ursprünglichen vollständigen SP betrachtet werden.
Bsp.: Biofeedbackgeräte messen einfach nicht
Wahrscheinlichkeit für das beobachtete Muster ist unabhängig von anderen Variablen. (X von Y und anderen Werten unabhängig)
Wann sind Werte MAR?
Fehlen von Y-Werten ist abhängig von der Ausprägung mind. einer weiteren Variable X (aber nicht von Y selbst): Für jeden X-Wert repräsentieren die Y-Werte eine Zufallsstichprobe (hierauf bezieht sich MAR), aber die Y-Werte sind keine Zufallsstichprobe aus der Gesamtstichprobe.
z.B. X=Alter, Y=Einkommen
X-Werte in Abhängigkeit der Y-Werte (X=Prädiktor, Y=AV)
Wahrscheinlichkeit für das beobachtete Muster an Werten hängt nur von beobachteten Variablenwerten ab.
Wann sind Werte NMAR?
Fehlen von Y-Werten ist abhängig von Ausprägungen der Y-Werte.
Bsp.: Es fehlen tendenziell die positiven Beurteilungen für die Radiosen
Wahrscheinlichkeit für das beobachtete Muster an Werten hängt von unbeobachteten Werten ab.
Diagnose
Deskriptive Analyse
Wie hoch ist das Ausmaß der fehlenden Werte? Lassen sie sich durch grafische Analyse (z.B. Matrix der Missing-Werte x Cases) Muster entdecken?
Diagnose
Vergleich von Subgruppen
Unterscheiden sich die Statistiken für andere Variablen X in Abhängigkeit davon, ob die Y-Werte fehlen oder nicht?
Wenn große Unterschiede: Hinweis auf nicht-zufällige Prozesse.
Können andere Variablen das Fehlen erklären?
Ist z.B. das Alter bei Personen, die die Frage beantwotet haben, höher als bei denen, die sie nicht beantwortet haben?
Diagnose
Korrelation der Missing-Indikatoren
(1: Wert vorhanden, 0: Wert nicht vorhanden) aller Variablen –> Bei großen Korrelationen: Hinweis auf systematische Zusammenhänge (Daten können nicht MCAR sein).
Besser erst deskriptiv schauen, wo fehlende Werte sind
Problem Signifikanztest: H0 soll angenommen werden! Alpha zu klein
Ersetzung der fehldenden Werte
Wie funktioniert fallweises Löschen?
Wenn bei einem Fall mind. ein Variablenwert fehlt, wird der ganze Fall gelöscht.
Ersetzung der fehldenden Werte
Was ist das Problem beim fallweisen Löschen?
- Potenziell geringe Power (für Signifikanztests) und Schätzgenauigkeit (für KIs & Effektgrößen), weil SP kleiner wird
- Vor allem bei MAR können Parameterschätzungen (z.B. für MW) systematisch verzerrt sein (Fehlen ist abhängig –> Löschen von Subgruppen)
Anwendung: Bei manchen Analysen (z.B. Regression mit fehlenden Y-Werten) kaum Bias zu erwarten, ansonsten nicht empfohlen.
Ersetzung der fehldenden Werte
Wie funktioniert paarweises Löschen?
Beobachtungspaare bleiben unberücksichtigt (z.B. bei der Berechnung einer Korrelation), wenn mind. ein Wert fehlt (bei univariaten Analysen werden alle vorhandenen Werte benutzt).
Ersetzung der fehldenden Werte
Was sind die Probleme beim paarweisen Löschen?
- Abstriche bzgl. Power kleiner als bei fallweisem Löschen
- Möglichkeit von Verzerrungen der Parameterschätzungen (Kovarianzen, Varianzen und Mittelwerte beruhen in der Regel auf unterschiedlichen Fallzahlen und Fällen)
- Standardfehler können schlecht geschätzt werden (Funktion von SD und n!)
Anwendung: Wird eher nicht empfohlen (problematisch vor allem, wenn Werte nicht MCAR sind).
Ersetzung der fehldenden Werte
Was macht man bei der Mittelwertsimputation?
Für jeden fehlenden Wert wird der MW einer Variablen benutzt.
Ersetzung der fehldenden Werte
Was sind die Probleme bei der Mittelwertsimputation?
- Systematische Unterschätzung der Varianzen und Kovarianzen –> wenn man nur MW nimmt, variiert nichts –> Unterschätzung
- Meist werden df unter Einbeziehung der imputierten Werte bestimmt –> Unterschätzen von Standardfehlern
- Üblicherweise verzerrte Parameterschätzungen, wenn Werte nicht MCAR
Generell nicht empfohlen
Ersetzung der fehldenden Werte
Was macht man bei der Regressionsbasierten Imputation für Einzelwerte?
Fehlende Werte werden aufgrund der Kenntnis von X1-Xk Prädiktoren mittels Regressionsanalyse vorhergesagt.
Regressionsanalyse mit allen verfügbaren Werten einer Y- und einer X-Variable –> Gleichung –> fehlende Y-Werte vorhersagen
Ersetzung der fehldenden Werte
Was ist das Problem bei der Regressionsbasierten Imputation?
Verzerrte Varianzen und Standardfehler (bei identischen X-Variablenwerten gibt es keine Variation in Y).
Auswirkung auf Berechnung von Effektgrößen und Signifikanztests + systematische verzerrte Parameterschätzungen.
Ergebnisse werden schneller signifikant. –> Überschätzen des Effekts
normalerweise korrespondieren zu einem X-Wert verschiedene Y-Werte
Nicht empfohlen
Ersetzung der fehldenden Werte
Was macht man bei der Hot Deck Imputation?
Fehlende Werte werden durch in derselben SP beobachtete Werte ersetzt (vermeidet das Problem von unrealistischen Werten, die durch MW- und regressionsbasierte Imputation auftreten können).
Vorgehensweise: Verschiedene Arten von Zufallsmechanismen, aber auch systematische Auswahl. (z.B. bei Zeitreihenanalyse: zeitliche Ordnung der Werte, Substitution des fehlenden Wertes durch jeweils letzten vorangehenden Wert)
Ersetzung der fehldenden Werte
Was ist das Problem der Hot Deck Imputation?
Unterschätzung der zeitlichen Dynamik bei Zeitreihendaten
Theorie schlecht ausgearbeitet, bei systematisch fehlenden Werten schwierig
Ersetzung der fehldenden Werte
Was macht man bei der Cold Deck Imputation?
Fehlende Y-Werte werden aufgrund anderer Datensätze oder anderer Quellen ersetzt.
Aber wirklich vergleichbare Daten gibt es kaum.
Was macht man beim Expectation-Maximization Algorithmus?
- iteratives, zweistufiges Verfahren, das alle vorhandenen Variablen nutzt
- bis Schätzungen konvergieren (bis die Veränderungen nur noch vernachlässigbar groß sind) werden Expectation und Maxmization benutzt
Expectation:
* Regressionsbasierte Imputation
* ausgehend von Ausgangswerten (anfangs durch listwise oder pairwise deletion) Berechnung der Regressionskoeffizienten für Vorhersage der Variablen mit weniger Werten (X1, X2) aus denen mit mehr Werten (X3, X4)
* Berechnung der Mittelwerte und Kovarianzen –> Erstellung der Regressionsgleichung –> Imputation der fehlenden Werte
* wenn nur Werte einer Variable fehlen: alle anderen Variablen als Prädiktor nutzen
Maximization (damit Varianz nicht unterschätzt wird):
* Berechnung neuer Schätzer (MW, Kovarianzen) –> aufgrund aller bis dahin vorhandener Werte (inkl. imputierter) mit Korrekturformeln für Varianzen, basierend auf Werten der Residuen)
* Korrekturformel addiert zu den imputierten Werten einen Wert, der aus der Streuung der Werte-Abweichungen von der Regressionsgeraden berechnet wird (=mittlerer Wert der Residuen)
* Erhöhung der Varianzen durch Korrekturformel, manchmal auch durch Kombinationen mit Zufallsziehungen aus den Residualwerten
Zufallsziehungen spielen noch eine größere Rolle bei multipler Imputation
Was macht man bei der multiplen (zufallsbasierten) Imputation?
- wiederholte Durchführung einer einfachen Imputation
- für jeden imputierten Wert wird der Fehlerterm zufällig ausgewählt
- Varianz nicht wie vorher algorithmisch bestimmt (es gibt keine feste Korrekturformel), sondern Residualwert zufällig gewählt
Was ist der Unterschied von multipler Imputation zu EM?
Varianz wird nicht durch Korrekturformeln erhöht, sondern durch Addition von zufällig ausgewählten Residualwerten (MW = 0) und durch wiederholtes Durchführen dieser Prozedur (multiple Datensätze)