Fehlende Werte Flashcards

1
Q

Welche Arten fehlender Werte gibt es?

A

MCAR
MAR
NMAR

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie kann man fehlende Werte diagnostizieren?

A

Deskriptive Analyse
Vergleich von Subgruppen
Korrelation der “Missing-Indikatoren”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie kann man fehlende Werte ersetzen?

Traditionell

A
  • Fallweises Löschen
  • Paarweises Löschen
  • Mittelwertsimputation
  • Regressionsbasierte Imputation für Einzelwerte
  • Hot Deck Imputation
  • Cold Deck Imputation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist das zentrale Problem bei den deterministischen Imputationsverfahren?

MAR und MCAR

A

Unterschätzung der Variation der Werte –> Effektgrößen und Signifikanztests werden überschätzt

Merkregel: Effektgröße = Signifikanztest (z.B. t- oder F-Werte) / Größe der Studie (z.B. n oder df)

Streuung unterschätzt, Effekt überschätzt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welche Verfahren unterschätzen die Variation nicht?

A

EM-Algorithmus
Multiple (zufallsbasierte) Imputation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Warum sind fehlende Werte ein Problem?

A
  • Generell: Kleinere SPs –> weniger reliable Aussagen
  • Wenn Werte systematisch fehlen –> verfälschte Schlussfolgerungen

Vor allem bei multivariaten Analysen (SGM, MEA) können geeignete Verfahren u.U. nicht angewandt werden, weil n zu klein ist –> geringere Power. WS signifikantes Ergebnis zu bekommen sinkt deutlich bei fehlenden Werten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wann sind Werte MCAR?

A

Beobachtete Werte können als Zufallsstichprobe aus der ursprünglichen vollständigen SP betrachtet werden.

Bsp.: Biofeedbackgeräte messen einfach nicht

Wahrscheinlichkeit für das beobachtete Muster ist unabhängig von anderen Variablen. (X von Y und anderen Werten unabhängig)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wann sind Werte MAR?

A

Fehlen von Y-Werten ist abhängig von der Ausprägung mind. einer weiteren Variable X (aber nicht von Y selbst): Für jeden X-Wert repräsentieren die Y-Werte eine Zufallsstichprobe (hierauf bezieht sich MAR), aber die Y-Werte sind keine Zufallsstichprobe aus der Gesamtstichprobe.

z.B. X=Alter, Y=Einkommen

X-Werte in Abhängigkeit der Y-Werte (X=Prädiktor, Y=AV)
Wahrscheinlichkeit für das beobachtete Muster an Werten hängt nur von beobachteten Variablenwerten ab.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wann sind Werte NMAR?

A

Fehlen von Y-Werten ist abhängig von Ausprägungen der Y-Werte.

Bsp.: Es fehlen tendenziell die positiven Beurteilungen für die Radiosen

Wahrscheinlichkeit für das beobachtete Muster an Werten hängt von unbeobachteten Werten ab.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Diagnose

Deskriptive Analyse

A

Wie hoch ist das Ausmaß der fehlenden Werte? Lassen sie sich durch grafische Analyse (z.B. Matrix der Missing-Werte x Cases) Muster entdecken?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Diagnose

Vergleich von Subgruppen

A

Unterscheiden sich die Statistiken für andere Variablen X in Abhängigkeit davon, ob die Y-Werte fehlen oder nicht?
Wenn große Unterschiede: Hinweis auf nicht-zufällige Prozesse.

Können andere Variablen das Fehlen erklären?

Ist z.B. das Alter bei Personen, die die Frage beantwotet haben, höher als bei denen, die sie nicht beantwortet haben?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Diagnose

Korrelation der Missing-Indikatoren

A

(1: Wert vorhanden, 0: Wert nicht vorhanden) aller Variablen –> Bei großen Korrelationen: Hinweis auf systematische Zusammenhänge (Daten können nicht MCAR sein).

Besser erst deskriptiv schauen, wo fehlende Werte sind

Problem Signifikanztest: H0 soll angenommen werden! Alpha zu klein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Ersetzung der fehldenden Werte

Wie funktioniert fallweises Löschen?

A

Wenn bei einem Fall mind. ein Variablenwert fehlt, wird der ganze Fall gelöscht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Ersetzung der fehldenden Werte

Was ist das Problem beim fallweisen Löschen?

A
  • Potenziell geringe Power (für Signifikanztests) und Schätzgenauigkeit (für KIs & Effektgrößen), weil SP kleiner wird
  • Vor allem bei MAR können Parameterschätzungen (z.B. für MW) systematisch verzerrt sein (Fehlen ist abhängig –> Löschen von Subgruppen)

Anwendung: Bei manchen Analysen (z.B. Regression mit fehlenden Y-Werten) kaum Bias zu erwarten, ansonsten nicht empfohlen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Ersetzung der fehldenden Werte

Wie funktioniert paarweises Löschen?

A

Beobachtungspaare bleiben unberücksichtigt (z.B. bei der Berechnung einer Korrelation), wenn mind. ein Wert fehlt (bei univariaten Analysen werden alle vorhandenen Werte benutzt).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Ersetzung der fehldenden Werte

Was sind die Probleme beim paarweisen Löschen?

A
  • Abstriche bzgl. Power kleiner als bei fallweisem Löschen
  • Möglichkeit von Verzerrungen der Parameterschätzungen (Kovarianzen, Varianzen und Mittelwerte beruhen in der Regel auf unterschiedlichen Fallzahlen und Fällen)
  • Standardfehler können schlecht geschätzt werden (Funktion von SD und n!)

Anwendung: Wird eher nicht empfohlen (problematisch vor allem, wenn Werte nicht MCAR sind).

17
Q

Ersetzung der fehldenden Werte

Was macht man bei der Mittelwertsimputation?

A

Für jeden fehlenden Wert wird der MW einer Variablen benutzt.

18
Q

Ersetzung der fehldenden Werte

Was sind die Probleme bei der Mittelwertsimputation?

A
  • Systematische Unterschätzung der Varianzen und Kovarianzen –> wenn man nur MW nimmt, variiert nichts –> Unterschätzung
  • Meist werden df unter Einbeziehung der imputierten Werte bestimmt –> Unterschätzen von Standardfehlern
  • Üblicherweise verzerrte Parameterschätzungen, wenn Werte nicht MCAR

Generell nicht empfohlen

19
Q

Ersetzung der fehldenden Werte

Was macht man bei der Regressionsbasierten Imputation für Einzelwerte?

A

Fehlende Werte werden aufgrund der Kenntnis von X1-Xk Prädiktoren mittels Regressionsanalyse vorhergesagt.

Regressionsanalyse mit allen verfügbaren Werten einer Y- und einer X-Variable –> Gleichung –> fehlende Y-Werte vorhersagen

20
Q

Ersetzung der fehldenden Werte

Was ist das Problem bei der Regressionsbasierten Imputation?

A

Verzerrte Varianzen und Standardfehler (bei identischen X-Variablenwerten gibt es keine Variation in Y).

Auswirkung auf Berechnung von Effektgrößen und Signifikanztests + systematische verzerrte Parameterschätzungen.
Ergebnisse werden schneller signifikant. –> Überschätzen des Effekts
normalerweise korrespondieren zu einem X-Wert verschiedene Y-Werte
Nicht empfohlen

21
Q

Ersetzung der fehldenden Werte

Was macht man bei der Hot Deck Imputation?

A

Fehlende Werte werden durch in derselben SP beobachtete Werte ersetzt (vermeidet das Problem von unrealistischen Werten, die durch MW- und regressionsbasierte Imputation auftreten können).

Vorgehensweise: Verschiedene Arten von Zufallsmechanismen, aber auch systematische Auswahl. (z.B. bei Zeitreihenanalyse: zeitliche Ordnung der Werte, Substitution des fehlenden Wertes durch jeweils letzten vorangehenden Wert)

22
Q

Ersetzung der fehldenden Werte

Was ist das Problem der Hot Deck Imputation?

A

Unterschätzung der zeitlichen Dynamik bei Zeitreihendaten

Theorie schlecht ausgearbeitet, bei systematisch fehlenden Werten schwierig

23
Q

Ersetzung der fehldenden Werte

Was macht man bei der Cold Deck Imputation?

A

Fehlende Y-Werte werden aufgrund anderer Datensätze oder anderer Quellen ersetzt.

Aber wirklich vergleichbare Daten gibt es kaum.

24
Q

Was macht man beim Expectation-Maximization Algorithmus?

A
  • iteratives, zweistufiges Verfahren, das alle vorhandenen Variablen nutzt
  • bis Schätzungen konvergieren (bis die Veränderungen nur noch vernachlässigbar groß sind) werden Expectation und Maxmization benutzt

Expectation:
* Regressionsbasierte Imputation
* ausgehend von Ausgangswerten (anfangs durch listwise oder pairwise deletion) Berechnung der Regressionskoeffizienten für Vorhersage der Variablen mit weniger Werten (X1, X2) aus denen mit mehr Werten (X3, X4)
* Berechnung der Mittelwerte und Kovarianzen –> Erstellung der Regressionsgleichung –> Imputation der fehlenden Werte
* wenn nur Werte einer Variable fehlen: alle anderen Variablen als Prädiktor nutzen

Maximization (damit Varianz nicht unterschätzt wird):
* Berechnung neuer Schätzer (MW, Kovarianzen) –> aufgrund aller bis dahin vorhandener Werte (inkl. imputierter) mit Korrekturformeln für Varianzen, basierend auf Werten der Residuen)
* Korrekturformel addiert zu den imputierten Werten einen Wert, der aus der Streuung der Werte-Abweichungen von der Regressionsgeraden berechnet wird (=mittlerer Wert der Residuen)
* Erhöhung der Varianzen durch Korrekturformel, manchmal auch durch Kombinationen mit Zufallsziehungen aus den Residualwerten

Zufallsziehungen spielen noch eine größere Rolle bei multipler Imputation

25
Q

Was macht man bei der multiplen (zufallsbasierten) Imputation?

A
  • wiederholte Durchführung einer einfachen Imputation
  • für jeden imputierten Wert wird der Fehlerterm zufällig ausgewählt
  • Varianz nicht wie vorher algorithmisch bestimmt (es gibt keine feste Korrekturformel), sondern Residualwert zufällig gewählt
26
Q

Was ist der Unterschied von multipler Imputation zu EM?

A

Varianz wird nicht durch Korrekturformeln erhöht, sondern durch Addition von zufällig ausgewählten Residualwerten (MW = 0) und durch wiederholtes Durchführen dieser Prozedur (multiple Datensätze)