hoorcollege 5: omgaan met missing data Flashcards

1
Q

3 Manieren om met missing values om te gaan?

A
  1. Ontbrekende gegevens verwijderen
  2. Ontbrekende gegevens als aparte categorie of aparte variabele opnemen in de analyse
  3. Schatting maken voor de missing values + schattingen imputeren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Verwijderen van ontbrekende gegevens (2)

A
  1. Listwise deletion: heeft de case een missing verwijder deze dan volledig. Het verliest respondenten dus alleen bij weinig missings
  2. pairwise deletion: SPSS laat alleen missing values vallen, minder verlies maar steekproefsamenstelling verschilt per berekening (soms onvergelijkbare rekenproblemen)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Stappen methode van Cohen:(3)

A
  1. maak dummie variabele met code 1, als variabele X missing anders code 0
  2. Als X missing, neem dan voor X mean van X
  3. Neem naast X ook dummie variabele op in het regressiemodel
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

5 manieren om schatting te maken voor de missing values + schatting imputeren

A
  1. Constante waarde (gemiddelde, mediaan, etc.)
  2. Hoogste correlerende item uit de meetschaal
  3. Regressie- schatting
  4. Regressie-schatting met variantie-correctie
  5. Meervoudige substitutie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Constante waarden

A

Missing vervangen door vaste waarde per variabele: Realistisch? Bijvoorbeeld bij inkomen kan het vertekend beeld geven

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hoogst correlerende item uit de meetschaal

A

precies wat het zegt, kan alleen als er meerdere uitspraken zijn over zelfde onderwerp

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Regressieschatting

A

missing value vervangen door geschatte waarde op basis van regressie-vergelijking (Y=a+bX+e)
voordeel: maximaal gebruik vna beschikbare info
nadeel: je hebt goede predictoren nodig, varianties Y zijn te klein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

regressieschatting met variantie correctie

A

hetzelfde als regressieschatting inclusief random component.
voordeel: variantie in Y blijft vrijwel gelijk.
nadeel: toevalsfluctuatie -> goede predictoren nodig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Meervoudige substitutie

A

Niet 1 maar 3,4 of meer substituties. Voor elke substitutie een aparte data analyse: vervang de misssing value door gesubstitueerde waarde, analyseer de complete data. De gemiddelde uitkomst geeft de gewenste schatting. De spreiding in de uikomsten geeft onzekerheid
voordeel: alle beschikbare info wordt gebruikt.
nadeel: variantie onderschat bij sommige, dus eerder significante resultaten. En de structuur in de gegevens wordt overschat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly