hoorcollege 5: omgaan met missing data Flashcards
3 Manieren om met missing values om te gaan?
- Ontbrekende gegevens verwijderen
- Ontbrekende gegevens als aparte categorie of aparte variabele opnemen in de analyse
- Schatting maken voor de missing values + schattingen imputeren
Verwijderen van ontbrekende gegevens (2)
- Listwise deletion: heeft de case een missing verwijder deze dan volledig. Het verliest respondenten dus alleen bij weinig missings
- pairwise deletion: SPSS laat alleen missing values vallen, minder verlies maar steekproefsamenstelling verschilt per berekening (soms onvergelijkbare rekenproblemen)
Stappen methode van Cohen:(3)
- maak dummie variabele met code 1, als variabele X missing anders code 0
- Als X missing, neem dan voor X mean van X
- Neem naast X ook dummie variabele op in het regressiemodel
5 manieren om schatting te maken voor de missing values + schatting imputeren
- Constante waarde (gemiddelde, mediaan, etc.)
- Hoogste correlerende item uit de meetschaal
- Regressie- schatting
- Regressie-schatting met variantie-correctie
- Meervoudige substitutie
Constante waarden
Missing vervangen door vaste waarde per variabele: Realistisch? Bijvoorbeeld bij inkomen kan het vertekend beeld geven
Hoogst correlerende item uit de meetschaal
precies wat het zegt, kan alleen als er meerdere uitspraken zijn over zelfde onderwerp
Regressieschatting
missing value vervangen door geschatte waarde op basis van regressie-vergelijking (Y=a+bX+e)
voordeel: maximaal gebruik vna beschikbare info
nadeel: je hebt goede predictoren nodig, varianties Y zijn te klein
regressieschatting met variantie correctie
hetzelfde als regressieschatting inclusief random component.
voordeel: variantie in Y blijft vrijwel gelijk.
nadeel: toevalsfluctuatie -> goede predictoren nodig
Meervoudige substitutie
Niet 1 maar 3,4 of meer substituties. Voor elke substitutie een aparte data analyse: vervang de misssing value door gesubstitueerde waarde, analyseer de complete data. De gemiddelde uitkomst geeft de gewenste schatting. De spreiding in de uikomsten geeft onzekerheid
voordeel: alle beschikbare info wordt gebruikt.
nadeel: variantie onderschat bij sommige, dus eerder significante resultaten. En de structuur in de gegevens wordt overschat.