hoorcollege 5: omgaan met missing data Flashcards

Question 1

Q

3 Manieren om met missing values om te gaan?

Answer

A

Ontbrekende gegevens verwijderen
Ontbrekende gegevens als aparte categorie of aparte variabele opnemen in de analyse
Schatting maken voor de missing values + schattingen imputeren

Question 2

Q

Verwijderen van ontbrekende gegevens (2)

Answer

A

Listwise deletion: heeft de case een missing verwijder deze dan volledig. Het verliest respondenten dus alleen bij weinig missings
pairwise deletion: SPSS laat alleen missing values vallen, minder verlies maar steekproefsamenstelling verschilt per berekening (soms onvergelijkbare rekenproblemen)

Question 3

Q

Stappen methode van Cohen:(3)

Answer

A

maak dummie variabele met code 1, als variabele X missing anders code 0
Als X missing, neem dan voor X mean van X
Neem naast X ook dummie variabele op in het regressiemodel

Question 4

Q

5 manieren om schatting te maken voor de missing values + schatting imputeren

Answer

A

Constante waarde (gemiddelde, mediaan, etc.)
Hoogste correlerende item uit de meetschaal
Regressie- schatting
Regressie-schatting met variantie-correctie
Meervoudige substitutie

Question 5

Q

Constante waarden

Answer

A

Missing vervangen door vaste waarde per variabele: Realistisch? Bijvoorbeeld bij inkomen kan het vertekend beeld geven

Question 6

Q

Hoogst correlerende item uit de meetschaal

Answer

A

precies wat het zegt, kan alleen als er meerdere uitspraken zijn over zelfde onderwerp

Question 7

Q

Regressieschatting

Answer

A

missing value vervangen door geschatte waarde op basis van regressie-vergelijking (Y=a+bX+e)
voordeel: maximaal gebruik vna beschikbare info
nadeel: je hebt goede predictoren nodig, varianties Y zijn te klein

Question 8

Q

regressieschatting met variantie correctie

Answer

A

hetzelfde als regressieschatting inclusief random component.
voordeel: variantie in Y blijft vrijwel gelijk.
nadeel: toevalsfluctuatie -> goede predictoren nodig

Question 9

Q

Meervoudige substitutie

Answer

A

Niet 1 maar 3,4 of meer substituties. Voor elke substitutie een aparte data analyse: vervang de misssing value door gesubstitueerde waarde, analyseer de complete data. De gemiddelde uitkomst geeft de gewenste schatting. De spreiding in de uikomsten geeft onzekerheid
voordeel: alle beschikbare info wordt gebruikt.
nadeel: variantie onderschat bij sommige, dus eerder significante resultaten. En de structuur in de gegevens wordt overschat.