les 1 - eyeballing data Flashcards
bosplot geeft info over
positie, spreiding, symmetrie
histogram geeft info over
normaliteit verdeling
Analyse missing data
= Ontbrekende waarden voor 1/meer variabelen
oorzaken analyse missing data
- Onafhankelijk van respondent:
Procedure
Codeerfouten - Afhankelijk van de respondent:
Omvang? (veel of weinig)
Analyse van het profiel van missing data (is er systematiek of random?)
impact missing data
- Praktische impact
- Nonrandom missingness
praktische impact van missing data
- Reductie steekproefgrootte (listwise deletion; vb. Antarctica data )
- Indien te veel: N vergroten of remediëren (zie verder)
nonrandom missingness
- Bias!
- Specifieke groepen uitgesloten uit analyse (vb. hoge inkomens )
- Merk je pas op als je missing data hebt bestudeerd
soort missing data
Verwaarloosbare missing data
Niet-verwaarloosbare missing data
verwaarloosbare missing data
= verwacht, deel van de procedure, toegelaten
= random missingness
random missingness
- Data van individuen (observatie-eenheden) die niet in de steekproef zitten
- Skip-patronen in design (e.g., “Rookt u? Zo neen, ga naar item x”)
- Censored data: niet beschikbaar
gekende nier-verwaarloosbare missing data
= te wijten aan procedurele factoren
= weinig controle over
Codeerfouten, fouten bij ingeven data
Vragenlijst niet volledig ingevuld (vb tijdsgebrek)
Sterfte respondent
Weigering “gevoelige” items, “geen mening”
Missing Completely At Random (MCAR)
- Tussen de subgroepen zijn missing data random gelijk
- De kans dat data missing is, is gelijk voor iedereen in de sample
- De oorzaak van missing data is onafhankelijk van de data
- Elke remedie ok; zeer weinig voorkomend
Missing At Random (MAR)
- Binnen subgroepen zijn missing data random, maar verschillen tussen groepen
- Missing data zijn afhankelijke van andere variabelen
Omgaan met missing data
Trachten te vermijden (bijv. check vragenlijsten, aandachtig bij coderen,…)
Standaard listwise deletion (enkel complete cases)
Cases en/of variabelen verwijderen (als random)
MAR of MCAR: Imputatie (missing data vervangen)
outliers
Buitenbeentjes, uitbijters
Duidelijk anders dan de andere observaties
Kunnen grote invloed hebben op analyse + interpretatie
sensitviteitsanalyse:
wat gebeurt het met de resultaten als je de outlier weglaat, itt andere waarnemingen?
Voorwaarden om multivariate analyses te mogen uitvoeren
- Normaliteit
- Homoscedasticiteit (gelijke spreiding)
- Lineariteit
Kurtosis
Kurtosis: gepiektheid of platheid (hoogte) tov normaalverdeling
rol van N
- Hoe groter de sample, hoe kleiner het effect van niet-normaalverdeeldheid
- N<30 -> grote impact op resultaten
- N>200 -> impact verwaarloosbaar
Homoscedasticiteit
Afhankelijke variabele(n) vertonen vergelijkbare niveaus van variantie over de range van onafhankelijke variabele(n) hee
Potentiële nadelen van transformaties
- Interpretatie van de resultaten kan minder duidelijk zijn
- Theoretische en empirische overwegingen
- Betekenis van de afhankelijke variabele (bvb. gekwadrateerde inkomensverschillen ( geen negatieve waarden meer)