7 - traitement des données manquantes Flashcards
cause des données manquantes (7)
- erreurs de saisie
- valeurs aberrantes qu’on supprime
- données recueillies difficilement
- statistiques officielles non dispo
- refus de rép à certaines questions par les participants
- difficulté de contacter les participants
- perte de suivi
impacts d’avoir des données manquantes sur l’analyse (2)
- si info est non-pertinente/non-informative –> perte d’info a pas d’impact sur les analyses
- si info est pertinente/informative –> perte d’info a un impact sur les analyses
impact de la perte d’info pertinente/informative sur les analyses
- impact est en fct du taux de données manquantes
- biais possible dans l’estimation de la précision et l’exactitude
données manquantes sur l’analyse : enjeux
- éviter les biais induits par la négligence des données manquantes
- choisir la bonne méthode pour traiter les données manquantes
problématique des données manquantes (5)
- la proportion des données manquantes
- aléatoire ou non
- monotone ou non
- variable à expliquer ou variables explicatives
- cadre d’étude (essais thrp et enquêtes)
types de variables manquantes
- MCAR : manquant complètement au hasard
- MAR : manquant au hasard
- MNAR : valeurs manquantes non aléatoires
MCAR
probabilité d’avoir des observations manquantes sur une variable Y est cst (même probabilité chez tout le monde)
V ou F ; MCAR dépend ni de X ni de Y
V
MCAR : conséquences
- perte de précision (puissance)
- pas de biais
comment varie l’écart-type selon la taille d’échantillon
- petit échantillon = grand ÉT (car grande variance)
- grand échantillon = petit ÉT (ce qu’on veut)
MCAR : expliquer pk on obtient une variance plus petite en enlevant les observations ayant les valeurs les + larges
les données sont plus similaires donc plus de précision, la variance diminue donc ÉT plus petit
MAR
probabilité d’avoir des observations manquantes sur une variable Y dépend d’autres variables observées X (dépend pas des valeurs de Y)
MAR : exemple
X = sexe (F) et Y = âge
à cause de la variable sexe, la variable âge est affectée (manquante)
MAR : conséquences
- perte de précision (puissance)
- pas de biais si on utilise des mthd stat appropriées
MNAR
probabilité d’avoir des observations manquantes sur une variable Y dépend de la variable Y elle même
MNAR : exemple
Y = revenu
Personnes avec un haut revenu refusent de le dévoiler