7 - traitement des données manquantes Flashcards
cause des données manquantes (7)
- erreurs de saisie
- valeurs aberrantes qu’on supprime
- données recueillies difficilement
- statistiques officielles non dispo
- refus de rép à certaines questions par les participants
- difficulté de contacter les participants
- perte de suivi
impacts d’avoir des données manquantes sur l’analyse (2)
- si info est non-pertinente/non-informative –> perte d’info a pas d’impact sur les analyses
- si info est pertinente/informative –> perte d’info a un impact sur les analyses
impact de la perte d’info pertinente/informative sur les analyses
- impact est en fct du taux de données manquantes
- biais possible dans l’estimation de la précision et l’exactitude
données manquantes sur l’analyse : enjeux
- éviter les biais induits par la négligence des données manquantes
- choisir la bonne méthode pour traiter les données manquantes
problématique des données manquantes (5)
- la proportion des données manquantes
- aléatoire ou non
- monotone ou non
- variable à expliquer ou variables explicatives
- cadre d’étude (essais thrp et enquêtes)
types de variables manquantes
- MCAR : manquant complètement au hasard
- MAR : manquant au hasard
- MNAR : valeurs manquantes non aléatoires
MCAR
probabilité d’avoir des observations manquantes sur une variable Y est cst (même probabilité chez tout le monde)
V ou F ; MCAR dépend ni de X ni de Y
V
MCAR : conséquences
- perte de précision (puissance)
- pas de biais
comment varie l’écart-type selon la taille d’échantillon
- petit échantillon = grand ÉT (car grande variance)
- grand échantillon = petit ÉT (ce qu’on veut)
MCAR : expliquer pk on obtient une variance plus petite en enlevant les observations ayant les valeurs les + larges
les données sont plus similaires donc plus de précision, la variance diminue donc ÉT plus petit
MAR
probabilité d’avoir des observations manquantes sur une variable Y dépend d’autres variables observées X (dépend pas des valeurs de Y)
MAR : exemple
X = sexe (F) et Y = âge
à cause de la variable sexe, la variable âge est affectée (manquante)
MAR : conséquences
- perte de précision (puissance)
- pas de biais si on utilise des mthd stat appropriées
MNAR
probabilité d’avoir des observations manquantes sur une variable Y dépend de la variable Y elle même
MNAR : exemple
Y = revenu
Personnes avec un haut revenu refusent de le dévoiler
MNAR : conséquences
- perte de précision (puissance)
- biais
- nécessite une analyse de sensibilité
expliquer les valeurs monotones vs non monotones
- monotone : pt vient aux visites 1,2,3,4 et arrête par la suite
- non monotone : pt vient aux visites 1,2 skip 3 et va à 4,5
méthode de traitement des données manquantes (4)
- analyse de données complètes
- indicateur de données manquantes
- imputation simple
- imputation multiple
méthode de traitement des données manquantes : types d’imputation simple
- par dernière observation (LOCF)
- par la moyenne
- par la régression
principe de la méthode d’analyse de données complètes
on enlève les personnes dont il leur manque une donnée de variable pour analyser slm les personnes qui ont toutes les données des variables (néglige données manquantes et porte juste sur les enregistrements complets)
principe de la méthode d’analyse de données complètes : expliquer cmt la proportion d’observations complètes peut être faible même si la probabilité qu’une donnée soit observée est grande
on enlève une personne même s’il manque juste 1 mesure
ex : proportion de 1/7 pts qui n’a pas la variable mais on l’enlève même si manque juste 1 mesure
analyse complète : V ou F : les résultats sont pas biaisés si les données sont MCAR
V, mais il y a quand même diminution de précision et de puissance
différence en analyse de données complètes et l’indicateur de données manquantes
au lieu de négliger les données manquantes, on ajoute une modalité à la variable pour que l’analyse porte sur toutes les données
indicateur de données manquantes pour variables binaires
on ajoute une catégorie (niveau) qui représente le manque d’infos pour ne pas avoir a l’enlever
indicateur de données manquantes pour variables continues
au lieu de rajouter une catégorie, on rajoute une valeur random qui fait pas partie des valeurs présentes, qui représente le manque d’infos (ex : 999)
V ou F : indicateur de données manquantes suppose des données MCAR slm
F, MCAR ou MAR
indicateur de données manquantes : AV (2)
- améliore précision de certains estimateurs
- permet d’apprécier le risque de biais
indicateur de données manquantes : DV
protège pas contre le risque de biais
imputation simple
chaque donnée manquante est remplacée par une donnée artificielle prédite ou simulée
imputation simple : basé sur quel type de données manquantes
MAR
imputation simple-dernière observation
- pour des mesures répétées lors d’études longitudinales
- suppose que la vraie valeur reste inchangée depuis la dernière mesure
imputation simple-par la moyenne
- remplacement des valeurs manquantes par la moyenne des données dispo
V ou F : imputation simple-par la moyenne : les estimations sont non biaisées si les données sont MCAR
V
imputation simple-par la moyenne : DV (2)
- moyenne peut pas être calculée pour des données catégoriques
- sous estime la variabilité des données non observées
imputation simple-par régression
on trace une régression linéaire avec les données qu’on a pour prédire les données manquantes
différence entre l’imputation simple-par régression linéaire simple vs linéaire simple avec résidus aléatoires
résidus aléatoires : on ajoute une erreur pour que les données prédites ressemblent plus aux données complètes
imputation multiple
- plusieurs imputations simple par régression pour capter toutes la variabilité possible
- plusieurs valeurs dispo pour chaque données donc nous permet d’avoir un ensemble de données complet
imputation multiple : objectifs
- réfléter correctement l’incertitude des données manquantes
- préserver les aspects importants des distributions
- préserver les relations importantes entre les variables
imputation multiple : ce qui n’est pas un objectif
- prédire les données manquantes avec la plus grande précision
- décrire les données de la meilleure façon possible