- perte de précision (puissance) - pas de biais

- perte de précision (puissance) - pas de biais si on utilise des mthd stat appropriées

7 - traitement des données manquantes Flashcards by Floriane Dao

cause des données manquantes (7)

erreurs de saisie
valeurs aberrantes qu’on supprime
données recueillies difficilement
statistiques officielles non dispo
refus de rép à certaines questions par les participants
difficulté de contacter les participants
perte de suivi

How well did you know this?

Not at all

Perfectly

impacts d’avoir des données manquantes sur l’analyse (2)

si info est non-pertinente/non-informative –> perte d’info a pas d’impact sur les analyses
si info est pertinente/informative –> perte d’info a un impact sur les analyses

How well did you know this?

Not at all

Perfectly

impact de la perte d’info pertinente/informative sur les analyses

impact est en fct du taux de données manquantes
biais possible dans l’estimation de la précision et l’exactitude

How well did you know this?

Not at all

Perfectly

données manquantes sur l’analyse : enjeux

éviter les biais induits par la négligence des données manquantes
choisir la bonne méthode pour traiter les données manquantes

How well did you know this?

Not at all

Perfectly

problématique des données manquantes (5)

la proportion des données manquantes
aléatoire ou non
monotone ou non
variable à expliquer ou variables explicatives
cadre d’étude (essais thrp et enquêtes)

How well did you know this?

Not at all

Perfectly

types de variables manquantes

MCAR : manquant complètement au hasard
MAR : manquant au hasard
MNAR : valeurs manquantes non aléatoires

How well did you know this?

Not at all

Perfectly

MCAR

probabilité d’avoir des observations manquantes sur une variable Y est cst (même probabilité chez tout le monde)

How well did you know this?

Not at all

Perfectly

V ou F ; MCAR dépend ni de X ni de Y

How well did you know this?

Not at all

Perfectly

MCAR : conséquences

perte de précision (puissance)
pas de biais

How well did you know this?

Not at all

Perfectly

comment varie l’écart-type selon la taille d’échantillon

petit échantillon = grand ÉT (car grande variance)
grand échantillon = petit ÉT (ce qu’on veut)

How well did you know this?

Not at all

Perfectly

MCAR : expliquer pk on obtient une variance plus petite en enlevant les observations ayant les valeurs les + larges

les données sont plus similaires donc plus de précision, la variance diminue donc ÉT plus petit

How well did you know this?

Not at all

Perfectly

MAR

probabilité d’avoir des observations manquantes sur une variable Y dépend d’autres variables observées X (dépend pas des valeurs de Y)

How well did you know this?

Not at all

Perfectly

MAR : exemple

X = sexe (F) et Y = âge

à cause de la variable sexe, la variable âge est affectée (manquante)

How well did you know this?

Not at all

Perfectly

MAR : conséquences

perte de précision (puissance)
pas de biais si on utilise des mthd stat appropriées

How well did you know this?

Not at all

Perfectly

MNAR

probabilité d’avoir des observations manquantes sur une variable Y dépend de la variable Y elle même

How well did you know this?

Not at all

Perfectly

MNAR : exemple

Y = revenu

Personnes avec un haut revenu refusent de le dévoiler

How well did you know this?

Not at all

Perfectly

MNAR : conséquences

perte de précision (puissance)
biais
nécessite une analyse de sensibilité

expliquer les valeurs monotones vs non monotones

monotone : pt vient aux visites 1,2,3,4 et arrête par la suite
non monotone : pt vient aux visites 1,2 skip 3 et va à 4,5

méthode de traitement des données manquantes (4)

analyse de données complètes
indicateur de données manquantes
imputation simple
imputation multiple

méthode de traitement des données manquantes : types d’imputation simple

par dernière observation (LOCF)
par la moyenne
par la régression

principe de la méthode d’analyse de données complètes

on enlève les personnes dont il leur manque une donnée de variable pour analyser slm les personnes qui ont toutes les données des variables (néglige données manquantes et porte juste sur les enregistrements complets)

principe de la méthode d’analyse de données complètes : expliquer cmt la proportion d’observations complètes peut être faible même si la probabilité qu’une donnée soit observée est grande

on enlève une personne même s’il manque juste 1 mesure

ex : proportion de 1/7 pts qui n’a pas la variable mais on l’enlève même si manque juste 1 mesure

analyse complète : V ou F : les résultats sont pas biaisés si les données sont MCAR

V, mais il y a quand même diminution de précision et de puissance

différence en analyse de données complètes et l’indicateur de données manquantes

au lieu de négliger les données manquantes, on ajoute une modalité à la variable pour que l’analyse porte sur toutes les données

indicateur de données manquantes pour variables binaires

on ajoute une catégorie (niveau) qui représente le manque d'infos pour ne pas avoir a l'enlever

indicateur de données manquantes pour variables continues

au lieu de rajouter une catégorie, on rajoute une valeur random qui fait pas partie des valeurs présentes, qui représente le manque d'infos (ex : 999)

V ou F : indicateur de données manquantes suppose des données MCAR slm

F, MCAR ou MAR

indicateur de données manquantes : AV (2)

- améliore précision de certains estimateurs - permet d'apprécier le risque de biais

indicateur de données manquantes : DV

protège pas contre le risque de biais

imputation simple

chaque donnée manquante est remplacée par une donnée artificielle prédite ou simulée

imputation simple : basé sur quel type de données manquantes

MAR

imputation simple-dernière observation

- pour des mesures répétées lors d'études longitudinales - suppose que la vraie valeur reste inchangée depuis la dernière mesure

imputation simple-par la moyenne

- remplacement des valeurs manquantes par la moyenne des données dispo

V ou F : imputation simple-par la moyenne : les estimations sont non biaisées si les données sont MCAR

imputation simple-par la moyenne : DV (2)

- moyenne peut pas être calculée pour des données catégoriques - sous estime la variabilité des données non observées

imputation simple-par régression

on trace une régression linéaire avec les données qu'on a pour prédire les données manquantes

différence entre l'imputation simple-par régression linéaire simple vs linéaire simple avec résidus aléatoires

résidus aléatoires : on ajoute une erreur pour que les données prédites ressemblent plus aux données complètes

imputation multiple

- plusieurs imputations simple par régression pour capter toutes la variabilité possible - plusieurs valeurs dispo pour chaque données donc nous permet d'avoir un ensemble de données complet

imputation multiple : objectifs

- réfléter correctement l'incertitude des données manquantes - préserver les aspects importants des distributions - préserver les relations importantes entre les variables

imputation multiple : ce qui n'est pas un objectif

- prédire les données manquantes avec la plus grande précision - décrire les données de la meilleure façon possible