7 - traitement des données manquantes Flashcards

1
Q

cause des données manquantes (7)

A
  1. erreurs de saisie
  2. valeurs aberrantes qu’on supprime
  3. données recueillies difficilement
  4. statistiques officielles non dispo
  5. refus de rép à certaines questions par les participants
  6. difficulté de contacter les participants
  7. perte de suivi
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

impacts d’avoir des données manquantes sur l’analyse (2)

A
  • si info est non-pertinente/non-informative –> perte d’info a pas d’impact sur les analyses
  • si info est pertinente/informative –> perte d’info a un impact sur les analyses
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

impact de la perte d’info pertinente/informative sur les analyses

A
  • impact est en fct du taux de données manquantes
  • biais possible dans l’estimation de la précision et l’exactitude
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

données manquantes sur l’analyse : enjeux

A
  • éviter les biais induits par la négligence des données manquantes
  • choisir la bonne méthode pour traiter les données manquantes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

problématique des données manquantes (5)

A
  • la proportion des données manquantes
  • aléatoire ou non
  • monotone ou non
  • variable à expliquer ou variables explicatives
  • cadre d’étude (essais thrp et enquêtes)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

types de variables manquantes

A
  • MCAR : manquant complètement au hasard
  • MAR : manquant au hasard
  • MNAR : valeurs manquantes non aléatoires
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

MCAR

A

probabilité d’avoir des observations manquantes sur une variable Y est cst (même probabilité chez tout le monde)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

V ou F ; MCAR dépend ni de X ni de Y

A

V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

MCAR : conséquences

A
  • perte de précision (puissance)
  • pas de biais
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

comment varie l’écart-type selon la taille d’échantillon

A
  • petit échantillon = grand ÉT (car grande variance)
  • grand échantillon = petit ÉT (ce qu’on veut)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

MCAR : expliquer pk on obtient une variance plus petite en enlevant les observations ayant les valeurs les + larges

A

les données sont plus similaires donc plus de précision, la variance diminue donc ÉT plus petit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

MAR

A

probabilité d’avoir des observations manquantes sur une variable Y dépend d’autres variables observées X (dépend pas des valeurs de Y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

MAR : exemple

A

X = sexe (F) et Y = âge

à cause de la variable sexe, la variable âge est affectée (manquante)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

MAR : conséquences

A
  • perte de précision (puissance)
  • pas de biais si on utilise des mthd stat appropriées
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

MNAR

A

probabilité d’avoir des observations manquantes sur une variable Y dépend de la variable Y elle même

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

MNAR : exemple

A

Y = revenu

Personnes avec un haut revenu refusent de le dévoiler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

MNAR : conséquences

A
  • perte de précision (puissance)
  • biais
  • nécessite une analyse de sensibilité
18
Q

expliquer les valeurs monotones vs non monotones

A
  • monotone : pt vient aux visites 1,2,3,4 et arrête par la suite
  • non monotone : pt vient aux visites 1,2 skip 3 et va à 4,5
19
Q

méthode de traitement des données manquantes (4)

A
  • analyse de données complètes
  • indicateur de données manquantes
  • imputation simple
  • imputation multiple
20
Q

méthode de traitement des données manquantes : types d’imputation simple

A
  • par dernière observation (LOCF)
  • par la moyenne
  • par la régression
21
Q

principe de la méthode d’analyse de données complètes

A

on enlève les personnes dont il leur manque une donnée de variable pour analyser slm les personnes qui ont toutes les données des variables (néglige données manquantes et porte juste sur les enregistrements complets)

22
Q

principe de la méthode d’analyse de données complètes : expliquer cmt la proportion d’observations complètes peut être faible même si la probabilité qu’une donnée soit observée est grande

A

on enlève une personne même s’il manque juste 1 mesure

ex : proportion de 1/7 pts qui n’a pas la variable mais on l’enlève même si manque juste 1 mesure

23
Q

analyse complète : V ou F : les résultats sont pas biaisés si les données sont MCAR

A

V, mais il y a quand même diminution de précision et de puissance

24
Q

différence en analyse de données complètes et l’indicateur de données manquantes

A

au lieu de négliger les données manquantes, on ajoute une modalité à la variable pour que l’analyse porte sur toutes les données

25
Q

indicateur de données manquantes pour variables binaires

A

on ajoute une catégorie (niveau) qui représente le manque d’infos pour ne pas avoir a l’enlever

26
Q

indicateur de données manquantes pour variables continues

A

au lieu de rajouter une catégorie, on rajoute une valeur random qui fait pas partie des valeurs présentes, qui représente le manque d’infos (ex : 999)

27
Q

V ou F : indicateur de données manquantes suppose des données MCAR slm

A

F, MCAR ou MAR

28
Q

indicateur de données manquantes : AV (2)

A
  • améliore précision de certains estimateurs
  • permet d’apprécier le risque de biais
29
Q

indicateur de données manquantes : DV

A

protège pas contre le risque de biais

30
Q

imputation simple

A

chaque donnée manquante est remplacée par une donnée artificielle prédite ou simulée

31
Q

imputation simple : basé sur quel type de données manquantes

A

MAR

32
Q

imputation simple-dernière observation

A
  • pour des mesures répétées lors d’études longitudinales
  • suppose que la vraie valeur reste inchangée depuis la dernière mesure
33
Q

imputation simple-par la moyenne

A
  • remplacement des valeurs manquantes par la moyenne des données dispo
34
Q

V ou F : imputation simple-par la moyenne : les estimations sont non biaisées si les données sont MCAR

A

V

35
Q

imputation simple-par la moyenne : DV (2)

A
  • moyenne peut pas être calculée pour des données catégoriques
  • sous estime la variabilité des données non observées
36
Q

imputation simple-par régression

A

on trace une régression linéaire avec les données qu’on a pour prédire les données manquantes

37
Q

différence entre l’imputation simple-par régression linéaire simple vs linéaire simple avec résidus aléatoires

A

résidus aléatoires : on ajoute une erreur pour que les données prédites ressemblent plus aux données complètes

38
Q

imputation multiple

A
  • plusieurs imputations simple par régression pour capter toutes la variabilité possible
  • plusieurs valeurs dispo pour chaque données donc nous permet d’avoir un ensemble de données complet
39
Q

imputation multiple : objectifs

A
  • réfléter correctement l’incertitude des données manquantes
  • préserver les aspects importants des distributions
  • préserver les relations importantes entre les variables
40
Q

imputation multiple : ce qui n’est pas un objectif

A
  • prédire les données manquantes avec la plus grande précision
  • décrire les données de la meilleure façon possible