7 - traitement des données manquantes Flashcards

1
Q

cause des données manquantes (7)

A
  1. erreurs de saisie
  2. valeurs aberrantes qu’on supprime
  3. données recueillies difficilement
  4. statistiques officielles non dispo
  5. refus de rép à certaines questions par les participants
  6. difficulté de contacter les participants
  7. perte de suivi
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

impacts d’avoir des données manquantes sur l’analyse (2)

A
  • si info est non-pertinente/non-informative –> perte d’info a pas d’impact sur les analyses
  • si info est pertinente/informative –> perte d’info a un impact sur les analyses
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

impact de la perte d’info pertinente/informative sur les analyses

A
  • impact est en fct du taux de données manquantes
  • biais possible dans l’estimation de la précision et l’exactitude
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

données manquantes sur l’analyse : enjeux

A
  • éviter les biais induits par la négligence des données manquantes
  • choisir la bonne méthode pour traiter les données manquantes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

problématique des données manquantes (5)

A
  • la proportion des données manquantes
  • aléatoire ou non
  • monotone ou non
  • variable à expliquer ou variables explicatives
  • cadre d’étude (essais thrp et enquêtes)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

types de variables manquantes

A
  • MCAR : manquant complètement au hasard
  • MAR : manquant au hasard
  • MNAR : valeurs manquantes non aléatoires
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

MCAR

A

probabilité d’avoir des observations manquantes sur une variable Y est cst (même probabilité chez tout le monde)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

V ou F ; MCAR dépend ni de X ni de Y

A

V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

MCAR : conséquences

A
  • perte de précision (puissance)
  • pas de biais
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

comment varie l’écart-type selon la taille d’échantillon

A
  • petit échantillon = grand ÉT (car grande variance)
  • grand échantillon = petit ÉT (ce qu’on veut)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

MCAR : expliquer pk on obtient une variance plus petite en enlevant les observations ayant les valeurs les + larges

A

les données sont plus similaires donc plus de précision, la variance diminue donc ÉT plus petit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

MAR

A

probabilité d’avoir des observations manquantes sur une variable Y dépend d’autres variables observées X (dépend pas des valeurs de Y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

MAR : exemple

A

X = sexe (F) et Y = âge

à cause de la variable sexe, la variable âge est affectée (manquante)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

MAR : conséquences

A
  • perte de précision (puissance)
  • pas de biais si on utilise des mthd stat appropriées
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

MNAR

A

probabilité d’avoir des observations manquantes sur une variable Y dépend de la variable Y elle même

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

MNAR : exemple

A

Y = revenu

Personnes avec un haut revenu refusent de le dévoiler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

MNAR : conséquences

A
  • perte de précision (puissance)
  • biais
  • nécessite une analyse de sensibilité
18
Q

expliquer les valeurs monotones vs non monotones

A
  • monotone : pt vient aux visites 1,2,3,4 et arrête par la suite
  • non monotone : pt vient aux visites 1,2 skip 3 et va à 4,5
19
Q

méthode de traitement des données manquantes (4)

A
  • analyse de données complètes
  • indicateur de données manquantes
  • imputation simple
  • imputation multiple
20
Q

méthode de traitement des données manquantes : types d’imputation simple

A
  • par dernière observation (LOCF)
  • par la moyenne
  • par la régression
21
Q

principe de la méthode d’analyse de données complètes

A

on enlève les personnes dont il leur manque une donnée de variable pour analyser slm les personnes qui ont toutes les données des variables (néglige données manquantes et porte juste sur les enregistrements complets)

22
Q

principe de la méthode d’analyse de données complètes : expliquer cmt la proportion d’observations complètes peut être faible même si la probabilité qu’une donnée soit observée est grande

A

on enlève une personne même s’il manque juste 1 mesure

ex : proportion de 1/7 pts qui n’a pas la variable mais on l’enlève même si manque juste 1 mesure

23
Q

analyse complète : V ou F : les résultats sont pas biaisés si les données sont MCAR

A

V, mais il y a quand même diminution de précision et de puissance

24
Q

différence en analyse de données complètes et l’indicateur de données manquantes

A

au lieu de négliger les données manquantes, on ajoute une modalité à la variable pour que l’analyse porte sur toutes les données

25
indicateur de données manquantes pour variables binaires
on ajoute une catégorie (niveau) qui représente le manque d'infos pour ne pas avoir a l'enlever
26
indicateur de données manquantes pour variables continues
au lieu de rajouter une catégorie, on rajoute une valeur random qui fait pas partie des valeurs présentes, qui représente le manque d'infos (ex : 999)
27
V ou F : indicateur de données manquantes suppose des données MCAR slm
F, MCAR ou MAR
28
indicateur de données manquantes : AV (2)
- améliore précision de certains estimateurs - permet d'apprécier le risque de biais
29
indicateur de données manquantes : DV
protège pas contre le risque de biais
30
imputation simple
chaque donnée manquante est remplacée par une donnée artificielle prédite ou simulée
31
imputation simple : basé sur quel type de données manquantes
MAR
32
imputation simple-dernière observation
- pour des mesures répétées lors d'études longitudinales - suppose que la vraie valeur reste inchangée depuis la dernière mesure
33
imputation simple-par la moyenne
- remplacement des valeurs manquantes par la moyenne des données dispo
34
V ou F : imputation simple-par la moyenne : les estimations sont non biaisées si les données sont MCAR
V
35
imputation simple-par la moyenne : DV (2)
- moyenne peut pas être calculée pour des données catégoriques - sous estime la variabilité des données non observées
36
imputation simple-par régression
on trace une régression linéaire avec les données qu'on a pour prédire les données manquantes
37
différence entre l'imputation simple-par régression linéaire simple vs linéaire simple avec résidus aléatoires
résidus aléatoires : on ajoute une erreur pour que les données prédites ressemblent plus aux données complètes
38
imputation multiple
- plusieurs imputations simple par régression pour capter toutes la variabilité possible - plusieurs valeurs dispo pour chaque données donc nous permet d'avoir un ensemble de données complet
39
imputation multiple : objectifs
- réfléter correctement l'incertitude des données manquantes - préserver les aspects importants des distributions - préserver les relations importantes entre les variables
40
imputation multiple : ce qui n'est pas un objectif
- prédire les données manquantes avec la plus grande précision - décrire les données de la meilleure façon possible