FINAL 9 - Traitement des données manquantes Flashcards
Quelles sont les conséquences des données manquantes sur l’analyse ?
Perte d’informations pertinentes : impact dépend du nombre de données manquantes, possibilité de biais dans l’estimation de la précision et de l’exactitude
Quelle est la différence entre des données manquantes monotones et non monotones ?
Monotone : les données manquantes sont soit au début ou à la fin de l’analyse
Non monotone : absence de données en plein milieu de l’analyse
Qu’est-ce qu’une donnée manquante complètement au hasard MCAR ?
La probabilité d’avoir des données manquantes sur une variables Y dans un échantillon aléatoire simple d’une population est constante, donc ne dépend ni de X ni de Y
+ : pas de biais dans l’estimé
- : perte de précision / puissance dans la variance de l’estimé
Qu’est-ce qu’un échantillon aléatoire simple ?
- Tous les individus ont la même probabilité d’être choisis dans l’échantillon
- Les individus doivent être représentatifs de la population
Comment se calcule un biais ?
Biais = moyenne des estimés dans l’échantillon - moyenne dans la population ≠ 0
Qu’est-ce qu’une donnée manquante au hasard MAR ?
Probabilité d’avoir des données manquantes sur une variables Y dépend de X mais pas de Y
Ex : F (X = sexe) refusant de divulger son âge (Y = âge)
+ : pas de biais dans l’estimé avec des méthodes statistiques appropriées
- : perte de précision / puissance dans la variance de l’estimé
Qu’est-ce qu’une donnée manquante non aléatoire MNAR ?
Probabilité d’avoir des données manquantes sur une variable dépend de Y
Ex : Individu $$ (Y = revenu) refuse de dévoiler son revenu (Y = revenu
- : perte de précision / puissance dans la variance de l’estimé, biais dans l’estimé, analyse de sensibilité nécessaire
Quelles sont les méthodes de traitement des données manquantes ?
- Analyse de données complète
- Indicateur de données manquantes
- Imputation simple (dernière observation, par la moyenne, par regréssion)
- Imputation multiple
En quoi consiste l’analyse de données complète ?
Enlever de l’analyse les individus avec une ou des données manquantes
Applicable pour toutes les types de données manquantes
- : diminution de la précision / puissance car diminution de la taille d’échantillon
En quoi consiste l’indicateur de données manquantes ?
Ajouter un niveau de valeurs qui incluent toutes les données manquantes
Applicables pour des données MCAR ou MAR
+ : amélioration de la précision car même taille d’échantillon, diminution du risque de biais
En quoi consiste une imputation simple ?
Remplacement des données manquantes par des données simulées
Applicables pour des données MAR
1. Dernière observation : remplacement par la valeur mesurée lors de la dernière observation
2. Par la moyenne : remplacement par la moyennes des mesures (inapplicable pour des variables qualitatives + sous-estimation de la variabilité)
3. Par régression : prédiction des valeurs à partir d’un modèle de régression
Y = β₀ + β₁X₁ + e où e est associé aux résidus aléatoires
En quoi consiste l’imputation multiple ?
Simulation de plusieurs valeurs pour remplacer une donnée manquante par régression puis combinaison des résultats des analyses multiples
+ : bcp de précision de la variance des estimés