Traitement des données manquantes Flashcards
Comment note-on la matrice des données observées? et manquantes?
Yobs et Ymis
Qu’est-ce que la matrice de réponse R?
Une matrice avec des indicatrices. 1 si la valeur est observée et 0 sinon.
Quels sont les 3 types de données manquantes?
MCAR, MAR et MNAR
Expliquez ce qu’est le type MCAR.
La probabilité de réponse n’a aucun lien avec les données. Dans ce cas, Rij suivra une bernoulli(1 - Theta), où theta : 10% si on perd au hasard 10% des données.
Expliquez ce qu’est le type MAR.
La probabilité de réponse dépend seulement de variables mesurées dans le jeu de données.
Expliquez le type MNAR.
La probabilité de réponse dépend de la variable contenant des NA elle-même, donc de Ymis OU elle dépend d’une autre variable non observée.
Quel test peut-on faire pour vérifier si les données sont MCAR?
Un test du khi-carré de pearson avec H0 : les données sont MCAR.
Quelles sont les 7 options de traitement des NA?
- Cas complets
- Cas disponibles
- Imputation par la moyenne ou la médiane
- Imputation par une régression
- Imputation stochastique par une régression
- Imputation Hot-Deck
- Imputation multiple