Gestion des données manquantes Flashcards
Quelles sont les raisons pouvant produire des données manquantes?
- Une erreur (ex: personne qui a fait l’entrée de données)
- Perte de participants (personne ne veut plus répondre au questionnaire)
- Fatigue (ex: n’a pas vu la question)
- Réaction à une question (ex: personne mal à l’aise car demande le sexe)
Pourquoi les données manquantes sont-elles un problème?
Elle peuvent amener des biais dans la validité de l’étude:
- Diminuent la taille de l’échantillon (augm. erreur type 2)
- Modifier le résultat d’un test (plus faibles sautent)
Que faire en présence de données manquantes?
- Détecter données manquantes
- Analyser données manquantes
- Gérer données manquantes
- Procéder aux analyses et rédiger résultats
De quoi devons-nous tenir compte pour analyser les données manquantes?
Il faut tenir compte de la fréquence et du patron de données manquantes
Quelles sont les balises pour la fréquence des données manquantes?
Repose sur la proportion:
- Plus de 5% de données manquantes pour un variable est problématique
- Moins de 1% est négligeable/minimal
Comment vérifions-nous le patron des données manquantes?
Avec le test MCAR de Little (sur SPSS)
Ho: MCAR
H1: Non aléatoire
Regarder sig…
Non significatif (aléatoire) si p plus grand que 0,05
Significatif (non aléatoire) si p plus petit que 0,05
Quels sont les patrons possibles?
MCAR: données manquantes sont complètement au hasard (ce qu’on veut)
MAR: données manquantes sont aléatoires
*difficile à détecter car doit détecter des liens entre les liens
MNAR: données manquantes ne sont pas au hasard… le pire! (ex: questions incriminantes)
Quelles sont les 2 options pour gérer les données manquantes?
1: Effacer le cas manquant
2: Estimer les données manquantes et remplacer:
- Selon les connaissances du chercheur
- Remplacer par la moyenne
- Imputation de données
En quoi consiste l’option 1: effacer le cas manquant?
SPSS utilise cette option par défaut pour exclure chaque cas qui a une donnée manquante des analyses
- Listwise: exclure toute info incomplète (par défaut)
- Pairwise: Exclure seulement sur la variable non valide (mieux car perd moins de participants)
*Seulement si moins de 5% de données manquantes et MCAR
En quoi consiste l’option 2: Selon les connaissances du chercheur?
Le chercheur décide lui-même de comment il va remplacer la valeur manquante (plus quand on peut déduire, sinon bcp trop difficile)
*approche la moins rigoureuse des trois
En quoi consiste l’option 2: Remplacer par la moyenne?
Remplacer la donnée manquante par la valeur de la moyenne
-Approche prudente MAIS peut diminuer variance
**Seulement acceptée si moins de 1% de données manquantes pour chaque variable
En quoi consiste l’option 2: Imputation des données?
SPSS estime quel serait le score en fonction de ses autres réponses et des réponses de l’échantillon
L’approche la plus rigoureuse et respectable!!
*Peut être utilisé dans tous les contextes (MCAR, MAR, MNAR)
En quoi consiste l’étape: procéder aux analyses et rédiger les résultats?
Comment analyser:
- Tester hypothèses avec données manquantes exclues ET avec variables estimées/remplacées
- Prendre une décision avec directeur de recherche
Quoi rapporter:
-Rédiger une section (dans analyses préliminaires) qui mentionne les données manquantes et comment elles ont été gérées