semaine 4 - traitement de données quantitatives Flashcards
C’est quoi les 6 étapes clés de traitement des données primaires dans la construction de base de données?
- saisie des données collectées
- épuration des données
- codage des variables à questions à réponses multiples
- enchaînements
- contrôle et imputation
- création de fichiers finaux de données et d’un dictionnaire de données
C’est quoi les règles qui guident le processus de coding
règles d’ordre général
règles d’ordre spécifique
C’est quoi l’erreur de saisi?
- subvenir lorsque la saisie est manuelle
- erreur peut être détectée en présenant une distribution de fréquence des données
C’est quoi les 3 types de données manquantes?
sujets manquants: toutes les données relatives à un temps de mesure sont manquantes pour certaines unités statistiques
occasions manquantes: données relatives à un temps de mesure sont manquantes pour certaines unités stats
valeurs manquantes: données absentes parce que des répondants ont omis de répondre à certaine questions ou que des données pour calculer cette valeur ne sont pas dispo
Comment pouvont nous distribuée les données manquantes?
Complètement aléatoire: la probabilité qu’une valeur soit manquantepour une variable donnée ne depend pas de cette variable ni d’aucune autre variable
Aléatoire: la probabilité qu’une valeur soit manquante pour une variabledonnée ne depend pas de cette variable, mais est liée à d’autres variablesde la base
Non aléatoire: la probabilité qu’une valeur soit manquante pour une valeur donnée depend de la valeur de cette variable elle-même
C’est quoi les 5 grandes catégories de méthodes de traitement des données manquantes?
Méthodes d’élimination
Méthodes de substitution
Méthode d’imputation simple
Méthode d’estimation du maximum de vraisemblance
Imputation multiple
C’est quoi la simple élimination et l’élimination appariée?
Simple élimination
- exclure de l’analyse toutes les unités statistiques pour lesquels au moins une valeur est manquantes pour les variables impliquées dans l’analyse
Élimination appariée
- Créer une matrice de corrélations ou de variances-covariances pour laquelle chaque couple de variables est pris deux à deux
Chaque donnée manquante pour un répondant est remplacée par une valeur choisie aléatoirement à partir des réponses des répindants similaires
(Méthodes de subsitution) Remplacement de type Hot-Deck
Prédire les valeurs attribuées aux données manquantes avec une régression à partir des données disponibles
Imputation par équation de régression
Valeur si extrême pour une variable (univariée), ou une combinaison si étrange
de réponses à un ensemble de variables (multivariée) pouvant biaiser les
résultats
Données aberrantes
Approches pour identifier les donnes aberrantes
Produire un tableau de fréquence pour observer les observations isolées
Produire des graphiques pour observer la variation de la variable
Calculer de nouvelles variables de référence