Inspection et préparation des données Flashcards
Caractéristique de l’inspection des données? (2)
- Étape cruciale de la recherche quantitative
2. Permet d’augmenter la puissance statistique
Quant à l’inspection des données, quelles sont les différences entre les variables quantitative et qualitative?
- Variable qualitative (nominale, ordinale)
a. Observation et déclaration des valeurs manquantes
b. Inspection de la répartition des effectifs parmi les différentes catégories - Variable quantitative (intervalle, continue)
a. Inspection de la normalité de la distribution
b. Gestion des valeurs « extrêmes » si nécessaire
Quels sont les deux types de données manquantes? (2)
- De façon aléatoire
a. Pas attribuables aux caractéristiques du participants (questionnaire perdu…) - De façon non aléatoire
a. Attribuable aux caractéristiques du participants ou biais de l’étude (analphabète, pas répondu à certaines questions…)
Pour les variables qualitatives, comment inspectons nous les données manquantes?
b. Inspection de la répartition
i. Variable dichotomique utilisé variable 10%+ de l’échantillon
ii. Variable catégorielle recodage pour catégorie +10% (« autre »)
Pour les variables quantitatives, comment inspectons nous les données manquantes?
Inspection de la normalité de la distribution
Quelles sont les caractéristiques de la loi normale? (4)
i. Courbe a la forme d’une cloche
ii. Courbe symétrique p/r à la droite verticale qui passe par la moyenne
iii. Mode, médiane et moyenne ont la même valeur
iv. Distribution des données suit une règle empirique (jusqu’à 3 S = probable)
Qu’est-ce que la symétrie?
a. Mode = médiane = moyenne
Quels sont les deux types d’asymétrie?
a. Négative mode > médiane > moyenne
i. Concentre valeurs fortes/élevés (petit bout à gauche)
b. Positive mode < médiane < moyenne
i. Concentre valeurs faibles/peu élevés (petit bout à droite)
Quels sont les types d’aplatissement? (3)
a. Mésokurtique = courbe normale
b. Leptokurtique = courbe élancée
i. Haute concentration de cas avec valeurs égales ou proche de moyenne
ii. Peu de variation ; distribution homogène
c. Platikurtique = courbe plate
i. Les cas s’éloignent de la moyenne
ii. Forte variation ; distribution hétérogène
Comment mesurer la symétrie? (3)
a. Coefficient d’asymétrie utilisé pour vérifier si distribution est +/- normale
b. Utilise le rapport entre asymétrie et l’erreur standard d’asymétrie
i. 0 = distribution normale
ii. Valeur positive = asymétrie positive
iii. Valeur négative = asymétrie négative
c. Si = +/- 3.29 non-respect postulat de normalité (+ élevé = anormalement distribué)
Comment mesurer l’aplatissement? (3)
a. Coefficient d’asymétrie utilisé pour vérifier si distribution est +/- normale
b. Utilise rapport entre l’aplatissement et l’erreur standard d’asymétrie
i. 0 = distribution normale
ii. Valeur positive = leptokurtique
iii. Valeur négative = platikurtique
c. Si = +/- 3.29 non-respect postulat de normalité (+ élevé = anormalement distribué)
Dans le cas des variables quantitatives pour les valeurs extrêmes, que pouvons-nous faire? (2)
a. Transformation (option à privilégier) change forme distribution pour rapprocher courbe normale
b. Éliminer les cas=valeurs extrêmes (option de dernier recours)
Pourquoi recoder une variable qualitative? (3)
i. Limiter le nombre de catégorie
ii. Suite à l’inspection de la répartition des répondants dans les catégories
iii. Mieux répondre à nos objectifs de recherche
Quelle est la méthode de normalisation d’une distribution?
Logarithme
lorsque c’est monétaire, pour normaliser la courbe