Inspection et préparation des données Flashcards
Pourquoi est-il pertinent d’inspecter ses données?
Car permet d’augmenter notre puissance statistique. Certaines variables sont plus «valides» ou plus «pertinentes». Si on ne respecte pas certains critères, on perd une certaine puissance statistique; quand on a une important disproportion dans nos variables, on diminue les points de contact/les possibilités de comparaison.
Comment inspecte-t-on les variables qualitatives (nominale/ordinale)?
1) Par l’observation et la déclaration des valeurs manquantes
2) par l’inspection de la répartition des effectifs parmi les différentes catégories
Comment inspecte-t-on les variables quantitatives (intervalle/continue)?
1) Par l’inspection de la normalité de la distribution
2) par la déclaration des valeurs «extrêmes»
Lorsqu’une donnée est manquante, quelles peuvent entre être les raisons?
- Une donnée est déclarée manquante lorsqu’elle est absente ou «insatisfaisante».
1) De façon aléatoire: - n’est pas attribuable aux caractéristiques du participant (n’est pas propre à l’individu ayant rempli le questionnaire, c’est plutôt un hasard)
- ex. questionnaire perdu, erreur de codage (personne n’a fait exprès)
2) De façon non aléatoire: - peut être ramené à une caractéristique propre de l’individu
- ex. ne sait pas lire ou écrire, décide de ne pas répondre à certaines questions, etc.
Que doit-on faire si plus de 10% des données d’une variable ont été déclarées manquantes?
Il est préférable de ne pas utiliser cette variable, car peut poser problème sur le plan de la généralisation.
Quelles sont les caractéristiques de la loi normale?
- La courbe a la forme d’une cloche
- La courbe est symétrique par rapport à la droite verticale qui passe par la moyenne
- Le mode, la médiane et la moyenne ont LA MÊME valeur
- La distribution des données suit une règle empirique
* Plus on répond à la normalité, plus on a la possibilité de pouvoir faire de la prédiction.
Qu’est-ce que la règle empirique de la distribution normale?
- Environ 68,3 % des observations se situent à plus ou moins 1écart-type de la moyenne;
- Environ 95,4 % des observations se situent à plus ou moins 2 écarts-types de la moyenne;
- Environ 99,7 % des observations se situent à plus ou moins 3 écarts-types de la moyenne
- Il est improbable qu’un évènement ait lieu HORS de la courbe normale (les 0,03% restants)
Quels sont les types d’asymétrie?
Asymétrie négative:
- mode > médiane > moyenne
- la concentration des valeurs fortes est élevée
Asymétrie positive:
-mode < médiane < moyenne
- la concentration des valeurs faibles est élevés
*Le meilleur moyen de connaître l’asymétrie est de sortir l’histogramme sur SPSS
Quels sont les types d’aplatissement?
1) mésokurtique: courbe normale (cloche)
2) leptokurtique: courbe élancée
- haute concentration de cas qui prennent les valeurs égales ou proches de la moyenne
- peu de variation, distribution relativement homogène
3) platikurtique: courbe plate
- les cas s’éloignent de la moyenne
- forte variation: distribution relativement hétérogène
- la moyenne n’est donc pas vraiment représentative des résultats obtenus
Qu’est-ce que le coefficient d’asymétrie?
(skewness/asymétrie)
- il est utilisé pour vérifier si la distribution est plus ou moins normale
- on utilise le rapport entre l’asymétrie et l’erreur standard d’asymétrie (asy./ES de l’asy.): 0 lorsque distribution normale; une valeur positive signifie une asymétrie positive et une valeur négative sygnifie une asymétrie négative
- si n’est pas entre 3.29 et - 3.29: non respect du postulat de normalité (plus le ratio est élevé, plus notre échantillon est anormalement distribué)
Qu’est-ce que le coefficient d’aplatissement?
(kurtosis)
- il est utilisé pour vérifier si la distribution est plus ou moins normale
- même principe que coefficient d’asymétrie (doit être entre -3.29 et 3.29)
- différence: on effectue le calcul avec le rapport d’aplatissement et l’erreur standard d’aplatissement
Pourquoi recoder une variable qualitative?
- pour limiter le nombre de catégories
- pour mieux répondre à nos objectifs de recherche
- lorsqu’une catégorie inclut moins de 10% des participants