Inspection et préparation des données Flashcards

1
Q

Pourquoi est-il pertinent d’inspecter ses données?

A

Car permet d’augmenter notre puissance statistique. Certaines variables sont plus «valides» ou plus «pertinentes». Si on ne respecte pas certains critères, on perd une certaine puissance statistique; quand on a une important disproportion dans nos variables, on diminue les points de contact/les possibilités de comparaison.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Comment inspecte-t-on les variables qualitatives (nominale/ordinale)?

A

1) Par l’observation et la déclaration des valeurs manquantes
2) par l’inspection de la répartition des effectifs parmi les différentes catégories

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Comment inspecte-t-on les variables quantitatives (intervalle/continue)?

A

1) Par l’inspection de la normalité de la distribution

2) par la déclaration des valeurs «extrêmes»

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Lorsqu’une donnée est manquante, quelles peuvent entre être les raisons?

A
  • Une donnée est déclarée manquante lorsqu’elle est absente ou «insatisfaisante».
    1) De façon aléatoire:
  • n’est pas attribuable aux caractéristiques du participant (n’est pas propre à l’individu ayant rempli le questionnaire, c’est plutôt un hasard)
  • ex. questionnaire perdu, erreur de codage (personne n’a fait exprès)
    2) De façon non aléatoire:
  • peut être ramené à une caractéristique propre de l’individu
  • ex. ne sait pas lire ou écrire, décide de ne pas répondre à certaines questions, etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Que doit-on faire si plus de 10% des données d’une variable ont été déclarées manquantes?

A

Il est préférable de ne pas utiliser cette variable, car peut poser problème sur le plan de la généralisation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelles sont les caractéristiques de la loi normale?

A
  1. La courbe a la forme d’une cloche
  2. La courbe est symétrique par rapport à la droite verticale qui passe par la moyenne
  3. Le mode, la médiane et la moyenne ont LA MÊME valeur
  4. La distribution des données suit une règle empirique
    * Plus on répond à la normalité, plus on a la possibilité de pouvoir faire de la prédiction.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce que la règle empirique de la distribution normale?

A
  • Environ 68,3 % des observations se situent à plus ou moins 1écart-type de la moyenne;
  • Environ 95,4 % des observations se situent à plus ou moins 2 écarts-types de la moyenne;
  • Environ 99,7 % des observations se situent à plus ou moins 3 écarts-types de la moyenne
  • Il est improbable qu’un évènement ait lieu HORS de la courbe normale (les 0,03% restants)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quels sont les types d’asymétrie?

A

Asymétrie négative:
- mode > médiane > moyenne
- la concentration des valeurs fortes est élevée
Asymétrie positive:
-mode < médiane < moyenne
- la concentration des valeurs faibles est élevés
*Le meilleur moyen de connaître l’asymétrie est de sortir l’histogramme sur SPSS

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quels sont les types d’aplatissement?

A

1) mésokurtique: courbe normale (cloche)
2) leptokurtique: courbe élancée
- haute concentration de cas qui prennent les valeurs égales ou proches de la moyenne
- peu de variation, distribution relativement homogène
3) platikurtique: courbe plate
- les cas s’éloignent de la moyenne
- forte variation: distribution relativement hétérogène
- la moyenne n’est donc pas vraiment représentative des résultats obtenus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qu’est-ce que le coefficient d’asymétrie?

A

(skewness/asymétrie)

  • il est utilisé pour vérifier si la distribution est plus ou moins normale
  • on utilise le rapport entre l’asymétrie et l’erreur standard d’asymétrie (asy./ES de l’asy.): 0 lorsque distribution normale; une valeur positive signifie une asymétrie positive et une valeur négative sygnifie une asymétrie négative
  • si n’est pas entre 3.29 et - 3.29: non respect du postulat de normalité (plus le ratio est élevé, plus notre échantillon est anormalement distribué)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qu’est-ce que le coefficient d’aplatissement?

A

(kurtosis)

  • il est utilisé pour vérifier si la distribution est plus ou moins normale
  • même principe que coefficient d’asymétrie (doit être entre -3.29 et 3.29)
  • différence: on effectue le calcul avec le rapport d’aplatissement et l’erreur standard d’aplatissement
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Pourquoi recoder une variable qualitative?

A
  • pour limiter le nombre de catégories
  • pour mieux répondre à nos objectifs de recherche
  • lorsqu’une catégorie inclut moins de 10% des participants
How well did you know this?
1
Not at all
2
3
4
5
Perfectly