Cours 5 Flashcards
Qu’est-ce qu’est l’inspection des données?
C’est l’étape cruciale de la recherche quantitative
- Elle permet de savoir quelle donnée il faut recoder;
- Elle permet d’augmenter la puissance statistique.
Quelles sont les 2 étapes de l’inspection des données dans le cas d’une variable qualitative (nominale, ordinale) ?
- Faire l’observation et la déclaration des valeurs manquantes;
- Faire l’inspection de la répartition des effectifs parmi les différentes catégories.
Quelles sont les 2 étapes de l’inspection des données dans le cas d’une variable quantitative (intervalle, continue/de rapport) ?
- Faire l’inspection de la normalité de la distribution;
- Faire la gestion des valeurs «extrêmes» si nécessaire.
Quels sont les 2 types de données manquantes?
Les données manquantes…
- De façon aléatoire
- De façon non aléatoire
Qu’est-ce qui caractérise les données manquantes de façon aléatoire?
Les données sont manquantes par hasard:
- Ce n’est pas attribuable aux caractéristiques du participant:
- Questionnaire perdu, perte des coordonnées du participant, erreur de codage ou d’entrée de données, …
- Les données manquantes ne sont pas attribuées aux participants.
Qu’est-ce qui caractérise les données manquantes de façon non aléatoire?
Le fait que les données soient manquantes est attribuable aux caractéristiques du participant/biais de l’étude:
- Ça peut être parce que le participant ne sais pas lire ou écrire, décide de ne pas répondre à certaines questions, ne peut pas participer à l’étude car incarcéré/hospitalisé…
- On va les déclarer manquantes pour une raison et non de façon aléatoire.
Comment savoir si les données manquantes sont aléatoires ou non aléatoires?
C’est souvent difficile à savoir, pour vérifier on va avoir recours à des analyses statistiques:
- Si les données sont manquantes de façon aléatoire et/ou que moins de 5-10% des données sont manquantes = moins problématique;
- Sinon, peut poser problème au niveau de la généralisation:
- Lorsqu’on a plus de 10% de données manquantes = peut être problématique.
Plus précisément, en quoi consiste les 2 étapes de l’inspection des données manquantes dans le cas des variables qualitatives ?
1-Observation et identification des données manquantes:
- Tant et aussi longtemps qu’on n’a pas déclaré les NSP comme étant des données manquantes, elles vont apparaître dans notre tableau et vont continuer d’être considérées.
2-Inspection de la répartition/distribution des effectifs:
- Variable dichotomique:
- Éviter d’utiliser une variable pour laquelle seulement 10% ou – de l’échantillon se retrouve dans une des deux catégories
- Ex: (0) = homme (97%); (1) = Femme (3%)
- Variable catégorielle (nominale/ordinale):
- Recoder pour éviter d’avoir des catégories avec moins de 10%.
- Ex: (0)=caucasien (70%); (1)=Africain Américain (25%); (2)=Hispanique (4%); (3)=Autochtone (1%).
- Recoder en: (0) Caucasien; (1) Autre
Quelles sont les 4 caractéristiques de la loi normale?
- La courbe a la forme d’une cloche;
- La courbe est symétrique par rapport à la droite verticale qui passe par la moyenne;
- Le mode, la médiane et la moyenne ont la même valeur;
- La distribution des données suit une règle empirique.

En quoi consiste la caractéristique de la loi normale selon laquelle la distribution des données suit une règle empirique?
- La distribution des données suit une règle empirique
- Environ 68,3% des observations se situent à ± 1 𝜎 de la moyenne;
- Environ 95,4% des observation se situent à ± 2 𝜎 de la moyenne;
- Environ 99,7% des observations se situent à ± 3 𝜎 de la moyenne;
𝜎 = écart-type pour une population
S = Écart-type pour un échantillon

Dans le cas d’une distribution normale, que va-t-on considérer pour déterminer la probabilité d’un événement?
On va considérer jusqu’à 3 𝜎 que les données sont dans l’ordre du probable.

À quoi réfère une distribution symétrique?
Symétrie
- Mode = Médiane = Moyenne

À quoi réfère une distribution asymétrique négative?
Asymétrie négative: mode > médiane > moyenne
- Il y a une concentration des valeurs fortes/élevées (on a beaucoup d’individus qui ont répondu une valeur élevée).

À quoi réfère une distribution asymétrique positive?
Asymétrie positive: mode < médiane < moyenne
- Il y a une concentration des valeurs faibles/peu élevées (on a beaucoup d’individus qui ont répondu une valeur faible).

En ce qui concerne l’aplatissement des distributions, qu’est-ce qu’est une distribution mésokurtique?
Cette distribution prend la forme d’une courbe normale (c’est la même chose que symétrique et qu’une cloche).

En ce qui concerne l’aplatissement des distributions, qu’est-ce qu’est une distribution leptokurtique?
Cette distribution prend la forme d’une courbe élancée (haute et mince).
- Elle représente une haute concentration de cas qui prennent les valeurs égales ou proches de la moyenne.
- Il y a peu de variation au sein des valeurs, donc la distribution est relativement homogène.

En ce qui concerne l’aplatissement des distributions, qu’est-ce qu’est une distribution platikurtique?
Cette distribution prend la forme d’une courbe plate (basse et aplatie).
- Les cas s’éloignent de la moyenne.
- Il y a une forte variation parmi les valeurs, donc la distribution est relativement hétérogène.

Comment faire pour mesurer la symétrie d’une distribution?
Le coefficient d’asymétrie (Skewness) est utilisé pour vérifier si la distribution est +/- normale:
- On utilise le rapport entre l’asymétrie et l’erreur standard d’asymétrie (asy./ES de l’asy.)
- 0 lorsque la distribution est normale
- Valeur positive: asymétrie positive
- Valeur négative: asymétrie négative
- Si asy./ES de l’asy. > ± 3.29 = Non-respect du postulat de normalité
- Plus ce ratio est élevé, plus notre échantillon est anormalement distribué
**Attention: si on transforme une variable quantitative en une variable qualitative, on n’a plus besoin de l’asymétrie.
Comment faire pour mesurer l’aplatissement d’une distribution?
Le coefficient d’aplatissement (Kurtosis) est utilisé pour vérifier si la distribution est +/- normale.
- On utilise le rapport entre l’aplatissement et l’erreur standard d’aplatissement (apl./ES de l’apl.):
- 0 lorsque la distribution est normale
- Valeur positive: distribution leptokurtique
- Valeur négative: distribution platikurtique
- Si apl./ES de l’apl. > ± 3.29 = non-respect du postulat de normalité.
Que faut-il savoir concernant les valeurs extrêmes (outliers) et la normalité?
- Plus l’échantillon est gros (n>200), moins le fait d’avoir une distribution ± normale est grave;
- Dans le cas de variables quantitatives seulement:
- Transformation (option à privilégier):
- On va changer la forme de la distribution pour se rapprocher d’une courbe normale.
- Éliminer les cas/valeurs extrêmes (option de dernier recours).
- Transformation (option à privilégier):
Quelles sont les 3 raisons pour lesquelles on voudrait recoder une variable qualitative?
On voudrait recoder une variable qualitative pour…
- Limiter le nombre de catégories;
- Suite à l’inspection de la répartition des répondants dans les diverses catégories (- de 10% d’effectifs);
- Mieux répondre à nos objectifs de recherche:
- Si le recodage de variables est nécessaire pour les rendre plus pertinentes pour la recherche.
Dans le cas de variables quantitatives, pourquoi voudrait-on faire la transformation et l’élimination de valeurs extrêmes?
On va procéder à la transformation et à l’élimination de valeurs extrêmes seulement si, suite à l’inspection de la normalité de la distribution, ces valeurs se sont avérées problématiques.
Nommez une méthode de normalisation d’une distribution.
Le logarithme