Cours 5 Flashcards
Qu’est-ce qu’est l’inspection des données?
C’est l’étape cruciale de la recherche quantitative
- Elle permet de savoir quelle donnée il faut recoder;
- Elle permet d’augmenter la puissance statistique.
Quelles sont les 2 étapes de l’inspection des données dans le cas d’une variable qualitative (nominale, ordinale) ?
- Faire l’observation et la déclaration des valeurs manquantes;
- Faire l’inspection de la répartition des effectifs parmi les différentes catégories.
Quelles sont les 2 étapes de l’inspection des données dans le cas d’une variable quantitative (intervalle, continue/de rapport) ?
- Faire l’inspection de la normalité de la distribution;
- Faire la gestion des valeurs «extrêmes» si nécessaire.
Quels sont les 2 types de données manquantes?
Les données manquantes…
- De façon aléatoire
- De façon non aléatoire
Qu’est-ce qui caractérise les données manquantes de façon aléatoire?
Les données sont manquantes par hasard:
- Ce n’est pas attribuable aux caractéristiques du participant:
- Questionnaire perdu, perte des coordonnées du participant, erreur de codage ou d’entrée de données, …
- Les données manquantes ne sont pas attribuées aux participants.
Qu’est-ce qui caractérise les données manquantes de façon non aléatoire?
Le fait que les données soient manquantes est attribuable aux caractéristiques du participant/biais de l’étude:
- Ça peut être parce que le participant ne sais pas lire ou écrire, décide de ne pas répondre à certaines questions, ne peut pas participer à l’étude car incarcéré/hospitalisé…
- On va les déclarer manquantes pour une raison et non de façon aléatoire.
Comment savoir si les données manquantes sont aléatoires ou non aléatoires?
C’est souvent difficile à savoir, pour vérifier on va avoir recours à des analyses statistiques:
- Si les données sont manquantes de façon aléatoire et/ou que moins de 5-10% des données sont manquantes = moins problématique;
- Sinon, peut poser problème au niveau de la généralisation:
- Lorsqu’on a plus de 10% de données manquantes = peut être problématique.
Plus précisément, en quoi consiste les 2 étapes de l’inspection des données manquantes dans le cas des variables qualitatives ?
1-Observation et identification des données manquantes:
- Tant et aussi longtemps qu’on n’a pas déclaré les NSP comme étant des données manquantes, elles vont apparaître dans notre tableau et vont continuer d’être considérées.
2-Inspection de la répartition/distribution des effectifs:
- Variable dichotomique:
- Éviter d’utiliser une variable pour laquelle seulement 10% ou – de l’échantillon se retrouve dans une des deux catégories
- Ex: (0) = homme (97%); (1) = Femme (3%)
- Variable catégorielle (nominale/ordinale):
- Recoder pour éviter d’avoir des catégories avec moins de 10%.
- Ex: (0)=caucasien (70%); (1)=Africain Américain (25%); (2)=Hispanique (4%); (3)=Autochtone (1%).
- Recoder en: (0) Caucasien; (1) Autre
Quelles sont les 4 caractéristiques de la loi normale?
- La courbe a la forme d’une cloche;
- La courbe est symétrique par rapport à la droite verticale qui passe par la moyenne;
- Le mode, la médiane et la moyenne ont la même valeur;
- La distribution des données suit une règle empirique.
En quoi consiste la caractéristique de la loi normale selon laquelle la distribution des données suit une règle empirique?
- La distribution des données suit une règle empirique
- Environ 68,3% des observations se situent à ± 1 𝜎 de la moyenne;
- Environ 95,4% des observation se situent à ± 2 𝜎 de la moyenne;
- Environ 99,7% des observations se situent à ± 3 𝜎 de la moyenne;
𝜎 = écart-type pour une population
S = Écart-type pour un échantillon
Dans le cas d’une distribution normale, que va-t-on considérer pour déterminer la probabilité d’un événement?
On va considérer jusqu’à 3 𝜎 que les données sont dans l’ordre du probable.
À quoi réfère une distribution symétrique?
Symétrie
- Mode = Médiane = Moyenne
À quoi réfère une distribution asymétrique négative?
Asymétrie négative: mode > médiane > moyenne
- Il y a une concentration des valeurs fortes/élevées (on a beaucoup d’individus qui ont répondu une valeur élevée).
À quoi réfère une distribution asymétrique positive?
Asymétrie positive: mode < médiane < moyenne
- Il y a une concentration des valeurs faibles/peu élevées (on a beaucoup d’individus qui ont répondu une valeur faible).
En ce qui concerne l’aplatissement des distributions, qu’est-ce qu’est une distribution mésokurtique?
Cette distribution prend la forme d’une courbe normale (c’est la même chose que symétrique et qu’une cloche).