Cours 5 Flashcards
Que permet l’inspection des données ?
*Étape cruciale de la recherche quantitative
- Permet de nous familiariser (mieux comprendre) avec les données en main
- Permet de vérifier la faisabilité/respect de critères de base
- Permet de déterminer le type d’analyse statistique adéquat
Quels sont les deux étapes à l’inspection des données: Variable qualitative (nominale, ordinale)
- Observation et déclaration des valeurs manquantes
- Inspection de la répartition des effectifs parmi les différentes catégories
Quels sont les 3 étapes à l’inspection des données: Variable quantitative (intervalle, continue)
- Observation et déclaration des valeurs manquantes
- Inspection de la normalité de la distribution
- Gestion des valeurs “extrêmes” si nécessaire
Quels sont les deux raisons qui peuvent faire en sorte d’avoir des données manquantes ?
**(1) De façon aléatoire **
- N’est pas attribuable aux caractéristiques du participant
*Les données manquantes ne sont pas de la “faute” du participant, découle du hasard…
- Questionnaire perdu, perte des coordonnées du participant, erreur de codage ou d’entrée de données, …
**(2)De façon non aléatoire **
- Attribuable aux caractéristiques du participant/biais de l’étude
*Les données manquantes sont de la “faute” du participant
- Ne sais pas lire ou écrire, décide de ne pas répondre à certaines questions, ne peux pas participer à l’étude car incarcéré/hospitalisé, …
Dans quel cas, est il utile d’utiliser les analyses statistiques ?
- Pour vérifier si les données manquantes sont de façon aléatoire et/ou
- Pour vérifier si moins de 5%-10% des données sont manquantes = moins problématique, car on tolère ce pourcentage de données manquantes
*Sinon, cela peut poser problème au niveau de la généralisation de lÉchantillon à la population
Quel sont les deux étapes de l’inspection des variables qualitatives ?
Étape 1 –Observation des données manquantes + identification de celles-ci
Étape 2 – Inspection de la répartition/distribution des effectifs
*Variable dichotomique ou catégorielle (nominale/ordinale)
- Évitez d’utiliser une variable pour laquelle seulement 10% ou - de l’échantillon se retrouve dans une des catégories
- Recoder pour éviter d’avoir des catégories avec moins de 10%
- Ce qui permet une puissance statistique – pour que le poids dans toutes les catégories soit semblable, pour ensuite faire nos comparaisons.
Exemple de récodage pour avoir un moins un seul de 10%, sinon manque de puissance statistique
- (0)= Vol de moins de voiture (70%); (1)=Vol de moins de moins de 5000$ (25%); (2)=Cambriolage (4%); (3)=Vol qualifié (1%)
- *Recoder en: (0) Vol de voiture (70%); (1) Autre crime contre les biens (30%)
Quels sont les deux étapes de l’inspection des variable quantitatives ?
Étape 1 – Identification des données manquantes
Étape 2 – Inspection de la normalité de la distribution ( vérifier si loi normale dans la distribution de l’histogramme)
Quels sont les caractéristiques de la Loi normale ?** (4)
- La courbe a la forme d’une cloche
- La courbe est symétrique par rapport à la droite verticale qui passe par la moyenne
- Le mode, la médiane et la moyenne ont la même valeur
- La distribution des données suit une règle empirique :
*Si ma variable est bien distribuée, la distribution va respecter 3 éléments
Quel sont les 3 éléments sont toujours présents dans la Loi normale ? *****
- Environ 68.3% des observations se situent à ± 1σ de la moyenne
- Environ 95.4% des observations se situent à ± 2 σ de la moyenne
- Environ 99.7% des observations se situent à ± 3 σ de la moyenne
σ = Écart-type pour une population
S = Écart-type pour un échantillon (É.-T.)
(connaître les % et ce qu’il représente): ex – le 68,3 % de mes répondant se trouve à 1 écart type dans le cadre d’une loi normale
Lorsque vous avez cette carte, référez-vous aux images de la distribution de la loi normal dans les notes
Tout ce qui se trouve à l’extérieur de nos écarts type de 3 (+ ou - ), ce sont des événements qui sont très peu probables = Valeurs extrêmes
Que permet la symétrie ?
La symétrie nous permets de déterminer si nos valeurs sont distribués normalement.
Les 2 éléments à considérer pour savoir si nos valeurs suivent une loi normale ou non: symétrie + asymétrie
Expliquer la Symétrie en lien avec la Loi normale
Symétrie : Lorsque notre mode, médiane et moyenne sont égales, cela signifie que notre distribution est normalement distribuée. (elle suit la loi normale)
Expliquer l’Asymétrie en lien avec la Loi normale ?
Asymétrie: L’important c’est d’observer le bas de notre courbe puisqu’on va dire que est asymétrique… lorsque :
- Négative : Le mode est plus grand que la médiane et la médiane est plus grand que la moyenne.
- ## Positif : mod est plus petit que la médiane, la médiane est plus petit que la moyenne.
Nommez et expliquer les 3 types de courbes de l’aplatissement
Ce sont tous des courbes qui suit la loi normale mais ont un aplatissement différent et s’interprète différemment
- Mésokurtique: suit la loi normale - les valeurs sont bien réparties
- Leptokurtique: valeurs très semblables entre elles
- Platikurtique : valeurs très variés entre elles
*Aller voir image cours 5 car doit etre en mesure d’interpréter un tableau SPSS les types de courbes
Qu’est ce que la mesure de la symétrie ?
- C’est un calcul seulement pour les variables quantitatives
*Le coefficient d’asymétrie utilisé pour vérifier si distribution (courbe) est +/- normale :
- On utilise le rapport entre l’asymétrie et l’erreur standard d’asymétrie (asy./ES de l’asy.)
- 0 lorsque la distribution est normale
- Valeur positive : asymétrie positive
- Valeur négative : asymétrie négative
Si asy./ES de l’asy. > ± 3.29 = Non-respect du postulat de normalité
Vrai ou faux: Si asy./ES de l’asy. > ± 3.29 = Non-respect du postulat de normalité
Vrai.
- Si on se trouve à plus de ± 3.29 ont ne respecte pas la loi normale.
- Donc, il est idéal d’être de -3.29 à 3.29 pour respecter la loi normale.
- Dans le cadre du travail, si notre rapport de symétrie dépasse ce postulat de normalité = peut être accepté et justifié comme nous travaillons en science humaine et que les données sont extrêmement variables. Tolère jusqu’à ± 50
- Plus ce ratio est élevé, plus notre échantillon est anormalement distribué
Expliquer la mesure de l’aplatissement (Kurtosis)
- Calcul seulement pour les variables quantitatives
- Coefficient d’aplatissement utilisé pour vérifier si distribution +/- normale
- On utilise le rapport entre l’aplatissement et l’erreur standard d’aplatissement (apl./ES de l’apl.)
- 0 lorsque la distribution est normale
- Valeur positive : distribution leptokurtique
- Valeur négative : distribution platikurtique
Si apl./ES de l’apl. > ± 3.29 = non-respect du postulat de normalité
Expliquer les valeurs extrêmes (Outliers) et normalité
- Plus l’échantillon est gros (n>200), moins le fait d’avoir une distribution ± normale est grave
- Dans le cas de variables quantitatives seulement
- Transformation (option à privilégier)
- Change la forme de la distribution pour se rapprocher d’une courbe normale
*À pour but de venir modifier le mode, la médiane et la moyenne de façon à ce qu’elle soit le plus similaire possible et donc atteindre une distribution qui rejoint la “normalité”. Pour s’y faire, nous devons compresser nos valeurs extrêmes qui nous mènera à obtenir une courbe plus normale.
- Éliminer les cas/valeurs extrêmes RECODA (autre option si la transformation ne fonctionne pas)
Pourquoi redécoder une variable ? ***
- Variable qualitative
- Limiter le nombre de catégories
- Suite à l’inspection de la réparation des répondants dans les diverses catégories (- de 10% d’effectifs)
**Pour savoir si la répartition des effectifs respecte le seuil de 10%= la variable qualitative est-elle bien répartie ?
- Mieux répondre à nos objectifs de recherche
- Transformer le format d’une variable en un autre format (p.ex, variable continue en variable dichotomique ou catégorielle)
Pourquoi transformer et éliminer des valeurs extrêmes ?
- Variable quantitatives
- Suite à l’inspection de la normalité de la distribution, si problématique