MODULE 3.1 Flashcards
Statistiques descriptives
représenter de façon sommaire des données sous la forme de variables avec des échelles de mesure
Distribution de fréquence
Déf: nombre de fois que l’observation se trouve dans l’ensemble des données
fréq. absolue: nombre de fois que le score apparait dans une distribution de fréquences
=> diagramme en feuilles
=> histogramme
fréq. relative: pourcentage d’observation assoicées à ce score
=> %
=> % groupé
=> histogramme
Tableau de distribution de fréquence
- fréquence d’apparition
- valeur + basse et + élevée
- fréq. absolue
- fréq. relative
- fréq. cumulée
=> complet mais pas pratique avec beaucoup de participants
=> mieux pour petits éhantillons
Tableau de distribution de fréquence groupée
- données groupées en catégories
- stats de fréq. relative et absolues présentées pour les données groupées
=> concis et clair
=> moins précis
Histogramme
- graphique
- barre = fréq. pour une valeur
=> meilleure vue d’ensemble
=> moins précis (souvent valeurs groupées)
Diagramme à feuilles
- généré par programme informatique
- compromis entre tableau de fréq. et histogramme
- score divisé en 2 parties
- colonne tige = dizaines
- colonne feuille = unités (horizontales)
- colonne total = fréquence par dizaine
=> visuel
=> + précis que histogramme
Diagramme à boîte (ou boîte à moustache)
- distribution des scores sur une échelle: boîte + 2 moustaches
- rang centile 1 = donnée + basse
- rang centile 100 = donnée la + haute
- 50% des données dans la boîte et 50% au-dessus et en-dessous de la ligne médiane (RC50)
=> vue d’ensemble peu importe le nombre de données
Indicateur de tendance centrale
But: décrire distribution avec indices mathématiques (résumer en un seul nombre)
Moyenne
Addition des valeurs observées / nombre de participants
Mode
valeur la + fréquente
=>souvent utilisé avec d’autres mesures pour mesurer la tendance centrale
=> petit échantillon = pas de mode (valeurs uniques, pas de répétition)
Médiane
valeur au milieu de la distribution (50% des données de chaque côté)
placer les données en ordre croissant
=> N impair: i = (N+1)/2
=> N pair: i = N/2
Moyenne + utile que la médiane car elle utilise un max d’infos de toutes les observations vs la médiane qui ne considère que 1 ou 2 observations
MAIS
moyenne + sensible aux extrêmes
Mesures de dispersion
but: quantifier le taux de variabilité des données autour de la moyenne
=> données toutes proches de la moyenne
=> deux extrêmes + données réparties autour de la moyenne
Étendue
plus grande valeur - plus petite valeur
=> permet de donner un ordre de grandeur
Variance
indice de la variabilité (dispersion) autour de la moyenne
Écart-type
indice de variabilité autour de la moyenne
=> entre 3 écarts-types en dessous et au-dessus de la moyenne, on trouve 99% des scores
=> racine carrée de la variance
=> échelle plus facile à lire que la variance
Note: variance et écart-type son + souvent utilisés car elles utilisent toutes les valeurs de la distribution
Loi de la distribution normale
distribution de fréquence d’une variable symétriquement distribuée autour de la moyenne selon une courbe normale (forme de cloche)
=> + rectangle proche de la courbe normale , + certain
=> + au centre de la cloche = + proche de la moyenne
=> distribution théorique car courbe jamais parfaite en pratique (rectangles jamais sur courbe normale)
Score Z et distribution normale standardisée
But: comparer distributions de scores en utilisant une échelle unique (z)
Z= (valeur - moyenne) / écart-type
Quelle est la probabilité d’obtenir un score z situé entre 1,96 et -1,96