Cours 2 Flashcards
Nommer les 4 types de représentation graphique des données
- Distribution de fréquence
- Histogramme
- Diagramme en tiges et feuilles
- Diagramme en boîte-et-moustaches
Avantages et inconvénients de la distribution de fréquences
A:
- Permet de voir les données extrêmes
- Permet de connaître les données réelles obtenues pour ces variables
I:
- Difficile de trouver la forme de la distribution
- Beaucoup de valeurs sur l’échelle sur lesquelles il n’y a pas de données
Avantages et inconvénients de l’histogramme
A:
- Moins de trous retrouvés sur l’axe des x
- Permet de mieux voir la forme de la distribution
- Permet de voir les valeurs extrêmes
I:
- On ne voit plus les données réelles
Avantages et inconvénients du diagramme en tiges et feuilles
A:
- Permet de voir les valeurs réelles
- Présence de données extrêmes
- Permet de voir la forme de la distribution
- Permet de comparer deux distributions ensemble
I:
- Se fait seulement avec un nombre limité de données
Avantages et inconvénients du diagramme en boîte-et-moustaches
A
- Présence des valeurs extrêmes
- La plus informative
- Présence de la médiane
I:
- Nécessite un logiciel
Caractéristiques des distributions (2)
- Symétrie (skewness)
- Voussure (kurtosis)
Degrés de symétrie
- Normale (symétrique)
- Bimodale (2 cloches, pas nécessairement égales)
- Asymétrique négative :queue de la symétrie pointe vers la gauche
- Asymétrie positive: queue de la symétrie pointe vers la droite
Degrés de voussure
- Mésokurtique (normale)
- Lepotkurtique (mince et pointue): concentration très élevée au centre et peu de variation autour de la moyenne
- Platikurtique (aplati): grande variabilité
Notation statistique: majuscule vs minuscule
Majuscule: variable
Minuscule: unité d’observation de cette variable (indice sur la variable pour positionner dans la grille)
Qu’est-ce qu’une mesure de tendance centrale?
Mesure indiquant l’endroit où est centré la distribution sur l’échelle de la variable
3 types de mesure de tendance centrale
- mode
- médiane
- moyenne
Définition du mode
Résultat qui est le plus fréquent
A: non influencé par les données extrêmes
I: Peu représentatif de la distribution
*peut être unimodale ou bimodale (si bimodale et adjacent, faire la moyenne de ces deux valeurs)
Définition de la médiane
Point sur l’échelle des données ordonnées numériquement au-dessous duquel se situent 50% des cas
(n+1)/2
Propriétés de la médiane
- Pas affecté par les données extrêmes
- Somme des distances entre chaque score et la médiane, en valeur absolue, est toujours plus petite ou égale à la somme des distances en valeur absolue enter chaque score et tout autre score (excluant la médiane)
Définition de la moyenne
Somme des données d’une distribution pondérée par le nombre de données
Propriétés de la moyenne
- Somme de toutes les données est égale au nombre de données multiplié par la moyenne
- Somme des distances entre chaque score et la moyenne est égale à 0
- Addition d’une constante à chaque donnée de la distribution produit une nouvelle moyenne égale à la moyenne originale additionnée par cette constante
- Multiplication d’une constante à chaque donnée de la distribution produit une nouvelle moyenne égale à la moyenne originale multipliée par cette constante
- Moyenne est affectée par les données extrêmes
Indices de dispersion
- Étendue
- Variance
- Écart-type
Définition de l’étendue
Distance entre la donnée la plus élevée et la donnée la moins élevée d’une distribution
Propriétés
- Ignore presque toute la distribution
- Calculé à partir des données extrêmes
- Utilisé en complément à d’autres mesures
Définition de la variance
Moyenne des carrés des écarts à la moyenne
2 formules différentes pour la population et l’échantillon
Définition de l’écart type
Racine carrée de la variance
Définition du coefficient de variation
Indice de dispersion qui permet de comparer la variabilité entre des échantillons dont les moyennes ou les échelles de mesures diffèrent