Cours 2 Flashcards
Statistique descriptive
Ensemble de techniques numériques et graphiques qui permettent de résumer et visualiser les donnéesq
Distribution de données
Catégories avec valeurs les plus élevées est en haut;
Intervalles continus (étendue/nombre de catégories voulues);
Pas de données dans deux catégories
Limite réelle
Trois approches des données extrêmes
Vérifier s’il y a une erreur
Les exclure ou utiliser des indices qui minimisent les biais
que celles-ci pourraient causer
Les inclure dans les analyses et les étudier davantage
Distribution relative des données
fréquence relative = f/ftotal(n)
utile si on veut comparer deux échantillons de tailles différentes
Distribution cumulative des données
additionner à chaque catégorie la somme
de chaque catégorie en dessous
fréquences cumulatives ne font de sens avec des données qualitatives car les données ne peuvent pas être ordonnées en ordre de magnitude*
Rang centile
proportion ou le
pourcentage des mesures dans la distribution qui ont une
valeur égale ou inférieure à celle-ci;
correspond au pourcentage cumulatif si distribution simple
rang centile de X = pourcentage cumulatif inférieur à X +
0,5*pourcentage à X
Histogramme (quantitatives)
X = catégories; Y = fréquences; Désavantage : nombre de barres peut changer l’interprétation des données
Polygone de fréquences (quantitatives)
Permet de comparer deux échantillons différents
et de mieux visualiser la forme de la distribution
Aussi tige et feuilles
Effet plafond (asymétrie negative) v. effet plancher (asymétrie positive)
observé dans une distribution lorsque la variable
ne peut plus être mesurée en haut d’un certain niveau v.
observé dans une distribution lorsque la variable
ne peut plus être mesurée en dessous d’un certain niveau.
Aplatissement
Propriété relevant de la dispersion (proportion de données extremes) Leptocurtique (+, pic) Mésocurtique (0); Platycurtique -> Plus l’aplatissement est positif, meilleure est la moyenne comme estimé de la distribution, et viceversa
Médiane (tendance centrale)
valeur centrale lorsque les données sont ordonnées du
plus petit au plus grand;
si n est impair, la rang de la médiane = (n+1)/2
si ne est pair, (n/2)
Asymétrie positive v. asymétrie négative
Mode < Médiane < Moyenne
Moyenne < Médiane < Mode
*symétrique : moyenne = médiane
Forces et faiblesses du mode
Pas sensible aux données extremes, interprétation facile, données bimodales
v. possiblement pas unique, peut varier selon la taille des intervalles
+ effectif avec données nominales/ordinales
Forces et faiblesses de la médiane
F : interprétation facile, insensible aux données extrêmes
Fa : difficile d’étudier ses propriétés statistiques
Forces et faiblesses de la moyenne
F : bon estimateur de la moyenne de la pop (x avec une barre), bonnes propriétés statistiques (minimise l’erreur)
Fa : sensible aux données extrêmes, pas bon pour distribution asymétrique/multimodales, pas approprié aux données nominales/ordinales