cours 2 Flashcards
présentation des données
vrai ou faux
L’étendue des données collectées est souvent trop grande pour en déduire les
caractéristiques ou les tendances globales par un examen visuel rapide.
vrai
but du cours 2
étudier comment à partir de tableaux et de graphiques on peut:
* Résumer les principales caractéristiques de la distribution des données;
* Comparer la composition, la moyenne, la variabilité de plusieurs groupes;
* Mettre en évidence des relations entre variables;
* Détecter des valeurs exceptionnelles ou aberrantes;
* Estimer des probabilités d’évènements;
* Détecter les lois qui régissent le phénomène à l’étude
série statistique simple
une seule variable observée (mesurée) pour un
ensemble d’éléments (l’échantillon).
série statistique douple/triple/etc
on observe alors deux, trois, ou de multiples variables sur chaque élément
qu’arrive t-il si la variable est quantitative ou semi-quantitative
chaque niveau (catégorie)
représente une classe d’observations. On dénombre alors les éléments de chaque
classe, puis on peut les représenter sous forme de tableau de contingence ou de
diagramme en bâtons
outils de visualisation
tableau de contigence
diagramme en bâton
histogramme
diagramme en moustache
tableau de contigence
Il est possible de faire des tableaux à plusieurs dimensions, simplement en ajoutant des variables
on peut créer le tableau avec la fonction table()
diagramme en bâton
Pour les variables qualitatives ou semi-quantitatives.
Peut aussi être utilisé pour les variables quantitatives discrètes (si le nombre de classes est restreint)
Par contre, pour tout graphique, il faut prendre l’habitude de
fournir un titre et des noms d’axes
étapes de construction d’un histogramme
- Calcul du nombre de classes
- Calcul de l’intervalle de classe
- Identifier les bornes des classes
- Attribuer chacune des observations à une seule classe
- Compter combien d’observations sont présentes dans chaque
classe - Vérifier que la somme des fréquences absolues est bien égale
à n (nombre d’observations) - Identifier la classe qui a le plus de valeurs pour déterminer la
borne supérieure de l’axe des y (fréquence absolue) - Dessiner la structure de l’histogramme avec l’axe des x et y
- Dessiner le bâton pour chacune des classes en fonctions de
sa fréquence absolue
- Calcul du nombre de classes
Pour les variables quantitatives continues, ou les variables
discrètes qui ont trop de classes, il faut diviser la plage de variation en classes et assigner chaque élément à une de ces classes.
règle de Sturges
Nb de classes = 1 + 3.3*log10n
règle de Yule
Nb de classes = 2.54racine carré de n
comment identifier l’intervalle de classe
h = étendue de variation / nb de classes
étendue de variation
max – min
par quoi est définie une classe
par sa borne inférieure et sa borne supérieure
borne inférieure de la première classe
devrait coïncider environ avec le min des données.
bornes inférieures des autres classes
déterminées par additions
successives de h.
indices de classe
valeurs centrales des classes (si l’intervalle de
classe est 1, les indices seront 0.5, 1.5, 2.5, etc.
- Identifier les bornes
Il faut faire coïncider les bornes et indices de classes avec des nombres
comportant peu de décimales (des chiffres “ronds”).
Il est rare qu’il soit justifié d’avoir des classes inégales.
Les classes ne doivent jamais se chevaucher.
fréquence absolue ou effectif de la classe
Le nombre d’éléments appartenant à chaque classe
diagramme à moustache
Autre façon très utilisée d’illustrer des données quantitatives.
Illustre la médiane, l’écart interquartile, l’étendue de variation, et les valeurs extrêmes
écart interquartile
intervalle entre 1er et 3e quartile (qui comprend donc 50% des observations)
série statistique double
Correspond à un ensemble d’éléments pour lesquels on a observé/mesuré deux
variables
Pour avoir une série statistique, il faut au moins une variable aléatoire.
La seconde variable peut être aléatoire ou contrôlée
pour représenter les séries statistiques doubles graphiquement
Si on a une variable quantitative et une variable qualitative ou semi-quantitative: série d’histogrammes ou de diagramme en bâtons, ou de diagrammes à moustache
Si les deux variables sont quantitatives, on devrait tracer un diagramme de
dispersion.
unité des graphiques
Le but est de transmettre
rapidement l’information
contenue dans les données.
Le graphique le plus simple
est souvent le plus clair.
Les graphiques devraient
éviter toute ambiguïté dans
l’interprétation.
Éviter les petites polices, et
les contrastes de couleurs
qui ne sont pas détectés
par les personnes
daltoniennes
paramètres de position
valeurs centrales autour desquelles se groupent les
valeurs observes
* Moyenne
* Médiane
* Mode
paramètres de dispersion
renseignent quant à l’étalement de la distribution des
valeurs autour des valeurs centrales.
* Variance
* Écart-type
* Coefficient de variation
moyenne (𝜇x )
moyenne de la distribution théorique (population statistique) des éléments x
Pour les variables quantitatives continues, la moyenne arithmétique calculée sur
les données brutes est toujours plus précise
médiane
Mex = valeur de l’observation qui se situe au centre de la série statistique classée en
ordre croissant. La médiane sépare la série en deux groupes égaux
Si n est pair, la médiane est entre les deux valeurs centrales.
Par convention, on en fait la moyenne
mode
Mox = valeur d’une variable ayant la plus grande fréquence
Pour une variable quantitative on divise en classes
distribution polymodale
s’il y a plusieurs classes non contigües dont la
fréquence est nettement plus élevée que celles des autres classes
caractéristiques de la moyenne
- facile àcalculer
- l’indicateur le plus précis (pour distribution unimodale), car minimise la Somme des Carrés des Écarts SCEE
- très affectée par les valeurs extrêmes
caractéristiques de la médiane
- difficile à calculer (il faut trier les données)
- plus précise que le mode
- moins affectée que la moyenne par les valeurs extrêmes (dans les cas d’asymétrie)
- contient moins d’information que la moyenne car basée seulement sur les rangs et non les valeurs
- ne requiert pas des mesures aussi précises que la moyenne
caractéristiques de la mode
difficile à calculer mais facile à identifier sur un graphique
- pas affecté par les valeurs extrêmes (indique bien la tendance centrale d’une distribution asymétrique)
- convient bien dans les cas polymodaux et pour les variables qualitatives
variance
s2x pour un échantillon
𝜎2 (sigma au carré) pour une population entière (statistique) ou distribution théorique
Mesure la variabilité des valeurs autour de la Moyenne
nombre de degré de liberté
n-1
pourquoi soustraire 1 dans le nombre de degré de liberté
On soustrait 1 pour éliminer le biais dû au fait qu’on doit utiliser les données x une
première fois pour calculer la moyenne avant de calculer la variance.
Sans cette correction, la variance serait toujours sous-estimée (donc biaisée).
quand est ce qu’un estimateur statistique est non biaisé
si la moyenne des valeurs de
cet estimateur pour tous les sous-ensembles possibles de taille n est égale à la
valeur de l’estimateur pour toute la population.
vrai ou faux
La variance augmente quand variabilité augmente
vrai
écart type
Symboles: 𝜎 pour une pop ou distribution théorique
sx pour un échantillon
C’est simplement la racine carrée de la variance