Cours 2 - Présentation des données Flashcards
Sous quelles forme peut-on illustrer les données?
- Tableau de contingence (ou de fréquence)
- Graphiques (histogramme)
Qu’est-ce qu’une série statistique simple?
Donner un exemple.
Une seule variable observée (mesurée) pour un ensemble d’éléments (l’échantillon)
Concentration plasmatique en cholestérol sur l’ensemble n de sujets
Qu’est-ce qu’une série statistique double-triple-etc?
On mesure de multiples variables sur chaque élément
Âge, sexe, genre du sujet, etc
Qu’est-ce qu’une série statistique double-triple-etc?
On mesure de multiples variables sur chaque élément
Âge, sexe, genre du sujet, etc
Qu’est-ce qu’un tableau de contingence?
Un tableau à plusieurs dimensions (variable)
Qu’est-ce qu’un tableau de contingence?
Un tableau à plusieurs dimensions (variable)
Qu’est-ce qu’un diagramme à bâtons?
C’est une diagramme pour des variables qualitatives ou semi-quantitatives ou les variables quantitatives discrètes (si nombre de classes est restreint). Permet de visualiser un jeu de données.
Quelles sont les étapes de construction d’un histogramme?
- Calcul du nombre de classes
- Calcul de l’intervalle de classe
- Identifier les bornes des classes
- Attribuer chacune des observations à une seule classe
- Compter combien d’observations sont présentes dans chaque classe
- Vérifier que la somme des fréquences absolues est égale à n
- Identifier la classe qui a le plus de valeurs pour déterminer la borne supérieure de l’axe des y (fréquence absolue)
- Dessiner la structure de l’histogramme avec l’axe des x et y
- Dessiner le bâton pour chacune des classes en fonctions de sa fréquence absolue
Comment calculer le nombre de classes pour construire un histogramme?
Règle de Sturges : Nb de classes = 1 + 3.3*log(n)
Règle de Yule : Nb de classes = 2.5*4racine(n)
On arrondit à l’entier supérieur dans les 2 cas.
Comment calculer l’intervalle des classes pour construire un histogramme?
h = étendue de variation / nb de classes
étendue de variation : max - min
Comment identifier les bornes pour construire un histogramme?
Il faut faire coïncider les bornes et indices de classes avec des nombres comportant peu de décimales (chiffres ronds).
Avec des variables quantitatives : histogramme
Qu’est-ce que la fréquence absolue ou l’effectif de classe?
Le nombre d’éléments appartenant à chaque classe
Qu’est-ce que la fréquence absolue ou l’effectif de classe?
Le nombre d’éléments appartenant à chaque classe
Que permet le diagramme à moustache?
D’illustrer des données quantitatives
Qu’est que le diagramme à moustache mets en lumière?
- Médiane
- Écart interquartile
- Étendue de variation
- Valeurs extrêmes
Que représente le premier quartile ?
25% des observations ont une valeur inférieure au 1er quartile
Que représente la médiane?
50% des observations ont une valeur supérieure à la médiane
Que représente le troisième quartile?
25% des observations ont une valeur supérieure au 3e quartile
Qu’est-ce que sont des séries statistiques doubles et que comprennent-elles?
Un ensemble d’éléments pour lesquels on a observé ou mesuré 2 variables.
1re variable : aléatoire
2e variable : aléatoire ou contrôlées
Donne des exemples de séries statistiques doubles
- Variable contrôlée est la dose d’hormone injectée et la variable aléatoire est le rythme cardiaque mesuré
- 2 variables aléatoires : nombre de colonies et couleurs de colonies
Dans une série de statistique double quel type de diagramme doit-on tracer lorsque les deux variables sont quantitatives?
Un diagramme de dispersion
Quels sont les 3 paramètres de positions faisant partie de paramètres d’une distribution ?
- Moyenne
- Médiane
- Mode
Que sont les paramètres de position?
Ce sont les valeurs centrales autour desquelles se groupent les valeurs observées
Que sont les paramètres de dispersion?
Renseignent quant à l’étalement de la distribution des valeurs autour des valeurs centrales
Quels sont les paramètres de dispersion (3) des paramètres d’une distribution?
- Variance
- Écart-type
- Coefficient de variation
Que représente 𝜇x?
La moyenne de la distribution théorique (population statistique) des éléments x
Pourquoi 𝜇x est elle une valeur moins réaliste a calculer?
Puisqu’elle comprend toute la population statistique, chose qui est irréaliste pour un scientifique ayant un budget serré
Que représente 𝑥 (barre en haut)?
La moyenne chez les échantillons.
Une formule est accordée pour un diagramme à bande et une autre chez échantillons.
Que représente Mex?
C’est le paramètre de position qui représente la médiane.
Valeur de l’observation qui se situe au centre de la série statistique classée en ordre croissant. La médiane sépare la série en deux groupes égaux.
Qu’arrive t-il si n est pair, comment identifier la médiane?
La médiane est entre les deux valeurs centrales, on en fait la moyenne par convention.
À quoi correspond Mox?
Valeur d’une variable ayant la plus grande fréquence.
Peut être poly modale s’il y a plusieurs classes non contigües
Quels indicateurs de positions sont-ils à privilégier lorsqu’on se retrouve face à une distribution symétriques?
Analyse par la moyenne.
Quels indicateurs de positions sont-ils à privilégier lorsqu’on se retrouve face à une distribution asymétriques?
Analyse par la médiane et le mode
Quelles sont les principales caractéristiques de la moyenne?
- facile à calculer
- l’indicateur le plus précis (pour distribution unimodale), car minimise la Somme des Carrés des Écarts SCEE
- très affectée par les valeurs extrêmes
Quelles sont les principales caractéristiques de la médiane?
- difficile à calculer (il faut trier les données) - plus précise que le mode
- moins affectée que la moyenne par les valeurs extrêmes (dans les cas d’asymétrie)
- contient moins d’information que la moyenne car basée seulement sur les rangs et non les valeurs
- ne requiert pas des mesures aussi précises que la moyenne
Quelles sont les principales caractéristiques du mode?
- difficile à calculer mais facile à identifier sur un graphique
- pas affecté par les valeurs extrêmes (indique bien la tendance centrale d’une distribution asymétrique) - convient bien dans les cas polymodaux et pour les variables qualitatives
Définir la variance?
Mesure la variabilité des valeurs autour de la moyenne
Quels sont les différents sigles pour différents jeux de données pour la variance?
Échantillon : s2x
Population statistique (entière) ou distribution théorique : 𝜎2
Écrire les différentes formules de la variance
Que représente le nombre de degrés de liberté?
La valeur (n - 1)
Permet d’éliminer le biais dû au fait qu’on doit utiliser les données x une première fis pour calculer la moyenne avant de calculer la variance,
Quelles sont les propriétés de la variance?
- Si tous les xi sontégaux, la variance est nulle.
- La variance augmente quand variabilité augmente.
Il faut au moins deux observations pour estimer la variance, sinon n – 1 est 0 et la valeur de la variance est indéterminée (division par 0!) - Unités de la variance sont celles de la variable au carré
Que représente l’écart type et quel est son sigle pour une population statistique et pour un échantillon?
C’est la racine carrée de la variance
Population statistique : 𝜎
Échantillon : sx
Que représente le coefficient de variation et quel est son sigle?
CV est une mesure de dispersion relative (%) qui permet de comparer la variation de variables exprimées dans des unités physiques ou des échelles différentes.
En quoi le coefficient de variation diffère de la variance et de l’écart type?
Le CV mesure une dispersion relative, tandis que les deux autres sont des mesures de variation absolue.
Écrire la formule de CV et expliquer pourquoi cette formule n’a de sens que pour les variables quantitatives à échelle relative à un vrai zéro.