Semaine 2 (description et exploration des données) Flashcards
Nommer l’avantage et le désavantage d’utiliser une distribution de fréquences.
Avantage : Permet de voir rapidement les données extrêmes.
Désavantage : Difficile de visualiser la forme générale de la distribution puisqu’il y a une fluctuation importante d’un point à l’autre.
Quelle est la solution à envisager afin de contrer le désavantage d’une distribution de fréquences (où il est difficile de visualiser la forme générale de la distribution en raison d’une trop grande fluctuation entre les points)?
Regrouper les valeurs adjacentes en un histogramme!
On regroupe certaines valeurs et on fait des intervalles sur l’axe des X
Quel est le désavantage d’un histogramme?
On ne voit plus les données réelles de la distribution (valeurs individuelles).
Quels sont les avantages d’un histogramme?
- Permet de voir la forme de la distribution (moins de trous)
- Permet de voir les données extrêmes
- Évite les fluctuations adjacentes (problème de la distribution de fréquences)
- On peut voir où se situe la plupart des gens.
Quelle représentation graphique peut-on utiliser comme alternatif à l’histogramme puisqu’elle permet d’observer les valeurs individuelles?
Le diagramme en tiges et feuilles.
Quels sont les avantages du diagramme en tiges et feuilles?
- Permet d’avoir données individuelles
- Permet de voir données extrêmes
- Permet de voir la forme de la distribution
- Permet de comparer des échantillons entre eux (2 distributions qu’on place dos à dos)
Vrai ou faux? La légende est facultative dans un diagramme en tiges et feuilles.
Faux. La légende est obligatoire! On doit toujours l’inclure sous le diagramme.
Dans le diagramme en tiges et feuilles, que représentent respectivement les tiges et les feuilles?
Tiges : le chiffre des dizaines (des données individuelles)
Feuilles : le chiffre des unités (des données individuelles)
Quelle représentation graphique de données est la plus informative?
Le diagramme en boîte-et-moustaches
Quelle représentation graphique de données est la plus utilisée en sciences humaines?
Le diagramme en boîte-et-moustaches
Dans le diagramme en boîte-et-moustaches, que représentent respectivement Q1, Q2 et Q3?
Q1 : Représente le premier quartile (25% des données se situent sous Q1)
Q2 : Représente la médiane
Q3 : Représente le troisième quartile (75% des données se situent sous Q3)
Dans le diagramme en boîte-et-moustaches, que représentent les moustaches?
Les moustaches représentent la valeur la plus haute (sans être extrême) et la valeur la plus basse (sans être extrême) de la distribution.
Vrai ou faux? Dans le diagramme en boîte-et-moustaches, la médiane est représentée par Q3.
Faux. La médiane correspond à Q2.
Vrai ou faux? Dans le diagramme en boîte-et-moustaches, les valeurs extrêmes ne sont pas représentées.
Faux. Il est vrai que les valeurs extrêmes ne sont pas pris en considération lorsqu’on détermine où se situent les moustaches et la boîte, mais les valeurs extrêmes sont tout de même représentées par un point sur le diagramme (avec un * ou un 1 en exposant pour indiquer qu’il s’agit d’une valeur extrême)
Dans le diagramme en boîte-et-moustaches, que représente la longueur des moustaches?
La longueur des moustaches rend compte de la variabilité qu’on retrouve dans la distribution.
Plus les moustaches sont longues, plus ça indique qu’il y a de variabilité dans notre distribution (données très dispersées autour de la moyenne).
Que peut-on conclure si, dans le diagramme en boîte-et-moustaches, l’une des moustache est longue et l’autre est courte?
On peut conclure qu’il y a une asymétrie.
Quels sont les 4 types de symétrie? Dessinez un exemple. pour chacun.
- Normale
- Bimodale
- Asymétrie négative
- Asymétrie positive
Quels sont les 3 types de degré de voussure? Dessinez un exemple pour chacun.
- Mésokurtique
- Leptokurtique
- Platikurtique
Que peut-on affirmer d’une courbe leptokurtique VS une courbe platikurtique?
Leptokurtique : grande ressemblance entre les données
Platikurtique : grande variabilité entre les données
Vrai ou faux? En notation statistique, une lettre minuscule représente une variable.
Faux. La variable est représentée par une lettre majuscule, tandis que l’unité d’observation (donnée) de cette variable est représentée par une lettre minuscule.
Vrai ou faux? Il ne faut pas prendre en compte les parenthèses lors des calculs de sommation.
Faux. Il faut tenir compte de la priorité des opérations en tout temps.
Vrai ou faux? L’ajout de plusieurs indices permet de préciser la donnée à laquelle on fait référence.
Vrai
Vrai ou faux? La notation statistique est la même, peu importe si on parle d’échantillon ou de population.
Faux.
Que représente le sigma majuscule (Σ)?
La sommation.
À quoi sert la mesure de tendance centrale?
C’est une mesure qui indique à quel endroit est centrée la distribution sur l’échelle de la variable.
Nommer et définir les 3 types de mesures de tendance centrale.
- Mode : résultat le plus fréquent
- Médiane : le point sur l’échelle où on retrouve 50% des cas en-dessous + 50% des cas au-dessus
- Moyenne : somme des données d’une distribution pondérée par le nombre de données
Quelle(s) mesure(s) de tendance centrale est(sont) influencée(s) par les données extrêmes?
Seule la moyenne est influencée par les données extrêmes.
Quels sont les 2 types de mode?
- Unimodale
2. Bimodale
Quelle mesure de tendance centrale est la plus proche de l’ensemble des données de la distribution?
La médiane
Vrai ou faux? Il est toujours nécessaire d’ordonner les données en ordre croissant pour trouver la médiane.
Vrai.
Quel calcul doit-on faire pour trouver la médiane?
(n + 1) / 2
Comment détermine-t-on le mode d’une distribution s’il y a 2 données qui ont la valeur la plus haute?
Si les valeurs sont adjacentes, le mode est égal à la moyenne de ces deux valeurs (unimodal).
Si les 2 valeurs ne sont pas adjacentes, il y a tout simplement 2 modes (bimodal).
Quelle mesure de tendance centrale a une valeur qui correspond toujours à un score enregistré?
Le mode.
** Sauf quand il y a 2 modes adjacents –> On doit alors faire la moyenne des deux pour trouver le mode. Ce résultat ne correspond alors pas à un score enregistré.
Quelle(s) mesure(s) de tendance centrale peut(peuvent) s’appliquer à des échelles nominales?
Le mode.
Quelle(s) mesure(s) de tendance centrale se prêt(ent) à des manipulations algébriques?
La moyenne.
Quelle(s) mesure(s) de tendance centrale est(sont) stable(s) d’un échantillon à l’autre?
La moyenne.
À quoi servent les indices de dispersion?
Ils permettent de savoir le degré de déviation des données individuelles par rapport à la tendance centrale.
Quels sont les 3 principaux indices de dispersion? Être capable de les définir.
- Étendue : distance entre la donnée la + élevée et la donnée la - élevée d’une distribution
- Variance : moyenne des carrés des écarts à la moyenne
- Écart-type :racine carrée de la variance - indique à quel point les données sont dispersées ou non autour de la moyenne
Vrai ou faux? L’étendue est calculée à partir des données extrêmes.
Vrai.
Vrai ou faux? La variance et l’écart-type se calculent de la même façon dans une population comme dans un échantillon.
Faux.
Vrai ou faux? On retrouve 68% des scores observés entre un écart-type sous la moyenne et un écart-type au-dessus de la moyenne.
Vrai.
Que peut-on conclure si la variabilité et l’écart-type sont élevés?
Plus ces indices de dispersion sont élevés, plus il y a de la variabilité dans la distribution.
À quoi sert le coefficient de variation? Comment le calcule-t-on?
Il permet de comparer la variabilité entre des échantillons dont les moyennes ou les échelles de mesure diffèrent.
(écart-type / moyenne) x 100
Qu’est-ce que l’écart-moyen absolu et pourquoi considère-t-on qu’il est peu utile?
C’est la moyenne des écarts en valeur absolue entre chaque donnée et la moyenne.
Il est peu utile, car il est difficilement manipulable algébriquement en raison des absolus.
Qu’est-ce que l’écart-moyen et pourquoi est-il inutile?
C’est la moyenne des écarts à la moyenne.
Il est inutile puisqu’il est toujours égal à 0.
Comment interprète-t-on le coefficient de variation?
Plus le coefficient de variation est élevé, plus cela indique que l’écart-type et la moyenne ont une valeur similaire et donc, que les observations varient beaucoup d’un individu à l’autre.
À l’inverse, plus un coefficient est faible, plus cela veut dire que l’ensemble des observations sont collées sur la moyenne.
Ainsi, nous ne voulons généralement pas un coefficient extrêmement petit ou extrêmement élevé.