Semaine 2 (description et exploration des données) Flashcards by Catherine Savard

Nommer l’avantage et le désavantage d’utiliser une distribution de fréquences.

Avantage : Permet de voir rapidement les données extrêmes.

Désavantage : Difficile de visualiser la forme générale de la distribution puisqu’il y a une fluctuation importante d’un point à l’autre.

How well did you know this?

Not at all

Perfectly

Quelle est la solution à envisager afin de contrer le désavantage d’une distribution de fréquences (où il est difficile de visualiser la forme générale de la distribution en raison d’une trop grande fluctuation entre les points)?

Regrouper les valeurs adjacentes en un histogramme!

On regroupe certaines valeurs et on fait des intervalles sur l’axe des X

How well did you know this?

Not at all

Perfectly

Quel est le désavantage d’un histogramme?

On ne voit plus les données réelles de la distribution (valeurs individuelles).

How well did you know this?

Not at all

Perfectly

Quels sont les avantages d’un histogramme?

Permet de voir la forme de la distribution (moins de trous)
Permet de voir les données extrêmes
Évite les fluctuations adjacentes (problème de la distribution de fréquences)
On peut voir où se situe la plupart des gens.

How well did you know this?

Not at all

Perfectly

Quelle représentation graphique peut-on utiliser comme alternatif à l’histogramme puisqu’elle permet d’observer les valeurs individuelles?

Le diagramme en tiges et feuilles.

How well did you know this?

Not at all

Perfectly

Quels sont les avantages du diagramme en tiges et feuilles?

Permet d’avoir données individuelles
Permet de voir données extrêmes
Permet de voir la forme de la distribution
Permet de comparer des échantillons entre eux (2 distributions qu’on place dos à dos)

How well did you know this?

Not at all

Perfectly

Vrai ou faux? La légende est facultative dans un diagramme en tiges et feuilles.

Faux. La légende est obligatoire! On doit toujours l’inclure sous le diagramme.

How well did you know this?

Not at all

Perfectly

Dans le diagramme en tiges et feuilles, que représentent respectivement les tiges et les feuilles?

Tiges : le chiffre des dizaines (des données individuelles)

Feuilles : le chiffre des unités (des données individuelles)

How well did you know this?

Not at all

Perfectly

Quelle représentation graphique de données est la plus informative?

Le diagramme en boîte-et-moustaches

How well did you know this?

Not at all

Perfectly

Quelle représentation graphique de données est la plus utilisée en sciences humaines?

Le diagramme en boîte-et-moustaches

How well did you know this?

Not at all

Perfectly

Dans le diagramme en boîte-et-moustaches, que représentent respectivement Q1, Q2 et Q3?

Q1 : Représente le premier quartile (25% des données se situent sous Q1)

Q2 : Représente la médiane

Q3 : Représente le troisième quartile (75% des données se situent sous Q3)

How well did you know this?

Not at all

Perfectly

Dans le diagramme en boîte-et-moustaches, que représentent les moustaches?

Les moustaches représentent la valeur la plus haute (sans être extrême) et la valeur la plus basse (sans être extrême) de la distribution.

How well did you know this?

Not at all

Perfectly

Vrai ou faux? Dans le diagramme en boîte-et-moustaches, la médiane est représentée par Q3.

Faux. La médiane correspond à Q2.

How well did you know this?

Not at all

Perfectly

Vrai ou faux? Dans le diagramme en boîte-et-moustaches, les valeurs extrêmes ne sont pas représentées.

Faux. Il est vrai que les valeurs extrêmes ne sont pas pris en considération lorsqu’on détermine où se situent les moustaches et la boîte, mais les valeurs extrêmes sont tout de même représentées par un point sur le diagramme (avec un * ou un 1 en exposant pour indiquer qu’il s’agit d’une valeur extrême)

How well did you know this?

Not at all

Perfectly

Dans le diagramme en boîte-et-moustaches, que représente la longueur des moustaches?

La longueur des moustaches rend compte de la variabilité qu’on retrouve dans la distribution.

Plus les moustaches sont longues, plus ça indique qu’il y a de variabilité dans notre distribution (données très dispersées autour de la moyenne).

How well did you know this?

Not at all

Perfectly

Que peut-on conclure si, dans le diagramme en boîte-et-moustaches, l’une des moustache est longue et l’autre est courte?

On peut conclure qu’il y a une asymétrie.

How well did you know this?

Not at all

Perfectly

Quels sont les 4 types de symétrie? Dessinez un exemple. pour chacun.

Normale
Bimodale
Asymétrie négative
Asymétrie positive

How well did you know this?

Not at all

Perfectly

Quels sont les 3 types de degré de voussure? Dessinez un exemple pour chacun.

Mésokurtique
Leptokurtique
Platikurtique

How well did you know this?

Not at all

Perfectly

Que peut-on affirmer d’une courbe leptokurtique VS une courbe platikurtique?

Leptokurtique : grande ressemblance entre les données

Platikurtique : grande variabilité entre les données

Vrai ou faux? En notation statistique, une lettre minuscule représente une variable.

Faux. La variable est représentée par une lettre majuscule, tandis que l’unité d’observation (donnée) de cette variable est représentée par une lettre minuscule.

Vrai ou faux? Il ne faut pas prendre en compte les parenthèses lors des calculs de sommation.

Faux. Il faut tenir compte de la priorité des opérations en tout temps.

Vrai ou faux? L’ajout de plusieurs indices permet de préciser la donnée à laquelle on fait référence.

Vrai

Vrai ou faux? La notation statistique est la même, peu importe si on parle d’échantillon ou de population.

Faux.

Que représente le sigma majuscule (Σ)?

La sommation.

À quoi sert la mesure de tendance centrale?

C'est une mesure qui indique à quel endroit est centrée la distribution sur l'échelle de la variable.

Nommer et définir les 3 types de mesures de tendance centrale.

1. Mode : résultat le plus fréquent 2. Médiane : le point sur l'échelle où on retrouve 50% des cas en-dessous + 50% des cas au-dessus 3. Moyenne : somme des données d'une distribution pondérée par le nombre de données

Quelle(s) mesure(s) de tendance centrale est(sont) influencée(s) par les données extrêmes?

Seule la moyenne est influencée par les données extrêmes.

Quels sont les 2 types de mode?

1. Unimodale | 2. Bimodale

Quelle mesure de tendance centrale est la plus proche de l'ensemble des données de la distribution?

La médiane

Vrai ou faux? Il est toujours nécessaire d'ordonner les données en ordre croissant pour trouver la médiane.

Vrai.

Quel calcul doit-on faire pour trouver la médiane?

(n + 1) / 2

Comment détermine-t-on le mode d'une distribution s'il y a 2 données qui ont la valeur la plus haute?

Si les valeurs sont adjacentes, le mode est égal à la moyenne de ces deux valeurs (unimodal). Si les 2 valeurs ne sont pas adjacentes, il y a tout simplement 2 modes (bimodal).

Quelle mesure de tendance centrale a une valeur qui correspond toujours à un score enregistré?

Le mode. ** Sauf quand il y a 2 modes adjacents --> On doit alors faire la moyenne des deux pour trouver le mode. Ce résultat ne correspond alors pas à un score enregistré.

Quelle(s) mesure(s) de tendance centrale peut(peuvent) s'appliquer à des échelles nominales?

Le mode.

Quelle(s) mesure(s) de tendance centrale se prêt(ent) à des manipulations algébriques?

La moyenne.

Quelle(s) mesure(s) de tendance centrale est(sont) stable(s) d'un échantillon à l'autre?

La moyenne.

À quoi servent les indices de dispersion?

Ils permettent de savoir le degré de déviation des données individuelles par rapport à la tendance centrale.

Quels sont les 3 principaux indices de dispersion? Être capable de les définir.

1. Étendue : distance entre la donnée la + élevée et la donnée la - élevée d'une distribution 2. Variance : moyenne des carrés des écarts à la moyenne 3. Écart-type :racine carrée de la variance - indique à quel point les données sont dispersées ou non autour de la moyenne

Vrai ou faux? L'étendue est calculée à partir des données extrêmes.

Vrai.

Vrai ou faux? La variance et l'écart-type se calculent de la même façon dans une population comme dans un échantillon.

Faux.

Vrai ou faux? On retrouve 68% des scores observés entre un écart-type sous la moyenne et un écart-type au-dessus de la moyenne.

Vrai.

Que peut-on conclure si la variabilité et l'écart-type sont élevés?

Plus ces indices de dispersion sont élevés, plus il y a de la variabilité dans la distribution.

À quoi sert le coefficient de variation? Comment le calcule-t-on?

Il permet de comparer la variabilité entre des échantillons dont les moyennes ou les échelles de mesure diffèrent. (écart-type / moyenne) x 100

Qu'est-ce que l'écart-moyen absolu et pourquoi considère-t-on qu'il est peu utile?

C'est la moyenne des écarts en valeur absolue entre chaque donnée et la moyenne. Il est peu utile, car il est difficilement manipulable algébriquement en raison des absolus.

Qu'est-ce que l'écart-moyen et pourquoi est-il inutile?

C'est la moyenne des écarts à la moyenne. Il est inutile puisqu'il est toujours égal à 0.

Comment interprète-t-on le coefficient de variation?

Plus le coefficient de variation est élevé, plus cela indique que l'écart-type et la moyenne ont une valeur similaire et donc, que les observations varient beaucoup d'un individu à l'autre. À l'inverse, plus un coefficient est faible, plus cela veut dire que l'ensemble des observations sont collées sur la moyenne. Ainsi, nous ne voulons généralement pas un coefficient extrêmement petit ou extrêmement élevé.