cours 2 Flashcards

présentation des données

1
Q

vrai ou faux
L’étendue des données collectées est souvent trop grande pour en déduire les
caractéristiques ou les tendances globales par un examen visuel rapide.

A

vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

but du cours 2

A

étudier comment à partir de tableaux et de graphiques on peut:
* Résumer les principales caractéristiques de la distribution des données;
* Comparer la composition, la moyenne, la variabilité de plusieurs groupes;
* Mettre en évidence des relations entre variables;
* Détecter des valeurs exceptionnelles ou aberrantes;
* Estimer des probabilités d’évènements;
* Détecter les lois qui régissent le phénomène à l’étude

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

série statistique simple

A

une seule variable observée (mesurée) pour un
ensemble d’éléments (l’échantillon).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

série statistique douple/triple/etc

A

on observe alors deux, trois, ou de multiples variables sur chaque élément

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

qu’arrive t-il si la variable est quantitative ou semi-quantitative

A

chaque niveau (catégorie)
représente une classe d’observations. On dénombre alors les éléments de chaque
classe, puis on peut les représenter sous forme de tableau de contingence ou de
diagramme en bâtons

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

outils de visualisation

A

tableau de contigence
diagramme en bâton
histogramme
diagramme en moustache

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

tableau de contigence

A

Il est possible de faire des tableaux à plusieurs dimensions, simplement en ajoutant des variables
on peut créer le tableau avec la fonction table()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

diagramme en bâton

A

Pour les variables qualitatives ou semi-quantitatives.
Peut aussi être utilisé pour les variables quantitatives discrètes (si le nombre de classes est restreint)
Par contre, pour tout graphique, il faut prendre l’habitude de
fournir un titre et des noms d’axes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

étapes de construction d’un histogramme

A
  1. Calcul du nombre de classes
  2. Calcul de l’intervalle de classe
  3. Identifier les bornes des classes
  4. Attribuer chacune des observations à une seule classe
  5. Compter combien d’observations sont présentes dans chaque
    classe
  6. Vérifier que la somme des fréquences absolues est bien égale
    à n (nombre d’observations)
  7. Identifier la classe qui a le plus de valeurs pour déterminer la
    borne supérieure de l’axe des y (fréquence absolue)
  8. Dessiner la structure de l’histogramme avec l’axe des x et y
  9. Dessiner le bâton pour chacune des classes en fonctions de
    sa fréquence absolue
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
  1. Calcul du nombre de classes
A

Pour les variables quantitatives continues, ou les variables
discrètes qui ont trop de classes, il faut diviser la plage de variation en classes et assigner chaque élément à une de ces classes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

règle de Sturges

A

Nb de classes = 1 + 3.3*log10n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

règle de Yule

A

Nb de classes = 2.54racine carré de n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

comment identifier l’intervalle de classe

A

h = étendue de variation / nb de classes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

étendue de variation

A

max – min

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

par quoi est définie une classe

A

par sa borne inférieure et sa borne supérieure

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

borne inférieure de la première classe

A

devrait coïncider environ avec le min des données.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

bornes inférieures des autres classes

A

déterminées par additions
successives de h.

18
Q

indices de classe

A

valeurs centrales des classes (si l’intervalle de
classe est 1, les indices seront 0.5, 1.5, 2.5, etc.

19
Q
  1. Identifier les bornes
A

Il faut faire coïncider les bornes et indices de classes avec des nombres
comportant peu de décimales (des chiffres “ronds”).
Il est rare qu’il soit justifié d’avoir des classes inégales.
Les classes ne doivent jamais se chevaucher.

20
Q

fréquence absolue ou effectif de la classe

A

Le nombre d’éléments appartenant à chaque classe

21
Q

diagramme à moustache

A

Autre façon très utilisée d’illustrer des données quantitatives.
Illustre la médiane, l’écart interquartile, l’étendue de variation, et les valeurs extrêmes

22
Q

écart interquartile

A

intervalle entre 1er et 3e quartile (qui comprend donc 50% des observations)

23
Q

série statistique double

A

Correspond à un ensemble d’éléments pour lesquels on a observé/mesuré deux
variables
Pour avoir une série statistique, il faut au moins une variable aléatoire.
La seconde variable peut être aléatoire ou contrôlée

24
Q

pour représenter les séries statistiques doubles graphiquement

A

Si on a une variable quantitative et une variable qualitative ou semi-quantitative: série d’histogrammes ou de diagramme en bâtons, ou de diagrammes à moustache
Si les deux variables sont quantitatives, on devrait tracer un diagramme de
dispersion.

25
Q

unité des graphiques

A

Le but est de transmettre
rapidement l’information
contenue dans les données.
Le graphique le plus simple
est souvent le plus clair.
Les graphiques devraient
éviter toute ambiguïté dans
l’interprétation.
Éviter les petites polices, et
les contrastes de couleurs
qui ne sont pas détectés
par les personnes
daltoniennes

26
Q

paramètres de position

A

valeurs centrales autour desquelles se groupent les
valeurs observes
* Moyenne
* Médiane
* Mode

27
Q

paramètres de dispersion

A

renseignent quant à l’étalement de la distribution des
valeurs autour des valeurs centrales.
* Variance
* Écart-type
* Coefficient de variation

28
Q

moyenne (𝜇x )

A

moyenne de la distribution théorique (population statistique) des éléments x
Pour les variables quantitatives continues, la moyenne arithmétique calculée sur
les données brutes est toujours plus précise

29
Q

médiane

A

Mex = valeur de l’observation qui se situe au centre de la série statistique classée en
ordre croissant. La médiane sépare la série en deux groupes égaux
Si n est pair, la médiane est entre les deux valeurs centrales.
Par convention, on en fait la moyenne

30
Q

mode

A

Mox = valeur d’une variable ayant la plus grande fréquence
Pour une variable quantitative on divise en classes

31
Q

distribution polymodale

A

s’il y a plusieurs classes non contigües dont la
fréquence est nettement plus élevée que celles des autres classes

32
Q

caractéristiques de la moyenne

A
  • facile àcalculer
  • l’indicateur le plus précis (pour distribution unimodale), car minimise la Somme des Carrés des Écarts SCEE
  • très affectée par les valeurs extrêmes
33
Q

caractéristiques de la médiane

A
  • difficile à calculer (il faut trier les données)
  • plus précise que le mode
  • moins affectée que la moyenne par les valeurs extrêmes (dans les cas d’asymétrie)
  • contient moins d’information que la moyenne car basée seulement sur les rangs et non les valeurs
  • ne requiert pas des mesures aussi précises que la moyenne
34
Q

caractéristiques de la mode

A

difficile à calculer mais facile à identifier sur un graphique
- pas affecté par les valeurs extrêmes (indique bien la tendance centrale d’une distribution asymétrique)
- convient bien dans les cas polymodaux et pour les variables qualitatives

35
Q

variance

A

s2x pour un échantillon
𝜎2 (sigma au carré) pour une population entière (statistique) ou distribution théorique
Mesure la variabilité des valeurs autour de la Moyenne

36
Q

nombre de degré de liberté

37
Q

pourquoi soustraire 1 dans le nombre de degré de liberté

A

On soustrait 1 pour éliminer le biais dû au fait qu’on doit utiliser les données x une
première fois pour calculer la moyenne avant de calculer la variance.
Sans cette correction, la variance serait toujours sous-estimée (donc biaisée).

38
Q

quand est ce qu’un estimateur statistique est non biaisé

A

si la moyenne des valeurs de
cet estimateur pour tous les sous-ensembles possibles de taille n est égale à la
valeur de l’estimateur pour toute la population.

39
Q

vrai ou faux
La variance augmente quand variabilité augmente

40
Q

écart type

A

Symboles: 𝜎 pour une pop ou distribution théorique
sx pour un échantillon
C’est simplement la racine carrée de la variance