Cours 11 Flashcards

1
Q

Probabilité

A

La probabilité d,un évènement X est la proportion de X dans toute la “population” d’événements

P(X) = X/N

La probabilité de tirer un as de coeur dans un paquet de carte :
P(As coeur) = 1/52

Probabilité de tirer un as:
P(As) = 4/52

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Échantillonnage probabiliste;

A

L’échantillonnage probabiliste a l,avantage de permettre le recours aux probabilités et lois statistiques pour guider l’inférence

Les recherches en statistiques ont permis de définir des modèles en permettant de prédire les caractéristiques de la population (paramètres) à partir de celles de l’échantillon (statistiques)

*Inférence = qd veut appliquer une stat à une pop = tient pour acquis que peux appliquer le résultat à reste de la pop dont il est issu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Probabilité et échantillonage :

A

On recrute un échantillon lorsu’il est impossible d’analyser l’ensemble de la population

L’utilité de l’échantillon dépend de sa représentativité qui varie selon :
-La méthode de recrutement des participants
-Sa taille (+hétégogénéité)
-L’ffet à détecter

L’échantillon probabiliste favorise la représentativité mais…
-échantillon non probabiliste peut aussi être repésentatif de la pop
-échantillon probabiliste pourrait ne pas être représentatif de la pop, simplement par l’effet du hasard (ceci est de moins en moins probable au fur et à mesure que le N augmente)
*échantillon = sous-ensemble de la pop choisi au hasard = différents échantillons peuvent avoir différentes statistques (mesures de tendance centrale, de dispersion, etc)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

probabilité et échantillonage fun fact?

A

On s,appuie sur des lois de probabilités pour estimer la variabilité théorique des statistiques issues de notr échantillon Ex: On sait que si on répétait l’échantillonnage, les différentes moyennes qu’on obtiendrait suivraient une distribution normale, c-à-d que certaines moyennes seraient obtenues plus fréquemment que d’autres.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Probabilité et échantillonnage ; Erreur-type ;

A

Erreur-type : L’écart type de la moyenne d’échantillonnage. Est un ingrédient clé dans la production d’intervalles de confiance (un intervalle censé contenir un paramètre inconnu de la loi de probabilité d’une variable que l’on cherche à estimet à partir d’un ensemble de données)

Comment on calcule l’erreur-type : L’écart-type de l’échantillon (s) divisé par la racine carrée de la taille de l’échantillon (N)

*pense pas important

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Présentation des fréquences : Fréquence ;

A

Fréquence ; nombre d’observations associées à une valeur ou catégorie, c-à-d à quelle fréquence cette valeur ou catégorie est-elle observée ds une population?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Présentation des fréquences : Proportion

A

Proportion : Fréquence (f) divisée par le nb total d’observations (N)

*Les deux quantités sont liées (le numérateur est un sous-ensemble du dénominateur) ex : le tier de l’échantillon (0,33/1) est composé de jeunes de 18-24 ans

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Présentation des fréquences : pourcentage

A

Pourcentage : proportion rapportée à un groupe de 100 observations

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Présentation des fréquences ; Ratio

A

Ratio (ou rapport) : Compare la taille relative de deux nombres ou quantités qui ont les mêmes unités (de mesure) Ex : sur Tinder, il y a 3 hommes pour chaque femme = ratio 3/1 (1unité = le genre)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Présentation des fréquences : Taux

A

Taux: type particulier de ratio utilisé pour montrer la comparaison de deux unités de mesures différents, contrairement au ratio qui compare les mêmes unités Ex: en 2021, on a observé un taux de syphilis de 30 (cas) par 100 000 personnes au Canada. (2 unités = cas de syphilis + personnes dans la pop canadienne)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Mesures de tendance centrale ; Distribution

A

Distribution : Décrit la manière dont les valeurs sont distribuées pour une variable donnée. Montre quelles valeurs sont communes et quelles valeurs sont peu communes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Mesure de tendance centrale : Tendance centrale;

A

Tendance centrale ; ce qui est typique de l’échantillon ou de la pop ; ce qui se passe “en moyenne”; valeurs autour desquelles la distribution est centrée

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Différentes mesures de tendance centrale :

A

-Moyenne
-Moyenne pondérée
-Médiane
-Mode

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Mesure de tendance centrale : Moyenne

A

Moyenne : mesure de tendance centrale la plus connue.
Somme des observations divisée la le nb d’observations

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Mesure de tendance centrale : Moyenne pondérée

A

Moyenne pondérée : toutes les obersvations n’ont pas le même poids. Permet de modifier la contributipn relative des observations Ex: plusieurs notes d’exam qui n’ont pas la même valeur = On attribue un poids (importance relative) à chaque note et on divise la somme par le total des poids (100pts, la note final)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Mesure de tendance centrale ; Médiane

A

Médiane : sépare la distribution en deux groupes égaux (50%)

ex: 242, 83, 312, 493, 75, 478, 323, 1400, 166, 524.

Étape 1 : Ordonner les valeurs de la série : 75, 83, 166, 242, 312, 324, 478, 493, 1400

Étape 2 : identifier la valeur centrale = 312

Ou si nombre pair d’observation, prend les 2 du milieu, les additionne puis divise par 2 = médiane

La médiane est moins affectée que la moyenne par les valeurs extrêmes Ex : nombre de partenaires sexuels au cours de la vie : 0, 0, 1, 1,1, 2, 2, 2, 2, 3, 3, 4, 4, 7, 14, 34
Méd = 2
Moyenne (X avec ligne au dessus) = 5,26

17
Q

Mesure de tendance centrale : Mode

A

Mode : catégorie ou valeur ayant la fréquence la plus élevée

Le mode est approprié pour les variables nominales ou ordinales (utilité limité avec les variables cardinales)

Ex: quelle langue est la plus parlée au monde (langue maternelle + langue seconde)? = Anglais

18
Q

Mesures de dispersion

A

Les populations ne sont jamais parfaitement homogènes

Ce qui est “typique” peut être plus ou moins fréquent dans une population. Il y aura de la variabilité autour de la tendance centrale

Cette variabilité peut être décrite de dif façons :
-Étendue
-Écart-moyen
-Variance
-Écart-type
-Coefficient de variation

19
Q

Mesure de dispersion ; Étendue

A

Étendue (range) : Différence entre la valeur minimale et la valeur maximale de la distribution. Façon la plus simple de décrire la variabilité

Étendue = Max - Min
Ex: Salaires annuels des professeurs à l’UQAM en 2023;
Étendue : 163 942$ - 68 165$ = 95 777$

20
Q

Mesure de dispersion : Écart moyen;

A

Écart moyen : décrit comment, en moyenne, chacune des observations est éloignée de la moyenne

*Sans valeur absolue, la somme des écarts à la moyenne = 0
*On utilise une valeur moyenne (plutôt que la somme des écarts) pour que la mesure ne soit pas sensible au nombre d’observation (voir pwp 30)

21
Q

Mesure de dispersion : Variance

A

Variance ; utiliser les écarts au carré (valeurs des écarts multipliées par elles-mêmes) est une autre façon d’éviter que la somme des écarts à la moyenne soit de 0

L’avantage de la variance en tant que mesure de dispersion est qu’elle est plus facile à manipuler algébriquement que d’autres mesures de dispersion

22
Q

Mesure de dispersion : Écart-type

A

Écart-type : parce que les écarts à la moyenne sont au carré, la variance produit une mesure dont la valeur est difficile à interpréter car elle est très élevée

On fera donc la racine arrée de la variance appelée écart-type

23
Q

Mesure de dispersion : Coefficient de variation ;

A

Coefficient de variation : exprime la variabilité relativement à la moyenne. Est le rapport de l’écart-type à la moyenne

24
Q

Mesure de dispersion fun fact

A

Plus l’écart-moyen, l’écart-type, la variance, le coefficient de variation sont petits, plus les valeurs de la distribution tendent à être provhes de la moyenne (il n’y a pas beaucoup de variabilité dans les observations/les réponses des participants).

25
Forme de la distribution
Pour caractériser la forme d'une disribution, on fait souvent la comparaison avec la distribution normale (ou gaussienne) On qualifiera une distribution en fonction de son écart par rapport à la distribution normale On décrit cet écart selon 2 dimensions : l'asymétrie et l'aplatissement
26
Forme de la distribution ; Asymétrie
L'asymétrie (skewness) décrit un décalage vers la gauche ou vers la droite de la courbe décalage vers la droite = négative décalage vers la gauche = positive = contre intuitif/contraire de ce qu'on pense pour positif et négatif car négatif tend vers un plus grand chiffre sur l'axe des x ce qui est contre-intuitif.
27
Forme de la distribution : L'aplatissement
L'aplatissement (kurtosis) décrit la concentration des fréquences autour de la moyenne (pas beaucoup de personnes divergent de la moyenne) courbe de hauteur normale/moyenne = distribution normale Courbe haute = petites valeurs de mesures de dispersion (positive) Courbe basse = valeurs de mesures de dispersion élevés (négative)
28
Type de variable avec type de mesure de tendance centrale
nominale = mode (catégorie w fréquence la + élevée) ordinale = mode + médiane cardinale asymétrique = mode + médiane cardinale symétrique = mode + médiane + moyenne
29
Particularité des mesures de tendance centrale
Mode : -Non influencé par les valeurs extrêmes -Ne permet pas d'oppération mathématique Médiane : -Ne tient pas compte de la valeur numérique de toutes les observations -Sépare une distribution en deux groupes de même taille Moyenne : -La valeur de toutes les observations sont prises en compte -Mesure de tendance centrale la plus stable -Est influencée par les valeurs extrêmes
30
Mesures de position ;
PWP caractéristiques de la distribution : tendance centrale + dispersion
31
Quartiles
4 groupes composés chacun de 25% des observations ; Q1 : milieu de la 1re moitié des données définie par la médiane Q2 : médiane Q3 : milieu de la 2e moitié des données définie par la médiane
32
Autres mesures qui définissent des groupes de tailles égales ;
-Centiles (1%) -Déciles (10%) -Quartiles (25%) -Quintiles (20%) -Terciles (33,3%)
33
Mesure de position : Score Z
Score Z : Exprime un écart à la moyenne qu'on met en relation avec la variabilité (dispersion) ds la pop. Est une mesure standardisée -Expriment l'écart à la moyenne en unités d'écart-type -Permettent de relativiser les valeurs de distributions différentes -Utilisés, par exemple, pour comparer des étudiants dont la performance est mesurés dans des contextes différents (ex. des évaluations dont le niveau de sévérité n'est pas le même)
34
distribution normale centrée réduite ;
Inférence : porter un jugement sur une pop à partir d'un échantillon "statistique" parce que ce jugement s'appuie sur des lois de probabilité (modèle de la distribution des fréquences).
35
AUTRES DISTRIBUTION normale centrée réduite pwp **
COMPRENDS PAS VOIR PWP
36
Mesure de position :
Situer une valeur relativement à l'ensemble de la distribution
37
La courbe normale
La courbe normale décrit la distribution des fréquences; -permet de prévoir les probabilités de plusieurs phénomènes aléatoires -sert de base à l'inférence statistique dans un grand nb de contextes -possède certaines caractéristiques importantes -La moyenne est de 0 -L'écart-type est de 1 -100% des événements possibles se trouve sous la courbe -Elle est symétrique (50% événements ch. côté, moyenne) -Les extrémités ne touchent jamais l'axe horizontal (mais l'essentiel de la courbe se trouve entre -3 et 3) -Les points d'inflexion de la courbe sont à -1 et 1 (là où la courbe passe de concave à convexe) *parce que la courbe couvre l'ensemble des événements possibles, on peut associer des probabilités à l'aire sous la courbe (ex ; 41% des observations ont une valeur située entre 1 et 1,34(symbole) voir pwp
38