Cours 11 Flashcards
Probabilité
La probabilité d,un évènement X est la proportion de X dans toute la “population” d’événements
P(X) = X/N
La probabilité de tirer un as de coeur dans un paquet de carte :
P(As coeur) = 1/52
Probabilité de tirer un as:
P(As) = 4/52
Échantillonnage probabiliste;
L’échantillonnage probabiliste a l,avantage de permettre le recours aux probabilités et lois statistiques pour guider l’inférence
Les recherches en statistiques ont permis de définir des modèles en permettant de prédire les caractéristiques de la population (paramètres) à partir de celles de l’échantillon (statistiques)
*Inférence = qd veut appliquer une stat à une pop = tient pour acquis que peux appliquer le résultat à reste de la pop dont il est issu
Probabilité et échantillonage :
On recrute un échantillon lorsu’il est impossible d’analyser l’ensemble de la population
L’utilité de l’échantillon dépend de sa représentativité qui varie selon :
-La méthode de recrutement des participants
-Sa taille (+hétégogénéité)
-L’ffet à détecter
L’échantillon probabiliste favorise la représentativité mais…
-échantillon non probabiliste peut aussi être repésentatif de la pop
-échantillon probabiliste pourrait ne pas être représentatif de la pop, simplement par l’effet du hasard (ceci est de moins en moins probable au fur et à mesure que le N augmente)
*échantillon = sous-ensemble de la pop choisi au hasard = différents échantillons peuvent avoir différentes statistques (mesures de tendance centrale, de dispersion, etc)
probabilité et échantillonage fun fact?
On s,appuie sur des lois de probabilités pour estimer la variabilité théorique des statistiques issues de notr échantillon Ex: On sait que si on répétait l’échantillonnage, les différentes moyennes qu’on obtiendrait suivraient une distribution normale, c-à-d que certaines moyennes seraient obtenues plus fréquemment que d’autres.
Probabilité et échantillonnage ; Erreur-type ;
Erreur-type : L’écart type de la moyenne d’échantillonnage. Est un ingrédient clé dans la production d’intervalles de confiance (un intervalle censé contenir un paramètre inconnu de la loi de probabilité d’une variable que l’on cherche à estimet à partir d’un ensemble de données)
Comment on calcule l’erreur-type : L’écart-type de l’échantillon (s) divisé par la racine carrée de la taille de l’échantillon (N)
*pense pas important
Présentation des fréquences : Fréquence ;
Fréquence ; nombre d’observations associées à une valeur ou catégorie, c-à-d à quelle fréquence cette valeur ou catégorie est-elle observée ds une population?
Présentation des fréquences : Proportion
Proportion : Fréquence (f) divisée par le nb total d’observations (N)
*Les deux quantités sont liées (le numérateur est un sous-ensemble du dénominateur) ex : le tier de l’échantillon (0,33/1) est composé de jeunes de 18-24 ans
Présentation des fréquences : pourcentage
Pourcentage : proportion rapportée à un groupe de 100 observations
Présentation des fréquences ; Ratio
Ratio (ou rapport) : Compare la taille relative de deux nombres ou quantités qui ont les mêmes unités (de mesure) Ex : sur Tinder, il y a 3 hommes pour chaque femme = ratio 3/1 (1unité = le genre)
Présentation des fréquences : Taux
Taux: type particulier de ratio utilisé pour montrer la comparaison de deux unités de mesures différents, contrairement au ratio qui compare les mêmes unités Ex: en 2021, on a observé un taux de syphilis de 30 (cas) par 100 000 personnes au Canada. (2 unités = cas de syphilis + personnes dans la pop canadienne)
Mesures de tendance centrale ; Distribution
Distribution : Décrit la manière dont les valeurs sont distribuées pour une variable donnée. Montre quelles valeurs sont communes et quelles valeurs sont peu communes
Mesure de tendance centrale : Tendance centrale;
Tendance centrale ; ce qui est typique de l’échantillon ou de la pop ; ce qui se passe “en moyenne”; valeurs autour desquelles la distribution est centrée
Différentes mesures de tendance centrale :
-Moyenne
-Moyenne pondérée
-Médiane
-Mode
Mesure de tendance centrale : Moyenne
Moyenne : mesure de tendance centrale la plus connue.
Somme des observations divisée la le nb d’observations
Mesure de tendance centrale : Moyenne pondérée
Moyenne pondérée : toutes les obersvations n’ont pas le même poids. Permet de modifier la contributipn relative des observations Ex: plusieurs notes d’exam qui n’ont pas la même valeur = On attribue un poids (importance relative) à chaque note et on divise la somme par le total des poids (100pts, la note final)
Mesure de tendance centrale ; Médiane
Médiane : sépare la distribution en deux groupes égaux (50%)
ex: 242, 83, 312, 493, 75, 478, 323, 1400, 166, 524.
Étape 1 : Ordonner les valeurs de la série : 75, 83, 166, 242, 312, 324, 478, 493, 1400
Étape 2 : identifier la valeur centrale = 312
Ou si nombre pair d’observation, prend les 2 du milieu, les additionne puis divise par 2 = médiane
La médiane est moins affectée que la moyenne par les valeurs extrêmes Ex : nombre de partenaires sexuels au cours de la vie : 0, 0, 1, 1,1, 2, 2, 2, 2, 3, 3, 4, 4, 7, 14, 34
Méd = 2
Moyenne (X avec ligne au dessus) = 5,26
Mesure de tendance centrale : Mode
Mode : catégorie ou valeur ayant la fréquence la plus élevée
Le mode est approprié pour les variables nominales ou ordinales (utilité limité avec les variables cardinales)
Ex: quelle langue est la plus parlée au monde (langue maternelle + langue seconde)? = Anglais
Mesures de dispersion
Les populations ne sont jamais parfaitement homogènes
Ce qui est “typique” peut être plus ou moins fréquent dans une population. Il y aura de la variabilité autour de la tendance centrale
Cette variabilité peut être décrite de dif façons :
-Étendue
-Écart-moyen
-Variance
-Écart-type
-Coefficient de variation
Mesure de dispersion ; Étendue
Étendue (range) : Différence entre la valeur minimale et la valeur maximale de la distribution. Façon la plus simple de décrire la variabilité
Étendue = Max - Min
Ex: Salaires annuels des professeurs à l’UQAM en 2023;
Étendue : 163 942$ - 68 165$ = 95 777$
Mesure de dispersion : Écart moyen;
Écart moyen : décrit comment, en moyenne, chacune des observations est éloignée de la moyenne
*Sans valeur absolue, la somme des écarts à la moyenne = 0
*On utilise une valeur moyenne (plutôt que la somme des écarts) pour que la mesure ne soit pas sensible au nombre d’observation (voir pwp 30)
Mesure de dispersion : Variance
Variance ; utiliser les écarts au carré (valeurs des écarts multipliées par elles-mêmes) est une autre façon d’éviter que la somme des écarts à la moyenne soit de 0
L’avantage de la variance en tant que mesure de dispersion est qu’elle est plus facile à manipuler algébriquement que d’autres mesures de dispersion
Mesure de dispersion : Écart-type
Écart-type : parce que les écarts à la moyenne sont au carré, la variance produit une mesure dont la valeur est difficile à interpréter car elle est très élevée
On fera donc la racine arrée de la variance appelée écart-type
Mesure de dispersion : Coefficient de variation ;
Coefficient de variation : exprime la variabilité relativement à la moyenne. Est le rapport de l’écart-type à la moyenne
Mesure de dispersion fun fact
Plus l’écart-moyen, l’écart-type, la variance, le coefficient de variation sont petits, plus les valeurs de la distribution tendent à être provhes de la moyenne (il n’y a pas beaucoup de variabilité dans les observations/les réponses des participants).