Cours 2 : Populations/échantillons Flashcards
49sur53
À l’aide de quelle mesure peut on démontrer l’utilité d’un modèle statistique?
La moyenne.
Elle permet de nous dire à quel point la moyenne est représentative de nos données.
La moyenne
Dans les 2 cas suivants, laquelle est une moyenne représentative des données?
Cas 1 : 80 79 81. 80. M=80
Cas 2: 100. 0. 100. 0. M=50
Dans le cas 1.
Car la moyenne de 80 représente mieux les données obtenues par l’étudiant 1 que l’étudiant 2 (notamment car il contient des données aberrantes).
Quelle mesure utilise-t-on pour savoir l’adéquation d’un modèle, son “fit’.
L’écart-type.
Il permet de nous dire comment nos données varient à l’intérieur de l’échantillon.
Population
Une population
Donne un exemple
L’ensemble des unités à partir desquels nous voulons généraliser un ensemble de résultats.
Ex: tous les étudiants au bac en psycho au QC.
Population
En statistique, pourquoi est-ce moins courant de passer un questionnaire à une population entière par exemple?
Car c’est très coûteux et très long.
C’est pour cette raison que l’on se tourne vers un échantillon de la population et non la population entière.
Échantillon
Échantillon
Un ensemble plus petit d’unités à partir duquel on veut inférer des caractéristiques portant sur la population.
Nous avons rarement accès à tous les membres de la population donc on utilise un échantillon.
Échantillon
Lorsque l’on prend un échantillon d’une population pour faire des inférences sur celle-ci, qu’est-ce que l’on doit viser?
Quelle est la solution?
On dois viser à ce que cet échantillon soit le plus représentatif possible.
C’est-à-dire de minimiser les biais possibles (ex: prendre juste des étudiants en psycho à UdeS).
Solution : Aller chercher un échantillon aléatoire de la population. Cela permet d’augmenter les chances d’être représentatif de la population.
Populations & échantillons
Vrai ou faux : Un échantillon aléatoire est une assignation aléatoire. Pourquoi?
Faux!
L’assignation aléatoire consiste à assigner, de manière aléatoire, les participants entre le groupe témoin et expérimental.
L’échantillon aléatoire est une méthode de sélection des individus pour une étude afin de garantir une représentatitivité de la population.
Échantillons
Plus l’échantillon est ( ), plus la possibilité de refléter la vraie valeur dans la population est haute.
grand.
Plus le n est élevé, plus je peux être confiant de ma prédiction car je me rapproche de la vraie valeur dans la population = statistique inférentielle (je fais une inférence sur la population à partir d’un échantillon de celle-ci)
Question de compréhension
Si dans l’Alabama 900 républicains ont votés pour Trump et 100 démocrates ont votés pour Harris, est-ce que mon échantillon me permet de faire une prédiction avec confiance que Trump remportera l’Alabama?
Pourquoi?
Oui je peux faire cette inférence avec confiance car mon N est élevé et il y a peu de variation à l’intérieur du même échantillon.
Je peux donc dire que mon échantillon se rapproche de la vraie valeur dans la population.
Question de compréhension
Si au Wiconsin 51 républicains ont votés pour Trump et 49 démocrates ont votés pour Harris, est-ce que mon échantillon me permet de faire une prédiction avec confiance que Trump remportera le Wisconsin?
Pourquoi
Non je ne peux pas faire cette inférence avec confiance car mon N est petit et il y a beaucoup trop de variation à l’intérieur du même échantillon. Il est donc très difficile de prédire ici.
Populations & échantillons
Statistique inférentielle
Consiste à faire des prédictions sur la population à partir d’un échantillon.
Populations & échantillons
Vrai ou faux : On ne connaît jamais la vraie valeur dans la population
Vrai!
Que signifie l’équation :
Outcome = (Model) + error
Il s’agit de la prédiction du résultat d’une variable en se fiant à un modèle statistique dans lequel se trouve une certaine mesure d’erreur. (prédiction imparfaite)
Le modèle, en statistique, permet de ( ) les ( ). On l’utilise pour représenter ce qui se produit dans la ( ).
Le modèle, en statistique, permet de décrire les données.On l’utilise pour représenter ce qui se produit dans la réalité.
Qu’est-ce que l’on veut dire par : La moyenne est une valeur hypothétique?
Donne un exemple
Cela signifie qu’elle ne doit pas nécessairement exister dans les données.
Ex: moyenne d’amis facebook = 2,6 (on ne peut pas avoir ,6 amis)
La moyenne
La moyenne
C’est la somme de tous les scores divisés par le nombre de scores.
La moyenne
La moyenne est généralement la valeur pour laquelle les scores au carrés ( ) le moins ; elle a le moins d’( )
La moyenne est généralement la valeur pour laquelle les scores au carrés dévient le moins ; elle a le moins d’erreur.
Calcul
Calcule la moyenne avec les chiffres suivants:
5, 8, 7 ,6 ,0, 3 ,6, 2
M = 5 + 8 + 7 +6 + 0 + 3 + 6 + 2 / 8
M = 4,63
La moyenne
Chaque score, ou outcome, équivaut à la ( ) - l’ ( )
Donne un exemple
Chaque score (outcome) équivaut à la moyenne - l’ erreur
Ex: 2,6 - 1,6
La moyenne
Vrai ou faux : La moyenne est une représentation parfaite des données. Pourquoi?
Faux!
La moyenne est un modèle de ce qui arrive dans la réalité, le score typique,
La moyenne
Dans le cas rare où la moyenne reflèterait parfaitement la population réelle, les scores seraient agencés comment?
Tous les scores seraient parfaitement alignés sur la moyenne.
Autrement dit, il n’y aurait pas d’erreur. = reflet parfait de la réalité.
L’erreur
L’erreur
Il s’agit de la différence entre chaque score et la moyenne.
L’erreur
Si on voulait savoir l’erreur total du modèle et que l’on faisait la somme des erreurs, qu’est-ce que cela donnerait comme résultat et pourquoi?
zéro! car la moyenne est le point milieu de la distribution. Donc il y a la portion inférieure à la moyenne et la portion supérieure à la moyenne.
L’erreur
Que veut dire une somme des erreurs qui ne donne pas la somme de 0?
Un erreur de calcul.
Calcul
Avec les données suivantes, fait la somme des erreurs du modèle.
Scores : 1, 2, 3, 4, 5
M= 1+2+3+4+5 / 5
M= 3
1-3 = -2
2-3 = -1
3-3 = 0
4-3 = 1
5-3 = 2
Somme des erreurs : (-2) + (-1) + 0 + 1 +2 = 0 !
Vrai ou faux : On peut additionner les erreurs pour calculer l’erreur totale du modèle.
Comment faire?
Faux! la somme nous donne toujours 0! les sommes s’annulent car la moitité est positive et l’autre est négative. ex: (-2) + (-1) + 0 + 1 +2 = 0 !
On fait donc la somme des erreurs au carré.
Calcul
Avec les chiffres suivants calcule la somme des erreurs au carré.
Scores : 1,2,3,3,4
1) Calcule la moyenne
M= 1+2+3+3+4 /5
M=2,6
2) Calcule l’erreur pour chaque score
1-2,6 = -1,6
2-2,6 = -0,6
3-2,6= 0,4
3-2,6= 0,4
4-2,6= 1,4
3) Met chaque erreur au carré
2,56
0,36
0,16
0,16
1,96
4) Fait la somme des carrés
2,56 + 0,36 + 0,16 + 0,16 + 1,96 = 5,2
De quoi dépend la somme des erreurs au carré?
La SS dépend du nombre de données.
Ainsi une grande somme d’erreur ne signifie pas qu’il y a plus d’erreur mais plutôt un plus grand échantillon.
La variance
La variance
Il s’agit de la somme des erreurs au carré divisé par le nombre de données (N) - 1.
Calcul
Calcul la variance.
N= 5
SS = 5,20
Variance = SS / N-1
Variance = 5,20 / 5-1
Variance = 5,20 / 4
Variance = 1,3
La variance
Si la somme des erreurs au carré est très élevé, est-ce que cela signifie qu’il y a beaucoup d’erreur?
Non! Cela signifie simplement qu’on a plus de participants.
La variance dépend du nombre de données.
La variance
Dans le calcul de la variance pourquoi on divise la SS par N-1 et non juste N?
Car en statistique on travaille avec des échantillons, donc on ne connaît jamais le vrai N.
La variance
Quel est le problème majeur de la variance?
Elle est au carré. On doit donc faire la racine pour arriver à L’ÉT.
L’écart type
L’écart type
Il s’agit de la racine carré de la variance.
l’ÉT nous dit à quel point la moyenne représente les données de l’échantillon.
Vrai ou faux : La somme des carrés (SS), la variance et l’écart type (s) représentent tous la même chose
Vrai!
Calcul d’intégration
Avec les données suivantes, répond aux questions.
Données : 2, 4, 6
a) calcule la moyenne
b) calule la somme des carrés (SS)
c) calcule la variance
d) calcule l’écart-type (s)
a) 2+4+6 / 3 = 4
b) (2 – 4)2 + (4 – 4) 2 + (6 – 4)2 = 8
c) Variance = 8/3-1 = 4
d) ÉT = racine de 4 = 2
Est-ce possible que 2 modèles aient la même moyenne mais différents ÉT?
Oui!
La distribution
Si l’ÉT est grand, cela signifie que les données sont ( ) de la moyenne.
Il y a donc beaucoup de ( ).
Si l’ÉT est grand, cela signifie que les données sont écartées de la moyenne.
Il y a donc beaucoup de variation.
La distribution
Si l’ÉT est petit, cela signifie que les données sont ( ) de la moyenne.
Il y a donc peu de ( ).
Si l’ÉT est petit, cela signifie que les données sont proches de la moyenne.
Il y a donc peu de variation.
Tests statistiques
Les résultats d’un test statistique servent à quoi?
Quelles formes peuvent prendre ces résultats?
À évaluer nos hypothèses!
Ratio t (test T), Ratio F (anova & corrélation)
Tests statistiques
Quelle est l’équation vue en classe qui permet de démontrer le résultat d’un test statistique?
Test statistique = variance expliquée par le modèle / variance non expliquée par le modèle.
Autrement dit:
Test statistique = effet / erreur
Test statistique
Dans la formule Test statistique = effet / erreur
Que signifie effet et erreur?
Effet = La variable dépendante (VD) La manipulation expérimentale.
Erreur = La variance non expliquée par le modèle.
Test statistique
si l’effet (variance expliquée par le modèle) est plus grand que l’erreur (variance non expliquée par le modèle) on obtient habituellement un résultat ( )
significatif.
Test statistique
Habituellement, dans un test statistique, l’erreur (variance non expliquée par le modèle) soulève de quoi?
Donne un exemple
de différences individuelles.
Ex: Je prends la classe et je fais 2 groupes. (groupe 1 : boit 4 verres d’eau) et (groupe 2: boit 4 verres d’alcool).
Chaque groupe devra faire une tâche motrice.
Hypothèse: Le groupe ayant prit de l’alcool fera plus d’erreurs motrices.
Le fruit de différences individuelles : Si une personne dans le groupe alcool boit tous les soirs, donc est + tolérante que les autres, elle peut bien performer à la tâche motrice. = l’Erreur (variance non expliquée par le modèle)
Si une personne dans le groupe alcool boit tous les soirs, donc est + tolérante que les autres, elle peut bien performer à la tâche motrice. = l’Erreur (variance non expliquée par le modèle)
Q: Dans cette exemple, cette personne augmente ou diminue l’ÉT?
augmente l’ÉT.
Car l’ÉT correspond à la variance d’Erreur (variance non expliquée par le modèle)
Variance expliquée ou non expliquée par le modèle
Q: Je veux comparer le nombre de battements cardiaques chez des étudiants lorsqu’ils sont au repos (condition 1) ou lorsqu’ils sont en train de faire du sport (condition 2)
Si pendant le sport il y a une augmentation du rythme cardiaque cela est la ( )
variance expliquée par le modèle.
Variance expliquée ou non expliquée par le modèle
Q: Je veux comparer le nombre de battements cardiaques chez des étudiants lorsqu’ils sont au repos (condition 1) ou lorsqu’ils sont en train de faire du sport (condition 2)
Si certains sont anxieux et lorsqu’ils sont au repos, ils sont pleins d’intrusions cognitives qu’ils tentent (sans succès) d’éviter ce qui augmente le rythme cardiaque cela est la ( )
Variance non expliquée par le modèle / l’erreur
Variance expliquée ou non expliquée par le modèle
Q: Je veux comparer le nombre de battements cardiaques chez des étudiants lorsqu’ils sont au repos (condition 1) ou lorsqu’ils sont en train de faire du sport (condition 2)
Si certains sont des athlètes d’élite et l’activité n’est pas suffisante pour augmenter le rythme cardiaque = cela est la ( )
variance non expliquée par le modèle / l’erreur
Variance expliquée
Pour avoir un modèle puissant, c’est-à-dire expliquer le plus de variance par le modèle possible, tout dépend de la ( ) ( )
Donne un exemple
manipulation expérimentale.
Ex: j’augmente le nombre de consommation d’alcool à 6 au lieu de 2 verres. Tous les gens sous l’effet d’alcool vont faire des erreurs motrices donc j’explique ++ de variance par le modèle.
Si on prend tous les mêmes participants et on les soumet à tous les conditions de l’expérience je parle d’un ( )
devis à groupes dépendants / à mesures répétées.
Les conditions sont dépendantes de l’autres.
Si les participants sont différents dans chaque groupe je parle d’un ( )
Devis à groupes indépendants
La condition est appliquée une seule fois ; un groupe reçoit l’intervention (expérimental) et l’autre non (témoin)
Lequel des devis ci-dessous permet de diminuer la variance d’erreur (non expliquée par le modèle) et d’augmenter la variance expliquée par le modèle?
a) devis à groupes indépendants
b) devis à groupes dépendants / à mesures répétées
Pourquoi?
b) devis à groupes dépendants / à mesures répétées.
Car le fait que tous les participant soient soumis à toutes les conditions permet de diminuer/neutraliser les différences individuelles et donc de diminuer la variance d’erreur.
De plus ce type de plan a plus de chance de détecter un effet lorsqu’il y en a un.
Lequel des plans suivant permet une meilleure puissance?
a) devis à groupe indépendant
b) devis à groupe dépendant / mesures répétées
Pourquoi?
b) devis à groupe dépendant / mesures répétées
car en soumettant tous les participants à tous les conditions/manipulations expérimentales, on diminue la variance d’erreur et donc on explique plus de variance d’effet!
Ce type de plan est plus suceptible de détecter un effet lorsqu’il y en a un de présent.