Cours 1.2 Flashcards
À l’aide de quel mesure peut-on démontrer l’utilité d’un modèle statistique ?
La moyenne : Nous permet de voir la représentativité de nos données
Dans les deux cas suivant, laquelle est une moyenne représentative des données :
L’étudiant 1 L’étudiant 2
Cours 1 : 80 % Cours 1 : 100 %
Cours 2 : 79 % Cours 2 : 0
Cours 3 : 81 % Cours 3 : 100%
Cours 4 : 80 % Cours 4 : 0
Étudiant 1 M = 80
Étudiant 2 M = 50
La moyenne de l’étudiant 1
Quelle mesure pour savoir l’adéquation d’un modèle, son “fit”
L’écart-type
L’écart-type
Comment nos données varies à l’intérieur de l’échantillon
Définition
Population
Ensemble d’unités à partir desquels nous voulons généraliser un ensemble de résultat
Définition
Échantillon
Un ensemble (plus petit) d’unités à partir duquel on veut inférer des caractéristqiues portant sur la population.
En statistique, pourquoi est-ce moins courant de passer un questionnaire à une population entière ?
Très couteux et trop long
On souhaite avoir un échantillon ____ de la population.
Échantillon représentatif de la population
Comment pouvons-nous s’assurer d’avoir un échantillon représentatif ?
À l’aide d’un échantillon aléatoire
Minimise les biais possible, plus de chance d’être représentatif
Vrai ou faux : un échantillon aléatoire est une assignation aléatoire
Faux.
Échantillon aléatoire : On sélectionne de manière aléatoire des participants d’une population.
Assignation aléatoire : On sélectionne les participants au sein d’un échantillon et on les assignent au groupe expérimental ou témoin de manière aléatoire.
Plus mon échantillon est ____ plus la possibilité de refléter la vraie valeur dans la population est haute.
Plus mon échantillon est élevé plus la possibilité de refléter la vraie valeur dans la population est haute.
La statistique ____ : Plus le n est élevé, plus je peux être confiant de ma prédiction, car je me rapproche de la ____ valeur de la population.
La statistique inférentielle : Plus le n est élevé, plus je peux être confiant de ma prédiction, car je me rapproche de la population valeur de la population.
Statistiques inférentielles
900 républicains et 100 démocrats, est-ce que mon échantillon me permet de faire une prédiction avec confiance que Trump remportera l’Alabama.
Oui, parce que l’échantillon est grand, il y peu de variation dans les votes.
Wisconsin 51 pour Trump et 49 pour Harris, est-ce que mon échantillon me permet de faire une prédiction avec confiance que Trump remportera ?
Non, mon échantillon est trop petit et il y a beaucoup de variation dans l’échantillon.
Statistiques inférentielles
Faire des prédictions sur la population à partir d’un échantillon.
Vrai ou faux : on ne connaît jamais la vraie valeur de la population
Vrai
Que signifie l’équation : Outcome = (model) + error
Il s’agit de la prédiction du résultat d’une variable en se fiant à un model statistiques dans lequel se trouve une certaine mesure d’erreur (prédiction imparfaire)
Le modèle en statistique permet de ____ les ____.
Le modèle en statistique permet de décrire les données.
On l’utilise pour représenter ce qui se produit dans la réalité.
Qu’est-ce qu’on veut dire par “la moyenne est hypothétique”, donne un exemple.
La valeur ne doit pas nécesssairement exister dans les données.
Exemple : avoir 2.6 amis
La moyenne
La moyenne est la somme de tous les scores divisés par le nombre d’unité
Vrai ou faux : La moyenne est égalemement la valeur pour laquelle les scores au carré dévient le moins.
Vrai, c’est la valeur avec le moins d’erreur
Mon score équivaut à : ____ - ____
La moyenne moins l’erreur
Vrai ou faux : La moyenne est une présentation parfaite des données
Faux : Elle le serait seulement s’il n’y avait aucune erreur
Quelle serait une représentation visuelle d’une moyenne qui est parfaitement représentative de la population ?
Tous les scores seraient alignés avec la moyennes (ligne droite)
L’erreur
Déviation
La différence entre le score et la moyenne
Score 7 Moyenne 10
Erreur : -2
À quel point le score dévit de la moyenne
Si on souhaite savoir l’ensemble des erreurs, qu’est-ce que j’obtiendrais comme valeur leur somme et pourquoi ?
La somme de 0, parce que tous les positifs et les négatifs s’annulent en raison de la moyenne comme point milieu.
Que veut-dire une somme des erreurs qui n’équivaut pas à la valeur de 0 ?
ERROR
Vrai ou faux : on peut additionner les erreurs pour calculer l’erreur totale du modèle ?
Faux : Parce que ça donne 0, donc on me la somme des erreurs au carré
La somme des erreurs au carré dépend de quoi ? Quel problème cela cause ? Comment y remédier ?
La SS dépend du nombre de données, donc plus nous avons des scores, plus la SS augmente.
Le problème : On ne serait pas capable de comparer deux échantillons qu’ils diffèrent en taille
Solution : Utiliser la variance
La variance
Variabilité moyenne : On divise la SS par le nombre de score -1
Quel est le problème avec la variance ?
On ne peut pas utiliser la variance, donc on fait sa racine carré
Écart-type
La variabilité des données autour de leur moyenne
Vrai ou faux : La somme des erreurs au carré, la variance et l’écart-type représentent la même chose ?
Vrai : ils représentent tous la variabilité des données autour de la moyenne, donc le “fit” de la moyenne aux données, l’erreur
Compréhension
Visuellement, si mon écart-type augmente, qu’arrivera-t-il aux points des données par rapport à la ligne de la moyenne ?
Les points s’éloigneront de la moyenne, démontrant une plus grande variabilité des données.
Visuellement de quoi aurait l’air une distribution avec un petit écart-type
Les données se rassembleraient autour du centre
Visuellement de quoi aurait l’air une distribution avec un grand écart-type
Les données s’étendraient jusqu’aux extrémités de la distribution
Tests statistiques
Les résultats de certains tests statistiques nous permet d’obtenir un ratio entre quoi ?
Le test statistique nous permet d’obtenir le ratio entre la variance expliquée par le modèle et la variance non expliquée par le modèle, aussi appelée : variance d’effet et variance d’erreur
Un test statistiquement significatif est généralement lié à un ratio d’une plus grand variance d‘effet/d’erreur.
Un test statistiquement significatif est généralement lié à une plus grande variance d’effet.
Lorsqu’on est en présence d’une relation statistique entre deux variables, que pourrait-on déterminer si aucune variance est présente pour la VD ?
On pourrait déterminer qu’en ayant la VI (x), nous pouvons prédire la VD (y).
Sans aucune variance pour la VD, on peut dire que ____ % de la variance est expliquée par la VI. On pourrait donc dire que R² = ____
100 % de la variance est expliqué par la VI (x).
Donc R² = 1
Si mon résultat de test statistique me donne R² = 0.65, quelle serait l’interprétation à faire ?
La variance d’effet est expliquée à 65 %
et la variance d’erreur représente 35%
Dans une recherche, je cherche évaluer les capacités cognitives après avoir consommer de l’alcool. Si mon hypothèse est qu’il y aura plus de difficulté avec la consommation d’alcool et qu’un des participants est très résistant à l’alcool. On pourrait dire que le fait qu’il n’ait pas de difficulté cognitive démontre de la ____ ____.
Il y a de la variance d’erreur !
La variance d’erreur est souvent liée à des ____ ____
Différences individuelles
Variance
Cet énoncé représente-t-il de la variance d’effet ou d’erreur ? :
Je prédis que les battements de coeur seront plus élevés chez les gens qui font du sport comparés aux gens en repos.
A) Durant le sport, ceux qui cours ont une augmentation de leur rythme cardiaque
B) Durant le repos, certains anxieux ont une augmentation de leur ryhtme cardiaque
C) Durant le sport, certains sont athlètes et n’ont pas d’augmentation du rythme cardiaque
A) Variance d’effet/expliquée par le modèle
B) Variance d’erreur/non expliquée par le modèle
C) Variance d’erreur/non expliquée par le modèle
Compréhension
Si j’augmente l’intensité de ma manipulation expérimentale, qu’arrive-t-il à ma variance d’effet et d’erreur ?
A) La variance d’effet et d’erreur diminuent
B) La variance d’effet et d’erreur augmentent
C) La variance d’effet diminue et la variance d’erreur augmente
D) La variance d’effet augmente et la variance d’erreur diminue
E) La variance d’effet ne change pas, ni la variance d’erreur
D) Si j’augmente l’intensité de ma manipulation expérimentale, je m’attends à ce que ma variance d’effet augmente et que la variance d’erreur diminue
Ex. 1 consommation d’alcool VS 6 consommations d’alcool
L’écart-type représente la variance d’effet ou la variance d’erreur ?
L’écart-type représente la variance d’erreur
Si ma variance expliquée par le modèle est plus importante que la variance non expliquée par le modèle, le résultat risque d’être statistiquement significatif ?
Oui !
Quel type de devis est-il favorable pour réduire la variance d’erreur ?
Le devis à groupes dépendants/mesure répétée
Compréhension
Pourquoi les devis à groupes dépendants/mesures répétées diminuent la variance d’erreur ?
Puisque les groupes sont équivalents, c’est-à-dire qu’on compare les participants à eux-mêmes, la variance individuelle n’est donc pas ajoutée à la variance d’erreur. Cela augmente la variance d’effet, ainsi que la puissance statistique du test.
- Les résultats seront influencés par la manipulation et non en raison de variantion individuelle entre deux participants différents.
Quels sont les avantages de choisir un devis à mesure répétées ? :
A) Diminue la variance d’erreur
B) Augmente la variance d’effet
C) Assure l’équivalence entre les participants
D) Augmente la puissance statistique
E) Toutes ces réponses
E) Toutes ces réponses !