Cours 4 Flashcards
Def. population
- Groupe complet ou groupe inaccessible que nous souhaitons connaître
- Représente 100% des infos concernant un phénomène ou un groupe
- Représente la vérité absolue au sujet d’un phénomène = car l’info pour le phénomène est obtenue pour toutes les personnes constituant la population
- L’ensemble des personnes auxquelles s’appliquent les conclusions d’une recherche
Def. échantillon
- Consiste en ce que nous connaissons et ce que nous avons accès
- Informations obtenues sur une petite partie de la population qui est normalement distribuée (pas bcp de symétrie, ni d’aplatissement)
- Meilleur estimé de la population
- Directement mesurable
Quels sont les principales raisons pour lesquelles nous étudions des échantillons au lieu des populations?
- Moins cher
- Accessible / possible
- Moins long
Def. population en termes statistiques
L’ensemble d’unités (personnes) généralisé par un modèle statistique (échantillon)
Associe les prises de mesures avec la proportion de la population
a) Population
b) Échantillon
1) Recensement
2) Sondage
a) et 1)
b) et 2)
En quoi consiste l’inférence statistique?
- À tirer une conclusion au sujet des caractéristiques d’une population à partir des caractéristiques mesurées d’un échantillon
- Consiste à estimer les paramètres de la population à partir des statistiques de l’échantillon
Def. paramètre et symboles utilisés
- Décrit les caractéristiques de la population
- Alphabet Grec
Def. statistique et symboles utilisés
- Décrit les caractéristiques de l’échantillon OU de la population par l’intermédiaire d’une inférence
- Alphabet latin
Exemples de caractéristiques de la distribution d’une population ou d’un échantillon
Moyenne, écart-type, score-z, variance, asymétrie, aplatissement, etc.
Quels sont les symboles pour les caractéristiques suivantes (autant pour paramètre que pour statistique):
- Moyenne
- Variance
- Écart-type
- Corrélation
(voir diapo 18 pour symboles)
Paramètre :
- Moyenne = mu
- Variance = sigma^2
- Écart-type = sigma
- Corrélation = rho
Statistique :
- Moyenne = M ou X barre
- Variance = s^2
- Écart-type = s
- Corrélation = r
Def. erreur d’inférence
Erreur quand on estime les paramètres à partir des statistiques
Est-ce que l’inférence qu’on fait sur la population à partir de l’échantillon est nécessairement vraie?
Non ça dépend si l’échantillon représente bien notre population
Caractéristiques d’un échantillon représentatif
- Est semblable à la population
- La forme et les caractéristiques de la courbe sont similaires (ex. asymétrie, aplatissement, etc.)
Comment peut-on moduler notre échantillon pour qu’il soit le + représentatif possible de notre population?
- Augmenter la taille de la population
- Échantillonage aléatoire simple (lois du hasard)
3 critères de l’échantillon aléatoire
1- Critère de la chance égales
2- Taille de l’échantillon
3- Critère de l’indépendance des réponses
Def. critère de la chance égale
Chaque individu de la population a une chance égale d’être choisi (randomisation)
Def. de l’indépendance des réponses
La réponse d’un participant ne doit pas être influencée par la réponse d’un autre participant (anonymat, confidentialité)
3 types d’échantillons aléatoires
1- Échantillon aléatoire simple
2- Échantillon aléatoire stratifié
3- Échantillon par grappes
Def. échantillon aléatoire simple
Chaque élément d’une population a une chance égale d’être choisi (hasard), peu importe ses caractéristiques
Def. échantillon aléatoire stratifié
- Le + précis
- Combine aléatoire et représentativité (respecte lois du hasard, mais augmente la représentativité)
- Les strates correspondent à des caractéristiques connues de la population
- Sert à représenter la population le + précisément possible
Def. échantillon par grappes
Par groupes de personnes qui sont choisis au hasard
Vrai ou faux: on doit nécessairement savoir la taille de la population pour inférer
Vrai
Explique pourquoi une taille élevée de l’échantillon est plus représentatif de la population
- Dans une population normalement distribuée, la majorité des observations sont proches de la moyenne. Plus on s’éloigne de la moyenne, plus les données sont rares.
- Plus la taille de l’échantillon est élevée = + on inclut les données extrêmes
- Donc taille élevée d’échantillon = échantillon représentatif
Pourquoi est-ce que les calculs de variance et d’écart-type sont différents entre l’échantillon et la population?
Population = divise par N
Échantillon = divise par n-1
- À cause des degrés de liberté :
Il existe des valeurs très extrêmes qui ne sont (probablement) pas prises en compte dans l’échantillon qui est + restreint -> échantillon = - de variance, ce qui est un biais -> division par n-1 exagère la variance de l’échantillon, ce qui permet une meilleure estimation de la variance de la population - Lorsqu’on calcule l’écart-type il faut faire la soustraction d’une valeur à la moyenne. Les critères de randomisation exigent que chaque différence (valeur-moyenne) soit indépendante, mais ce n’est pas le cas : un des écarts n’est jamais indépendant (on est tjrs capable d’en deviner un, car on sait que la somme de tous les écarts = 0). On fait donc n-1 pour l’éliminer.
Def. théorie
Représentation de la réalité
Def. hypothèse alternative (H1)
- Prédiction que l’expérimentation aura un effet (que quelque chose est vrai dans la population)
- Confirme la théorie
Def. hypothèse nulle (H0)
- Théorie ne fonctionne pas
- Absence d’effets
- Les échantillons proviennent de la même population (X et mu = similaires)
Quelle est la conséquence d’une différence entre la moyenne d’un échantillon est la moyenne d’une population
- L’échantillon qui n’a pas une même moyenne que la population doit obligatoirement venir d’une autre population
- Quand les moyennes ne sont pas pareilles, cela signifie que H1 est accepté, car on affirme qu’il y a une différence entre les 2 groupes (ex. notes des femmes et des hommes, si les moyennes des notes des 2 groupes sont différentes = ils ne peuvent pas provenir de la même population) -> voir diapo 46
Def. signification statistique
Lorsque nous trouvons une ressemblance, une différence, une corrélation, etc. significative entre deux variables au niveau de l’échantillon, nous inférons pour la population. Mais on peut se tromper…
Si H0 est rejetée, qu’arrive-t’il avec H1?
H1 est nécessairement vraie
Si H0 n’est pas rejeté, qu’arrive-t’il avec H1?
- Le non-rejet de H0 ne prouve pas nécessairement que H1 est fausse (on ne peut pas non plus affirmer que H1 est vraie)
- On ne peut jamais prouver qu’une H1 est fausse (que le phénomène n’existe pas) à partir d’un échantillon, parce que peut être que les résultats qui nous permettent de prouver que H1 est vraie sont dans la population qui n’a pas été sélectionnée pour faire partie de l’échantillon
En sciences, est-il possible d’affirmer que quelque chose n’existe pas?
Non, on a pas de preuves pour prouver que quelque chose n’existe pas. On peut seulement prouver que les phénomènes existent.
Vrai ou faux: 2 échantillons de la même taille, extraits d’une même population ont toujours la même moyenne
Faux, ils n’ont pas nécessairement la même moyenne et leur moyenne n’est pas nécessairement la même moyenne que celle de la population
Quelle est la cause de l’erreur d’échantillonnage
La fluctuation naturelle entre les échantillons tirés d’une même population (différents échantillons ne seront pas composés de toutes les mêmes observations)
Quelle est la cause de l’erreur type de la moyenne
La fluctuation naturelle entre les moyennes des échantillons tirés d’une même population (la moyenne des échantillons extraits d’une même population ne sera pas nécessairement la même)
Quand exactement est-ce qu’on rejette H0
Quand la différence entre la moyenne de l’échantillon et la moyenne de la population ou les moyennes de deux échantillons est plus grande que l’erreur type de la moyenne -> l’échantillon n’appartient pas à la population
Def. erreur de type I
- Conclure qu’un phénomène existe alors qu’il n’existe pas / rejette H0, alors qu’il n’aurait pas fallu le rejeter
- Faux positif
Def. erreur de type II
- Conclure qu’un phénomène n’existe pas, alors qu’il existe / on aurait dû rejeter H0
- Faux négatif
En quoi consiste l’inférence scientifique?
Consiste à décider s’il est possible de rejeter l’hypothèse nulle : seulement lorsque la différence entre la moyenne de la population et la moyenne de l’échantillon est plus grand que l’erreur type de la moyenne
Lorsqu’on créé la distribution à l’aide des moyennes des échantillons que peut-on en tirer?
- La plupart des échantillons ont un moyenne proche de la moyenne de la population
- Si on a bcp d’échantillons, la distribution sera “normale”
- La moyenne de tous les échantillons sera égale à la moyenne de la population
La population de référence doit toujours avoir une distribution normale pour qu’on puisse inférer. Qu’arrive-t’il à la distribution des échantillons lorsque la distribution de la population est anormale (asymétrie, aplatissement, etc.)?
La distribution des échantillons est toujours normale, dans ce cas-ci elle ne représenterait pas bien la population. C’est pourquoi la population doit être normale pour qu’on puisse inférer.
À partir d’une population, on tire tous les différents échantillons qui ont la même taille. On calcule ensuite la moyenne de chaque échantillon. Les caractéristiques suivantss seront-elles semblables ou différentes:
a) Observations qui forment les échantillons
b) Moyennes des échantillons
a) Différents
b) Différents
Def. erreur-type de la moyenne
C’est la fluctuation “typique” entre les moyennes des échantillons provenant de la même population
Quelle est la proportion d’erreur d’inférence conventionnelle?
p = 0,05 -> ce qui signifie qu’on a slm 5% de chances de se tromper lorsqu’on rejette H0 (c’est-à-dire que lorsqu’on affirme que l’échantillon appartient à une autre population, on a slm 5% de chances de se tromper)
Quel est le pourcentage des moyennes des échantillons qui se retrouvent à plus ou moins un erreur type de la moyenne de la population? Et ça donne combien de % d’erreur?
68% et 32% -> bcp de chances de se tromper
Quel est le pourcentage des moyennes des échantillons qui se retrouvent à plus ou moins deux erreurs types de la moyenne de la population? Et ça donne combien de % d’erreur?
95% et 5% -> pas bcp de chances de se tromper