cours 9 Flashcards
Qu’est ce que le paramètre de la population?
C’est lorsque nous avons les données d’une mesure dépendante particulière (ex: le score à une échelle) pour une population entière, nous pouvons calculer le paramètre (ex: le score moyen d’une certaine population)
Qu’est ce qu’une statistique?
C’est si nous collectons des données seulement à partir d’un sous-ensemble de la population (un échantillon) et que nous visons à inférer quelque chose à propos de cette population
Quelle est le but de l’analyse statistique inférencielle?
C’est d’estimer ou de connaître (même si ça peut être imparfait) les caractéristiques des populations, en se basant sur les caractéristiques des échantillons de ces populations
Qu’est ce que l’analyse descriptive?
- Si un ensemble de données provienne d’un échantillon ou de la population entière, ça consiste à synthétiser les données dans des nombres qui décrivent les caractéristiques de l’échantillon ou de la population.
- L’analyse descriptive s’intéresse à trois choses : la
tendance centrale, la variabilité et la distribution
Dans l’analyse descriptive, qu’est ce que la tendance centrale?
Cette mesure dit comment l’échantillon est caractérisé en tant qu’ensemble. Il y a plusieurs mesures de tendance centrale :
1. moyenne : quand il y a des valeurs extrêmes dans les données, ça influencent le calcul de la moyenne, ce qui peut parfois masquer des réalités
- médiane : score qui divise l’échantillon en deux (50% des scores sous la médiane, et 50% des scores au-dessus). Elle n’est pas influencée par les scores extrêmes
Dans l’analyse descriptive, qu’est ce que la variabilité?
- C’est lorsque les scores des participants d’un ensemble de données ne sont pas tous pareils. C’est comme la dispersion des données autour de la moyenne. Les données peuvent être proches de la
moyenne ou plus dispersées autour de la moyenne. il s’agit donc d’une distance. - Dans les analyses descriptive, c’est l’écart-type (l’erreur standard), ce qui est la moyenne de l’écart de
chaque donnée individuelle par rapport à la moyenne.
Par quoi est représenté l’écart-type dans l’analyse descriptive?
- C’est représenté comme SD (standard deviation) ou avec le signe de sigma (σ)
- Un SD plus élevé reflète un plus haut niveau de variabilité dans les données (quand la distance entre les scores est en moyenne plus élevée)
- Un SD plus faible reflète une plus faible variabilité dans les données (quand la distance entre les scores est en moyenne plus faible)
- Le SD affectera aussi la forme de la distribution de l’ensemble des données
Qu’est ce que l’étude de la distribution d’un ensemble, dans l’analyse descriptive?
Elle nous permet de caractériser les données, mais elle réfère aussi à la notion de modèle de probabilité. Ex : l’application de certains tests statistiques (test t)
nécessitent que la distribution des données respecte la loi normale, les données doivent être normalement distribuées.
- Une bonne façon d’avoir une vue d’ensemble sur la distribution est : construire une distribution de fréquence des données (histogramme)
Pour dessiner une distribution normale avec un intervalle de confiance de 95%, que faut-il connaître?
1) la moyenne des données, qui nous dit où le centre de la courbe se situe
2) L’écart-type, qui nous dit à quel point la courbe sera large (plus elle est large, plus elle est courte (grand ecart-type) et plus elle est étroite, plus elle est haute (petit écart-type)
Qu’est ce que le théorème central limite?
- Un théorème qui stipule que lorsque de nombreux échantillons d’une population sont tirés, leur distribution devient de plus en plus normale lorsque la taille globale de l’échantillon augmente, peu importe la forme de la distribution de la population
- En gros, nous pouvons obtenir une estimation normalement distribuée de la moyenne et de la variance d’une population avec un échantillon suffisamment grand. pk?
- car si nous prenions la moyenne de tous les échantillons de la distribution, elle serait égale à la moyenne de la population
- Et si on calcule l’écart-type de tous les échantillons et on mesure leur moyenne, elle correspondrait à
l’écart type de la population
et ce, si la taille de l’échantillon globale assez grande
Qu’est ce qu’une population et un échantillon?
- Une population est l’ensemble du groupe d’intérêt (ex: toutes les personnes atteinte de l’Alzheimer)
- Un échantillon est un sous-ensemble de la population cible
Qu’est ce que les statistiques inférencielles?
- Les statistiques inférentielles utilisent un échantillon de la population pour caractériser quelque chose qui est vrai à propos de cette population et créent des énoncés sur la probabilité qu’un résultat basé sur un échantillon, soit également observé dans la population
Pourquoi dans les statistiques inférentielles, la différence entre deux moyennes de 2 ne sera presque jamais zéro, pourquoi?
parce qu’il y a toujours une certaine quantité d’erreur d’échantillonnage dans nos observations
L’erreur d’échantillonnage : la différence entre la statistique de l’échantillon utilisée pour estimer un
paramètre de la population et la vraie valeur du paramètre, qui nous est inconnue = chance aléatoire
vrai ou faux, la moyenne de l’échantillon observée pourrait refléter la vraie mesure trouvée dans la
population, ou une erreur d’échantillonnage, ou une combinaison des deux. Les statistiques inférentielles sont donc utilisées pour calculer la probabilité qu’une
différence observée entre les moyennes dans une étude reflète l’erreur plutôt que la différence réelle
vrai
Qu’est ce que l’erreur-standard? (ES)
r la moyenne de l’échantillon et sa mesure de variance
Vu qu’on assume que les échantillons sont distribués normalement, ont peut utiliser la moyenne de l’échantillon et sa mesure de variance, appelée l’erreur standard (ES), pour estimer les paramètres de la population
vrai
plus 2 échantillons/distributions) se chevauchent, moins ils sont différents entre eux, moins la différence observé entre les moyennes est vraie. Puis, moins 2 distributions se chevauchent, plus ils sont différent, et plus il est probable que la différence entre les moyennes est vraie.
vrai
Comment fonctionne les statistiques inférentielles?
Ça commence par une hypothèse nulle et une
l’hypothèse alternative (ou de recherche) :
1. hypothèse nulle (H0) : les moyennes de la population sont égales et la différence observée est due à une erreur
2. hypothèse de recherche (H1) :les moyennes de population ne sont pas égales
Vrai ou faux, quand l’hypothèse nulle (H0) est vraie,
il y a un chevauchement complet entre les distributions des deux populations, mais quand l’hypothèse de recherche (H1) est vraie, il y a peu de chevauchement entre les distributions des deux populations
vrai
Qu’est ce que le test t indépendant?
- Ce test estime s’il existe une différence réelle entre les moyennes de deux groupes, en utilisant la différence des moyennes des groupes par rapport à l’erreur standard combinée des deux groupes.
- Lorsque les échantillons sont évalués en utilisant un test t, une distribution t est utilisée
- La distribution t est utilisée à la place de la distribution normale parce que les vraies
moyenne et variance des populations sont inconnues, on utilise alors une estimation par échantillonnage - un échantillon est distribué normalement seulement si la taille d’échantillon est suffisante - la distribution t tient donc compte de la taille de l’échantillon
Vrai ou faux, La forme de la distribution t est dépendante de la taille d’échantillon (pr qu’elle soit normal) qui est caractérisée par le nombre de degrés de liberté (df) : calculé en utilisant les tailles
d’échantillons des deux groupes : N1 + N2 – 2 (ou le nombre total de participants moins le nombre total de groupes)
vrai
Vrai ou faux, La distribution t est arrangée en assumant que l’hypothèse nulle (H0) est vrai. C’est pourquoi il y a une valeur t de 0 au centre
de la distribution t , qui reflète une absence de
différence entre les moyennes des populations
vrai