Analyse et généralisation des résultats Flashcards
Lorsqu’on a les données d’une Mesure Dépendante pour une population entière, nous pouvons calculer son … (ex : score moyen d’un test) Très rare…
Paramètre
Mais si nous avons les données d’un sous-ensemble de la population (échantillon), on infère qqch à propos de cette population, donc c’est …
une statistique
Le but de l’analyse inférentielle est
Estimer ou connaître les caractéristiques des populations
Analyse descriptive …
Synthétiser les données dans des nombres qui décrivent les caractéristiques de l’échantillon ou de la population (autant pour une population entière OU échantillon)
Première étape de l’analyse quantitative
L’analyse descriptive s’intéresse particulièrement à trois caractéristiques :
- La tendance centrale,
- La variabilité;
- La distribution
La tendance centrale?
Elle nous dit comment l’échantillon est caractérisé en tant qu’ensemble.
- La moyenne prend en considération toutes les valeurs dans l’ensemble de données, que ces valeurs soient extrêmes ou non. Elle représente le centre de gravité de l’ensemble des données.
- Médiane : score qui divise l’échantillon en deux (50%). Elle n’est pas influencée par les scores extrêmes.
La moyenne arithmétique (M ou 𝑥ҧ): Calcule en additionnant tous les éléments de l’ensemble concerné, et en divisant cette somme par le nombre d’éléments additionnés.
La variabilité?
C’est un ensemble de données décrite comme la dispersion des données autour de la moyenne. Les données peuvent être proche ou dispersées. C’est la distance.
Les scores des participants d’un ensemble de données ne sont pas tous pareils.
La distance des données par rapport à la moyenne est appelé … (pour population), et … (pour un échantillon).
- écart-type
- erreur de standard (SD/σ)
La SD affectera aussi la forme de la DISTRIBUTION de l’ensemble des données.
La distribution?
Elle nous permet de caractériser les données, parce qu’elle réfère à la notion de modèle de probabilité
L’application de certains test statistiques (tests t) nécessitent que la distribution des données respecte la loi normale (les données doivent être normalement distribuées.). L’histogramme pourrait nous visuellement représenter la distribution en divisant les données individuelles en classes p.11
La distribution normale?
On peut superposer une courbe sur la distribution des fréquences des données. Courbe en cloche (ou distribution normale). Elle représente la fréquence ou la densité (probabilité) des données.
Dans la nature, la grandeur (dans le graphique) est un élément qui est naturellement distribué.
Axe Y : Probabilité relative d’observer qqqun qui a une grandeur spécifique. (Exemple : c’est très rare de voir quelqu’un qui est extrêmement petit/grand, alors la courbe en cloche est très base pour cette partie du graphiqu). Mais il est plus commun que qqun est proche de la grandeur moyenne, alors la courbe monte/plus haute. )
On peut donc utiliser la densité de la courbe pour comprendre la probabilité de mesurer une grandeur spécifique dans cette population.
Les distributions sont toujours centrées sur la ….
La courbe des bébés est BEAUCOUP PLUS HAUTE que celle des adultes. PCQ il y a bcp plus de possibilités de grandeur chez les adultes. Plus il y a d’options de grandeur, moins il est probable de voir quelqu’un qui aura une grandeur spécifique. La densité de la courbe sera conc plus faible.
moyenne de la valeur.
La forme de la distribution normale est influencée par … (largeur de la courbe).
l’écart-type des données
Lorsque les données sont distribuées, on peut utiliser la moyenne et l’écart-type pour les caractéristiques davantage.
Qu’est-ce qu’on veut dire pas “Intervalle de confiance à 95%” ?
L’estimation de la position de la taille de la personne en se basant sur la moyenne et l’écart-type. Elle est 95% dans ce cas-ci.
Il y a donc une très grande probabilité qu’un enfant de sexe masculin serait né avec une grandeur de plus ou moins 1.2 pouces de la moyenne de la population. Et il peut probable de mesurer un homme qui mesure plus ou moins 1.2 pouces de la moyenne de la population.
Les deux écart-type gauche et droite représente donc 95% des données (intervalle de confiance). Elle est comme une probabilité aussi.
Le théorème central limite ?
Est relié à l’échantillonnage à partir d’une population – il stipule que lorsque de nombreux échantillons d’une population sont tirés, la distribution de l’échantillonnage qui en résulte devient de plus en plus normale lorsque la taille globale de l’échantillon augmente — peu importe la forme de la distribution de la population
Cela se produit même si la distribution d’une population n’est pas normale.
- Distribution uniforme :…
- Distribution exponentielle :…
- Asymétrique :…
- Distribution uniforme : Probabilité égale. Pas de différence dans la probabilité de mesurer une valeur. Chaque valeur possible sous la courbe a une probabilité/chance égale d’être mesurée.
- Distribution exponentielle : Très forte de probabilité dans l’extrémité, et chute de manière exponentielle, alors que la courbe progresse.
- Asymétrique : Il y a une plus faible/forte sur le côté d’extrémité. On ne sait pas la forme de la distribution de cette population, il faudra mesure la population entière pour le savoir. Mais difficile de faire une inférence dans ce type de distribution sans augmenter la taille de la population (qui tient à se normaliser).
on ne sait pas à quoi à l’air la distribution de la population. Le théorème de central limite dit : on s’en fiche ! La moyenne de la distribution sera normalement distribuée car … assez grande on peut obtenir une … et la ….
Nous pouvons nous fier à des échantillons pour inférer sur la population.
- avec une taille de l’échantillonnage
- estimation précise de la moyenne
- variance de la population
Statistiques inférentielles?
Les statistiques inférentielles sont utilisées pour calculer la probabilité qu’une différence observée entre les moyennes dans une étude reflète l’erreur plutôt que la différence réelle
L’erreur d’échantillonnage (chance aléatoire) est la différence entre la statistique de l’échantillon utilisée pour estimer un paramètre de la population et la vraie valeur du paramètre, qui nous est inconnue
La moyenne de l’échantillon observée pourrait refléter la vraie mesure trouvée dans la population, ou une erreur d’échantillonnage, ou une combinaison des deux