Module 5: notions relatives au statistiques Flashcards
fait référence à des mesures qui permettent de localiser le centre d’une distribution de scores. Spécifiquement, son objectif est de résumer en un seul nombre la valeur typique ou la plus représentative d’un ensemble de scores.
mesures de tendance centrale
-
-
- moyenne
- mode
- médiane
qui quantifie le taux de variabilité des données autour de la valeur centrale.
une mesure de dispersion
Il existe trois mesures habituelles de dispersion:
- étendue
- variance
- écart-type
Valeur la plus fréquente dans une distribution
mode
Observation du milieu d’une distribution de scores
Médiane
Elle se calcule en additionnant les valeurs observées de chaque participant divisées par le nombre de participants observés.
La moyenne
Le mode est rarement employé seul pour mesurer la tendance centrale, parce qu’avec un petit nombre d’observations, chaque valeur est unique. Dans ce cas, _________________.
Le mode est rarement employé seul pour mesurer la tendance centrale, parce qu’avec un petit nombre d’observations, chaque valeur est unique. Dans ce cas, il n’y a pas de mode.
représente la mesure la plus courante de tendance centrale.
La moyenne
la valeur de part et d’autre de laquelle se situe la moitié des observations.
La médiane
La médiane : Pour la mesurer, on établit la liste des observations individuelles par ordre ____ ou ______
Pour la mesurer, on établit la liste des observations individuelles par ordre croissant ou décroissant.
En général, on préfère utiliser la _____à la ______ parce que la ______ est calculée en utilisant un maximum d’informations de toutes les observations.
En général, on préfère utiliser la moyenne à la médiane parce que la moyenne est calculée en utilisant un maximum d’informations de toutes les observations.
En effet, le calcul de la______ fait intervenir les valeurs de toutes les observations alors que la _____représente l’information d’une seule observation.
En effet, le calcul de la moyenne fait intervenir les valeurs de toutes les observations alors que la médiane représente l’information d’une seule observation.
De plus, une partie importante des tests statistiques repose sur la _____. Toutefois, le désavantage de la moyenne est qu’elle est très sensible aux ________ alors que la médiane ne l’est pas du tout.
De plus, une partie importante des tests statistiques repose sur la moyenne. Toutefois, le désavantage de la moyenne est qu’elle est très sensible aux valeurs extrêmes alors que la médiane ne l’est pas du tout.
Indice de la variabilité des scores d’une distribution autour de la moyenne
Variance
Différence entre la valeur la plus petite et la plus grande d’une distribution
Étendue
Indice de la variabilité des scores d’une distribution autour de la moyenne.
écart-type
Écart-type : il s’agit simplement de la ______
racine carrée de la variance
_____ et _____ (qui sont intimement reliées) représentent les mesures de variabilité les plus courantes et les plus instructives. Elles mesurent la dispersion (ou l’écart) de chaque observation autour de la moyenne.
La variance et l’écart-type
le signe utilisé pour représenter la variance _____ (σ2) diffère de celui utilisé pour ______ (s2).
le signe utilisé pour représenter la variance d’une population (σ2) diffère de celui utilisé pour un échantillon (s2).
Distribution de fréquence d’une variable symétriquement distribuée autour de la moyenne selon une courbe normale.
Concept de la distribution normale
La distribution normale est une distribution théorique «en forme de _____» et est appelée normale parce qu’elle représente bien la distribution de plusieurs phénomènes observés dans la ______ (e.g. la taille, le poids, l’âge, la capacité intellectuelle, etc).
La distribution normale est une distribution théorique «en forme de cloche» et est appelée normale parce qu’elle représente bien la distribution de plusieurs phénomènes observés dans la nature (e.g. la taille, le poids, l’âge, la capacité intellectuelle, etc).
Entre 1 écart-type en dessous (-1s) et au dessus (+1s) de la moyenne, on retrouve __% des scores (représenté par la zone verte foncée) donc __% des scores d’un côté et de l’autre de moyenne jusqu’à la valeur correspondant à un écart-type
Entre 1 écart-type en dessous (-1s) et au dessus (+1s) de la moyenne, on retrouve 68% des scores (représenté par la zone verte foncée) donc 34% des scores d’un côté et de l’autre de moyenne jusqu’à la valeur correspondant à un écart-type
Entre 2 écart-types en dessous (-2s) et au dessus (+2s) de la moyenne, on retrouve ___% des scores.
Entre 2 écart-types en dessous (-2s) et au dessus (+2s) de la moyenne, on retrouve 96% des scores
Entre 3 écart-types en dessous (-3s) et au dessus (+3s) de la moyenne, on retrouve __% des scores.
Entre 3 écart-types en dessous (-3s) et au dessus (+3s) de la moyenne, on retrouve 99% des scores.
La comparaison de 2 distributions de scores nécessite l’utilisation d’une échelle unique à toutes les distributions. Pour ce faire, les scores de chaque distribution sont transformés en _____ à partir de la moyenne et de l’écart- type de leur distribution respective
score Z
Le score Z d’un score x de la distribution correspond au nombre ________ en dessous ou au dessus de la ______ de la distribution.
Le score Z d’un score x de la distribution correspond au nombre d’écart-types en dessous ou au dessus de la moyenne de la distribution.
A noter que la transformation d’une distribution en scores Z ne change pas la _____ de la distribution mais sa moyenne devient ___ et son écart- type (s) = __.
A noter que la transformation d’une distribution en scores Z ne change pas la forme de la distribution mais sa moyenne devient 0 et son écart- type (s) = 1.
Lorsque nous faisons une analyse de différence entre 2 échantillons à partir de leur moyenne respective pour une variable donnée, nous assumons que ces échantillons sont représentatifs de la population d’où ils sont tirées mais, spécifiquement, que la moyenne de chaque ______ est représentative de la moyenne de chaque ______.
Lorsque nous faisons une analyse de différence entre 2 échantillons à partir de leur moyenne respective pour une variable donnée, nous assumons que ces échantillons sont représentatifs de la population d’où ils sont tirées mais, spécifiquement, que la moyenne de chaque échantillon est représentative de la moyenne de chaque population.
Une façon de pouvoir obtenir un estimé plus précis de la moyenne de la population serait de tirer plusieurs échantillons (disons 10 échantillons) et de déterminer la moyenne (et l’écart-type) de ces 10 moyennes d’échantillons. Cette distribution de « 10 moyennes » est appelée « ________» et permet d‘estimer la vraie moyenne de la population.
« distribution des moyennes échantillonnales »
L’écart-type d’une distribution de moyennes échantillonales
Erreur-type de la moyenne (SEM)
est l’intervalle autour de la moyenne d’un échantillon à l’intérieur duquel on obtient une probabilité (en %) de trouver la vraie moyenne de la population.
intervalle de confiance de la moyenne d’un échantillon
Concept de _________
La vérification que la différence entre les moyennes de 2 échantillons est statistiquement significative repose sur : la probabilité que les moyennes des 2 échantillons soient semblables à celle des population d’ou elles proviennent
Concept de différence significative
-
- une vrai différence
- une différence attribuable à une erreur d’échantillonnage
Dans ce processus de comparaison de deux moyennes, trois facteurs vont influencer (ou favoriser) la probabilité d’observer des différences significatives entre deux groupes:
1) ________ (l’écart mathématique entre les deux moyennes)
2) ________ (l’écart-type de chaque groupe)
3) ___________
1) La variabilité inter-groupe (l’écart mathématique entre les deux moyennes)
2) La variabilité intra-groupe (l’écart-type de chaque groupe)
3) Le nombre de sujets par groupe
Pas de différence significative entre les moyennes des 2 échantillons
hypothèse nulle H0
Différence significative entre les moyennes des 2 échantillons
Hypothèse alternative H1
Les test statistiques permettent de déterminer la probabilité que _______ soit vrai.
l’hypothèse nulle
Le processus de différences entre deux moyennes nécessitent d’énoncer deux types d’hypothèses qui seront vérifiées par les tests statistiques. Initialement, toute comparaison de moyenne vérifie _______(H0) à l’effet qu’il n’y a pas de différence significative entre les moyennes de deux échantillons.
l’hypothèse nulle
___ : μ1 = μ2.
H0
___ : μ1 ≠ μ2.
H1
Si les tests statistiques montrent qu’il _______ entre les deux moyennes, alors le chercheur accepte l’hypothèse nulle.
Si les tests statistiques montrent qu’il ________ entre les deux moyennes, alors le chercheur rejette l’hypothèse nulle.
Si les tests statistiques montrent qu’il n’y a pas de différence entre les deux moyennes, alors le chercheur accepte l’hypothèse nulle.
Si les tests statistiques montrent qu’il y a une différence entre les deux moyennes, alors le chercheur rejette l’hypothèse nulle.
Si les tests statistiques montrent qu’il y a une différence entre les deux moyennes, alors le chercheur ________ l’hypothèse nulle.
rejette
Si les tests statistiques montrent qu’il n’y a pas de différence entre les deux moyennes, alors le chercheur _______ l’hypothèse nulle.
accepte
Probabilité de tirer une conclusion incorrecte en rejetant l’hypothèse nulle
Niveau α
Niveau de signification observé lors de l’analyse des résultats
Valeur α
Niveau α
Niveau habituel : α = ___ ou ____
5 % ou 0,05
Cette probabilité d’erreur que l’on appelle la valeur α ou le niveau de signification peut différer d’une étude à l’autre mais elle se situe généralement à 5%. Cela signifie qu’il y a seulement 5% de chance qu’une différence entre les deux moyennes soit due à une _________ et ne soit pas une _______.
Cette probabilité d’erreur que l’on appelle la valeur α ou le niveau de signification peut différer d’une étude à l’autre mais elle se situe
généralement à 5%. Cela signifie qu’il y a seulement 5% de chance qu’une différence entre les deux moyennes soit due à une erreur d’échantillonnage et ne soit pas une vraie différence.
la probabilité réelle d’énoncer une conclusion erronée à partir des résultats d’un test statistique s’appelle ____
valeur p (probabilité)
la probabilité réelle d’énoncer une conclusion erronée à partir des résultats d’un test statistique s’appelle la valeur p (probabilité) et est donnée après chaque test statistique. Donc, dans vos articles, pour chaque test utilisé, il devrait y avoir une valeur de ___ .
la probabilité réelle d’énoncer une conclusion erronée à partir des résultats d’un test statistique s’appelle la valeur p (probabilité) et est donnée après chaque test statistique. Donc, dans vos articles, pour chaque test utilisé, il devrait y avoir une valeur de p.
Si la valeur p du test statistique est plus _____ que la valeur (α) pré-établie, le chercheur ____ l’hypothèse nulle et conclue à des différences significatives entre les deux moyennes.
Si la valeur p du test statistique est plus petite (inférieure) que la valeur (α) pré-établie, le chercheur rejette l’hypothèse nulle et conclue à des différences significatives entre les deux moyennes.
MPORTANT : Si la valeur __ du test statistique est plus petite (inférieure) que la valeur ___ pré-établie, le chercheur rejette l’hypothèse ____ et conclue à ___________ entre les deux moyennes.
MPORTANT : Si la valeur p du test statistique est plus petite (inférieure) que la valeur (α) pré-établie, le chercheur rejette l’hypothèse nulle et conclue à des différences significatives entre les deux moyennes.