Cours 4 Flashcards

1
Q

La population:

A

• 100% des informations concernant un phénomène;
• la totalité des observations qui pourrait être faite;
• Présente la VÉRITÉ ABSOLUE d’un phénomène naturel;
Attention: il faut que la mesure soit valide!
En effet, la vérité est obtenue à partir de la mesure. Si la mesure porte à faire des
erreurs, ce sera une vérité absolue, mais faussée (validité / fidélité).

La population:
Dans la plupart du cas, il est quasi impossible de mesure une population:
• Le degré de motivation à l’égard des formations en statistique;
• L’âge du premier accouchement;
• La perception de compétence des étudiants à l’égard du cours PSY 1004;
• Le salaire de la population québécoise;
Est-ce possible de mesurer ces populations? difficile

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Recensement:

A

Lorsque l’on prend une mesure à partir d’une population;
• Temps requis pour terminer un programme de baccalauréat à l’UdeM;
• La note moyenne des étudiants à l’examen mi-session du cours PSY 1004

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

L’échantillon:

A

Les informations concernant un phénomène obtenues sur une parcelle des observations réelles (existantes);
• L’information disponible au sujet d’un phénomène;
Sondage: Lorsqu’on prend une mesure à partir d’un échantillon;
• L’échantillon représente une estimation du phénomène dans la population;
Exemple: Les intentions de vote émises par 1000 personnes;

La population et l’échantillon:
• Le principe sous-jacent à cette manipulation: l’échantillon s’avère la meilleure estimation de la population;
• La population est donc, en termes statistiques, l’ensemble d’unités généralisé par un modèle statistique (échantillon);
• Échantillon est directement mesurable;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Inférence statistique:

A

L’inférence consiste à tirer une conclusion au sujet des caractéristiques de la population (qui sont inconnues) à partir des caractéristiques de l’échantillon (qui sont connues);

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Que signifie “caractéristiques” ?
Les paramètres (caractéristique d’une population) VS les statistiques (caractéristique d’un échantillon)

A

paramètre : est utilisé pour décrire les caractéristiques de la distribution de la population;

statistique : est utilisé pour décrire les caractéristiques d’un échantillon OU de la distribution de la population, par l’intermédiaire d’une inférence;
Ex: sa moyenne, sa variance, son écart-type, son asymétrie et son aplatissement, etc.

Les paramètres sont décrits avec des lettres de l’alphabet grec

Les statistiques sont décrites avec des lettres de l’alphabet latin

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Utilisation de l’inférence statistique

A

Une estimation implique une probabilité.
Lorsque nous faisons une estimation, il est possible de faire une erreur: une erreur d’inférence.

Les statistiques issues de l’échantillon permettent de faire une inférence au sujet des paramètres de la population, mais cette inférence pourrait être erronée.

Ex.: dans notre échantillon, les personnes aux cheveux bruns sont meilleures à l’école que celles aux cheveux noirs, nous inférons que cela est aussi le cas dans la population.
Nous n’avons pas nécessairement raison!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Comment choisir un échantillon

A

• L’estimation des paramètres de la population réalisée à partir de statistiques présume que l’échantillon est représentatif;
• Les caractéristiques de l’échantillon doivent être similaires à celles que l’on retrouve dans la population; (même moyenne…)
• La distribution d’un échantillon représentatif devrait ressembler à la distribution de la population (la forme et les caractéristiques de la distribution);

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Une incertitude permanente:

A

ce ne sont pas toutes les personnes concernées d’une population qui sont prises en considération.
Il est important de prendre un échantillon représentatif;
Les individus qui composent l’échantillon ont les mêmes caractéristiques que ceux de la population, idéalement dans les mêmes proportions;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Trois critères de validité des échantillons:

A

• La taille de l’échantillon;
• Le critère de la chance égale;
• Le critère de l’indépendance des réponses;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Le critère de la chance égale

A

Échantillon aléatoire simple: Chaque individu de la population a une chance égale d’être choisie;
Échantillon aléatoire stratifié: combiner aléatoire et représentativité / stratification:
• Les strates correspondent à des caractéristiques connues de la population;
• On souhaite de tester le degré de motivation des étudiants à l’égard de la formation en statistique, il est connu que dans la population, il y a 50% en 1re année, 30% en 2e année et 15% en 3e année;
• L’échantillon stratifié idéal serait constitué de 50 % d’étudiants en 1re année, 30 % d’étudiants en 2e année, et 15 % d’étudiants en 3e année choisissons au hasard

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

La taille de l’échantillon

A

Qualité de l’estimation faite par un échantillon en fonction de son n
• Plus grand est un échantillon, plus il sera représentatif de la population dont il est extrait;
• La relation entre la taille de l’échantillon et la représentativité n’est pas linéaire;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

L’indépendance des scores:

A

La réponse d’une personne ne peut pas être influencée par la réponse d’une autre personne;
• On voulait étudier l’attitude à l’égard de la statistique, mais les étudiants proviennent d’une même classe de statistique PSY1004 dont le cours est offert par une professeure affreuse…
• Le vote secret VS le vote à main levée en présence d’un dictateur;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Indépendance et degrés de liberté

A

Le calcul de m et de 𝛸 est identique : chaque observation est indépendante;
Le calcul de s et de s est différent: la division, pour les échantillons se fait par
𝑛 − 1;
𝑛 − 1 = les degrés de liberté (d.l.); (on enlève un degré de liberté)
La division par 𝑛 − 1 produit un estimé non biaisé de s de la population
à partir de la s de l’échantillon;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Degrés de liberté (degree of freedom)
Première raison:

A

• Dans la population, il existe des valeurs très extrêmes;
Les valeurs très extrêmes affectent beaucoup la variance;
QI de 230 = extrême

Première raison:
• Un échantillon exclura probablement ces valeurs extrêmes;
• La variance de l’échantillon sera alors plus petite que la variance dans la population;
• La division par n – 1 compense ce biais en exagérant légèrement la variance de l’échantillon, ce qui produit une meilleure estimation de la variance de la population;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

L’inférence statistique exige le respect du critère d’indépendance pour toutes les observations d’une distribution;
Pourtant, il y a une des différences qui n’est jamais indépendante;
Si m = 5
Voici 4 observations:
X1 = 4
X2 = 6
X3 = 8
X4 =?

A

Pour estimer la variance sans biais, nous retirons une observation;
Toutes les observations restantes sont maintenant indépendantes, telles que l’exige la règle de la randomisation

• Lorsque nous travaillons avec de grands échantillons, la division par n - 1 ou par n produit presque le même résultat;
• Néanmoins, par mesure de prudence, afin de distinguer s de s nous utilisons toujours n -1 lorsque nous calculons la variance de nos échantillons;
• La correction pour les degrés de liberté est extrêmement importante lorsque les échantillons sont de petite taille;
• Dans certains champs disciplinaires, nous sommes contraints de nous servir de petits échantillons; (en psychologie)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

La méthode scientifique repose sur trois concepts centraux :

A

La théorie : une représentation de la réalité.

L’hypothèse: Une conséquence observable qui sera vraie si la théorie est juste.

La vérification de l’hypothèse: Un ensemble de procédures logiques qui vérifient si l’hypothèse a une bonne ou une mauvaise chance d’être vraie.

17
Q

La théorie:

A

• Une représentation de la réalité;
• Elle permet de faire des prédictions observables;
• Doit être testable;
• Ex.: La théorie de l’attachement;

18
Q

Hypothèses:

A

L’hypothèse (H1) prédit que quelque chose est vrai dans la population;
H1 : La violences conjugales influence l’attachement des jeunes enfants;
Mais, n’ayant pas accès à la population, l’hypothèse se vérifie par l’entremise des échantillons et des inférences;

19
Q

Vérification de l’hypothèse

A

La vérification empirique de la théorie exige deux hypothèses:

Hypothèse : une conséquence observable qui découle de l’hypothèse;

Hypothèse nulle: l’inverse de l’hypothèse;

La vérification de l’hypothèse: accepter ou rejeter l’hypothèse;

La vérification:
L’hypothèse alternative (H1) prédit que quelque chose est vrai dans la population.
• H1: Les enfants subissant la violence conjugale présentent plus souvent un attachement insécure.
• H0: Les enfants subissant la violence conjugale ne présentent pas un attachement insécure plus fréquent que les enfants issus de la famille normale.

L’hypothèse se vérifie par l’entremise des échantillons et des inférences;

20
Q

Logique du jeu d’hypothèse H1 vs H0

A

H1: il y a des cygnes noirs.
H0: il n’y a pas de cygne noir.

• Le non-rejet de H0 ne prouve pas que H1 est fausse; On ne peut pas accepter l’hypothèse nulle;

• Le rejet de H0 implique nécessairement l’acceptation de H1: il y a des cygnes noirs!

• Si nous rejetons l’hypothèse nulle, son inverse doit nécessairement être vrai;
• Le rejet de H0 mène à l’acceptation de H1 ;
Mais l’inverse n’est pas le cas:
• Si H0 ne peut pas être rejetée, cela ne veut pas nécessairement dire que H1 est fausse;
On a peut-être mal mesuré, on n’a pas réussi à trouver, etc. …

21
Q

Quatre principaux concepts d’inférence

A

• Si H0 est rejetée, H1 est nécessairement vraie

• Si H0 n’est pas rejetée, il n’y a pas de preuve confirmant H1, mais H1 n’est pas nécessairement fausse

• Nous ne pouvons jamais prouver qu’une H1 est fausse (que le phénomène n’existe pas) à partir d’un échantillon

• Pour prouver que quelque chose n’existe pas, il faut examiner la population complète, ce qui est généralement irréalisable;
H1: il y a des extraterrestres.
H0 : il n’y a pas d’extraterrestres.

• On essaye de rejeter l’hypothèse nulle;
• On essaye de trouver des extraterrestres…Mais on n’en trouve pas.
• Est-ce qu’on peut conclure que les extraterrestres n’existent pas? Non

22
Q

Sommaire de la logique de l’inférence

A

• Les hypothèses sont vérifiées par l’entremise d’échantillons et servent à tirer une inférence au sujet de la population;
• Les échantillons sont aléatoirement tirés de la population;
• Lorsque nous rejetons H0, nous concluons que l’échantillon ne provient probablement pas de cette population;
• Lorsque nous ne rejetons pas H0, nous concluons qu’il n’y a pas de preuves que l’échantillon ne provient pas de cette population;

23
Q

La signification statistique

A

• La signification statistique porte directement sur la relation entre l’échantillon et la population;
• Lorsque nous trouvons une corrélation statistiquement significative entre x et y, nous inférons qu’il y a de faibles chances que la corrélation x et y au niveau de la population soit en réalité égale à zéro (0 = aucune corrélation);
• Lorsque nous trouvons une différence statistiquement significative entre la performance scolaire des filles et des garçons, nous inférons qu’il y a de faibles chances qu’au niveau de la population la différence entre les filles et les garçons soit égale à zéro;
Il s’agit d’une inférence, l’erreur est possible.

24
Q

L’erreur d’échantillonnage :

A

la fluctuation naturelle entre les échantillons tirés de la même population;
• Différents échantillons extraits de la même population ne sont pas nécessairement composés des mêmes observations;

25
Q

L’erreur type de la moyenne:

A

la fluctuation naturelle entre les 𝛸 des échantillons tirés de la même population;
• La moyenne des échantillons extraits de la même population ne sera pas nécessairement numériquement la même;
• L’erreur d’échantillonnage et l’erreur type de la moyenne réfèrent au même principe;

26
Q

Principe d’inférence nuancé

A

Principe d’inférence nuancé
• Supposons que nous pouvons chiffrer l’erreur type de la moyenne (la fluctuation naturelle entre les 𝛸 des échantillons);
• L’erreur type = jusqu’à quel point puis-je tolérer qu’une moyenne d’échantillon soit différente d’une moyenne de population ?
• Nouvelle règle d’inférence :
• Rejet de H0 lorsque la différence entre la moyenne des échantillons (ou entre 𝛸 et m) est plus grande que l’erreur type de la moyenne;
Quand la différence entre les populations est plus grande que la différence dans la population

27
Q

Les erreurs d’inférence

A

• L’inférence consiste à conclure H1 ou H0;
• En rejetant H0, nous disons que les échantillons ne proviennent probablement pas de la même population;
• Lorsque nous ne rejetons pas H0, nous ne pouvons pas inférer avec certitude que les échantillons ne proviennent pas de la même population;
• Ces décisions se basent sur des probabilités et non pas des certitudes: la conclusion (H1 ou H0) pourrait être fausse;
• Une conclusion fausse serait une erreur; une erreur d’inférence;

28
Q

Erreur de type 1 (alpha):

A

• Conclure qu’un phénomène existe alors qu’il n’existe pas consiste en une erreur de type I
(alpha; type I error);
• Conclure qu’il existe une différence entre deux moyennes, un lien entre deux variables (etc.) alors qu’en réalité il n’existe pas de différence ou de lien;
• Conclure à tort au rejet de H0;
• Il s’agit d’un faux positif;

Vous établissez le diagnostic de dépression.
Il est réellement dépressif; rejet de H0 : diagnostic juste.
Il a réellement autre chose (anorexie, anxiété, bipolaire, etc.). Il n’est pas dépressif, mais plutôt bipolaire. Mauvais diagnostic : erreur de type I (alpha); faux positif. Vous avez faussement rejeté H0.

29
Q

Erreur de type 2 (bêta):

A

• Conclure qu’un phénomène n’existe pas alors qu’il existe consiste en une erreur de type
II (bêta; type II error);
• Conclure qu’il n’existe pas de différence entre deux moyennes, aucun lien entre deux variables (etc.) alors qu’en réalité la différence ou le lien existe;
• Conclure à tort au non-rejet de H0;
• Il s’agit d’un faux négatif;

Exemples d’erreurs de type I et de type IIf
Vous établissez un diagnostic auprès d’un client de votre clinique.
H1= le client a une dépression majeure.
H0 = le client n’est pas en dépression.

Vous établissez un diagnostic de bipolarité.
Il est réellement bipolaire; accepter H0 était la bonne conclusion.
Il est réellement dépressif. Mauvais diagnostic : erreur de type II (bêta); faux négatif. Vous avez faussement rejeté H1.

La mécanique d’inférence statistique
Imaginons de tirer un échantillon à partir de notre population;
Il y aura une variation naturelle: l’erreur d’échantillonnage;
L’erreur type de la moyenne: la statistique qui estime la taille de la fluctuation dans les moyennes des échantillons causée par l’erreur d’échantillonnage;

30
Q

La fluctuation des échantillons aléatoires

A

Si les 𝛸 des deux échantillons A et B diffèrent, les deux échantillons ne proviennent pas d’une seule population.
H1 = les échantillons ne proviennent pas de la même population; H0 = les échantillons proviennent de la même population;

Le résultat des femmes est: 70%;
Le résultat des hommes est: 75%;
Diffère tout le temps un peu car beaucoup de facteur externes peuvent influencer
Dans ce cas, les 𝛸 des deux échantillons A et B diffèrent;
Pourtant, si on refait l’expérience dans un autre échantillon d’homme, est-ce possible d’avoir une moyenne différente?
70%?
65%?

• Il est très probable que deux échantillons de la même taille, extraits de la même population, aient des 𝛸 numériquement différentes;
• De manière équivalente, n’importe quel échantillon extrait aléatoirement d’une population n’aura pas nécessairement la même 𝛸 que celle de sa population;

31
Q

L’erreur type est influencé par deux choses:

A

La variance de la population:
plus la variance est grande, plus l’erreur d’échantillon et l’erreur type de la moyenne sont grande

Le nombre de l’échantillon:
Plus la taille de l’échantillon est grand , l’erreur est petite

32
Q

Signification statistique

A

quand on rejette l’hypothèse nulle, la conclusion est avancée seulement si le risque qu’elle soit fausse est faible (erreur d’inférence de type I);

• Cette conclusion est déclarée, minimalement, lorsque le risque d’une erreur est en deçà de 5 % (a < 0,05);

• Il est important de rejeter H0seulement si le risque d’erreur alpha est très faible;
• Seuil alpha plus petit : (a = 0,01 ou même a = 0,001);

Attention: les seuils a sont arbitraires et reflètent un consensus (en psychologie);

33
Q

La signification statistique est arbitraire

A

Le choix de p < 0,05 pour définir la signification statistique est une convention pratique aidant à prendre la décision;
Il n’existe aucun rationnel mathématique qui détermine cette valeur. C’est plutôt le risque à prendre qui compte;

Le rejet de H0 est fait en acceptant un risque d’erreur d’inférence (0,05; 0,01; 0,001);

34
Q

Comment réduire le risque d’une erreur alpha?

A

Il faut augmenter les bornes de l’intervalle de confiance en…
- augmenter l’erreur type de la moyenne
- choisir un seuil alpha plus petit (0,01 plutôt que 0,05)
- réduire les nombre d’observations

35
Q

Comment réduire le risque d’une erreur bêta?

A

Il faut réduire les bornes de l’intervalle de confiance en…
- réduire l’erreur type de la moyenne
- choisir un seuil alpha plus grand (0,05 plutôt que 0,01)
- augmenter les nombre d’observations

36
Q

Intervalle de confiance

A

Marge d’erreur de la mesure selon laquelle nous devons relativiser l’interprétation du score

Si l’instrument a une fidélité élevé, l’erreur de mesure est faible, donc l’intervalle de confiance est petit et on peut avoir confiance en les résultats

37
Q

Histoire de médicaments rhume vs cancer

A

Si les deux peuvent seulement guérir 5% de la population

Si on utilise un grand n = probablement mis sur le marché car on va conclure au rejet de Ho
Mais si un petit n= on va pas rejeter Ho

Mais dans le cas du cancer où c’est une maladie mortelle, on veux soigner même si c’est juste 5%