COURS 4 Flashcards

1
Q

Définition de l’inférence?

A

L’inférence consiste à tirer une conclusion au sujet des caractéristiques de la population (qui sont inconnues) à partir des caractéristiques de l’échantillon (qui sont connues).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

comment se nomme une mesure a partir de la population?

A

Lorsque l’on prend une mesure à partir d’une population, elle se nomme «recensement»

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qu’est-ce qu’une population?

A

Constitue un groupe complet ou un groupe inaccessible que nous souhaitons connaître.
Le signe est N.
Représente 100 % des informations concernant un phénomène ou un groupe.
La population représente LA VÉRITÉ ABSOLUE au sujet d’un phénomène, d’une caractéristique, de la relation entre deux variables, etc.
Théoriquement, c’est la vérité car l’information est obtenue pour toutes les personnes / entités constituant la population. IL FAUT TOUTEFOIS AVOIR UNE MESURE VALIDE ET FIDÈLE.
L’ensemble des personnes / entités auxquelles s’appliquent les conclusions d’une recherche ou d’une analyse.
«l’ensemble» d’unités (personnes, entités) généralisé par un modèle statistique (échantillon).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Donne des exemples d’échantillon

A

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelle est la meilleure estimation de la population

A

Le principe sous-jacent à cette «manipulation» est que l’échantillon s’avère le meilleur estimé de la population.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Donne des exemples de population

A

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Que signifie “caractéristique”?

A

ce sont les paramètres:
Le terme «paramètre» («parameters») est utilisé pour décrire les caractéristiques de la distribution de la population.
Les caractéristiques de la distribution d’une population ou d’un échantillon sont entre autres sa moyenne, sa variance, son écart-type, son asymétrie et son aplatissement, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est-ce qu’une statistique

A

Le terme «statistique» est utilisée pour décrire les caractéristiques d’un échantillon OU de la distribution de la population, par l’intermédiaire d’une inférence.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Comment s’écrivent les caractéristiques (paramètres)/statistiques

A

Les paramètres sont décrits avec des lettres de l’alphabet Grec.
Les statistiques sont décrites avec des lettres de l’alphabet Latin.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

que signifie o^2 ou s^2

A

variance (pop VS échantillon)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

que signifie o ou s

A

écart-type (sigma) pop VS échantillon

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

p (rho) ou r

A

la corrélation (pop VS échantillon)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

est-ce que l’inférence est une valeur sure

A

non, c’est une estimation, donc il y a une possibilité de faire une erreur (erreur d’inférence)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

donne des exemples d’inférences (formulation)

A

Si nous obtenons une corrélation «r» entre x et y, mesurées à l’aide d’un échantillon, nous «inférons» que la corrélation dans la population est «r» («rho»).
Si dans notre échantillon, les personnes aux cheveux bruns sont meilleures à l’école que celles aux cheveux noirs, nous inférons que cela est aussi le cas dans la population.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qu’est-ce qui constitue un échantillon représentatif

A

Puisque nous voulons répondre à une question à propos de la population et que nous n’avons accès qu’à un échantillon, il est idéal que les caractéristiques de l’échantillon soient similaires à celles que l’on retrouve dans la population
La distribution d’un échantillon représentatif devrait ressembler à la distribution de la population (la forme et les caractéristiques de la courbe sont similaires).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Comment créer un échantillon représentatif?

A

Il faut utiliser un échantillon aléatoire simple. Grâce aux lois du hasard, s’il contient un nombre «suffisamment» grand d’observations, l’échantillon sera la représentation la plus fidèle de la population
Les caractéristiques se distribuent de manière “normale”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Quels sont les 3 critères de l’échantillon aléatoire?

A

Le critère de la chance égale : chaque individu de la population a une chance égale d’être choisi.
Randomisation / échantillon aléatoire / échantillon probabiliste.

La taille de l’échantillon

Le critère de l’indépendancedes réponses : la réponse d’une personne ne doit pas être influencée par la réponse d’une autre personne.
Éthique : anonymat, confidentialité.
Vote à main levée.
Deux personnes d’une même famille dans l’échantillon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

quels sont les types d’échantillonnage aléatoire?

A

1) Échantillon aléatoire simple.
Chaque élément d’une population a une chance égale d’être contacté / choisi (tirage au sort), peu importe ses caractéristiques (quand nous ne les connaissons pas dans la population).
2)Échantillon aléatoire stratifié -> le plus précis (combine aléatoire et représentativité / stratification).
Les strates correspondent à des caractéristiques connues de la population (exemple de la diapo suivante avec les types de cours de statistiques).

3)Échantillon par grappes
Groupes VS individus (ex. : classe, unités administratives, etc.
c’est classe vs classe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

quels types d’échantillonnage faut-il éviter pour faire des inférences?

A

1) Accidentel: au hazard, ex: passe devant la cafétéria. la représentation n’est pas fidèle

2)Volontaire: c’est les parricipants qui doivent s’en occuper. ex: aller sur site internet.
3)par quotas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Comment fonctionne l’échantillon stratifié?

A

Imaginons que dans la population: 50 % des cours sont dispensés au cégep, 40 % le sont au bacc. et 10 % le sont aux études supérieures / graduées.
L’échantillon représentatif idéal (et stratifié, serait constitué de 50 % d’étudiants de cégep, 40 % d’étudiants de bac et de 10 % d’étudiants à la maîtrise ou au doctorat choisis au hasard.
autres exemples: sexe, âges, générations,

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

pourquoi l’échantillon stratifié est-il intéressant à utiliser

A

il s’assure que notre échantillon est représentatif. cependant il demande à ce qu’on aille plus d’infos sur notre population.

23
Q

comment la taille de N modifie la représentativité?

A

Dans une population normalement distribuée, les observations proches de m sont plus nombreuses les observations qui s’en éloignent sont plus rares (comme pour l’échantillon et M).
Aléatoirement, un échantillon plus grand à plus de chances d’inclure ces observations plus rares.
Donc, plus l’échantillon est grand, plus il a de chances d’être représentatif, i.e. de ressembler à la population

24
Q

pourquoi divise-t-on la variance/écart-type par N-1 dans les échantillons
(DEGRES DE LIBERTÉ)

A

si on divisait par N, la variance serait plus petite que celle de la pop réelle puisqu’il y a plus de valeurs extrêmes dans la pop que dans l’échantillon.
Dans toute population, il existe des valeurs très extrêmes et nous savons que ces valeurs affectent beaucoup la variance (x-m)².
Un échantillon restreint, relativement à la population exclura probablement ces valeurs extrêmes (très rares).
La variance de l’échantillon sera alors plus petite que la variance dans la population. Ceci est un biais.
La division par n – 1 compense ce biais en «exagérant» légèrement la variance de l’échantillon, ce qui produit une meilleure estimation de la variance de la population

25
Q

vrai ou faux : Les statistiques estiment les paramètres seulement lorsque l’échantillon est aléatoire.

A

vrai

26
Q

formule de la variance (échantillon et pop)

A

s² = (x - m)² / N
o^2 = (X- ¯𝛸)²/n - 1

27
Q

la randomisation exige le respect de quels critères?

A

La randomisation exige le respect des deux critères (indépendance et chance égale) pour toutes les observations d’une distribution

28
Q

définition de “Théorie”

A

La théorie : une représentation de la réalité.

29
Q

définition de “Hypothèse alternative”

A

L’hypothèse alternative (H ou H1 dépendamment des ouvrages).
La prédiction que la manipulation ou expérimentation aura un effet (lien, différence entre les variables, prédiction, etc.).
Une conséquence observable qui sera vraie si la théorie est juste.
L’hypothèse (H1) prédit que quelque chose est vrai dans la population..

Mais, n’ayant pas accès à la population, l’hypothèse se vérifie par l’entremise des échantillons et des inférences.
Existe-t-il une corrélation (un lien)

30
Q

définition de “Hypothèse nulle”

A

L’hypothèse nulle (H0): l’inverse de H1.
La théorie ou prédiction est erronée
on ne peut pas prouver que qqch existe pas.
c’est l’absence du lien ou de la théorie.

31
Q

donne un exemple de vérification de l’hypothèse (en donnant les étapes)

A

1) La théorie : la Terre est ronde.
2) L’hypothèse alternative: l’horizon est courbé.
3) L’hypothèse nulle : l’horizon n’est pas courbé (la terre est plate).

4)La vérification de l’hypothèse : on compare l’horizon à une ligne droite. Si les deux lignes ne sont pas parallèles, nous rejetons l’hypothèse nulle, retenons l’hypothèse alternative et par conséquent, nous sommes plus confiants que la théorie représente bien la réalité (sans jamais en être certains).

32
Q

exemple d’hypothèses

A

H1 : l’habileté statistique diffère pour les hommes et les femmes.
H0 : l’habileté statistique ne diffère pas pour les hommes et les femmes. Elle est similaire.

L’habileté statistique se mesure par un test de mathématiques.
H1: m notesF ≠ m notesH ; H0 : m notesF = m notesH

33
Q

Qu’est-ce que la signification statistique

A

La signification statistique porte directement sur la relation entre l’échantillon et la population.
(Exemple). Lorsque nous trouvons une corrélation «statistiquement significative» entre x et y, nous inférons qu’il y a de faibles chances que la corrélation x et y au niveau de la population soit en réalité égale à zéro (0 = aucune corrélation).
Lorsque nous trouvons une différence «statistiquement significative» entre la performance scolaire des filles et des garçons, nous inférons qu’il y a de faibles chances qu’au niveau de la population la différence entre les filles et les garçons soit égale à zéro.

34
Q

vrai ou faux : Si H0 ne peut pas être rejetée, cela ne veut pas nécessairement dire que H1 est fausse. Nous sommes limités à dire «que nous ne pouvons pas accepter H1 ».

A

vrai (le rejet de H0 mène a l’acceptation de H1 mais l’inverse n’est pas le cas) exemple:
H1: il y a des missiles nucléaires en CN.
H0: il n’y a pas de missiles nucléaires en CN.

On fouille toutes les villes de la CN et nous de trouvons que des pétards.
Cela ne prouve pas que les missiles nucléaires n’existent pas, car elles pourraient être dans les campagnes (il y en a d’ailleurs un dans le gazébo de Kim mais il l’a bien caché sous une couverture).
On fouille les campagnes et nous n’en trouvons pas.
Cela ne prouve pas qu’ils n’existent pas, car elles pourraient être mieux cachés que notre habileté à les trouver !
Le non-rejet de H0 ne prouve pas que H1 est fausse

35
Q

quels sont les 4 concepts d’inférence?

A

1) Si H0 est rejetée (fausse), H1 est nécessairement vraie.
2) Si H0 n’est pas rejetée (n’est pas fausse), il n’y a pas de preuve confirmant H1 mais H1 n’est pas nécessairement fausse.
3) Nous ne pouvons jamais prouver qu’une H1 est fausse (que le phénomène n’existe pas) à partir d’un échantillon.
4) Pour prouver que quelque chose n’existe pas, il faut examiner la population complète, ce qui est généralement irréalisable.

36
Q

est-ce que tu peux prouver que qqch n’existe pas?

A

non, peut-etre les outils ne sont pas assez bons pour détecter ce qui est étudié.
il ne faut pas dénigrer ce qui est faux car on ne sait jamais quelles seront les nouvelles évidences.
Au final, la méthode scientifique ne permet jamais de conclure (i.e. de prouver) que quelque chose n’existe pas. Nous sommes limité a conclure qu’il n’y a pas de preuve (en fonction de la science actuelle) que la chose existe

37
Q

quoi établir lorsque deux moyennes (n) diffèrent?

A

Si les ¯𝛸 des deux échantillons A et B (ou ¯𝛸 est m) diffèrent, les deux échantillons (ou ¯𝛸) ne proviennent pas d’une seule population.

38
Q

qu’est-ce que La fluctuation des échantillons aléatoires?

A

Il est très probable (quasi certain) que deux échantillons de la même taille, extraits de la même population, aient des ¯𝛸 numériquement différentes.

De manière équivalente, n’importe quel échantillon extrait aléatoirement d’une population n’aura pas nécessairement la même ¯𝛸 que celle de sa population.
exemple:
Dans une classe, N = 160, la moyenne a l’examen est m = 70 et les notes varient entre 0 et 100.
Nous désirons estimer m à partir d’un échantillon aléatoire de n = 5 de cette classe. Quelle sera ¯𝛸 pour cet échantillon:
En pratique ¯𝛸 pourrait être 70 (74, ou 0, ou 100, ou 43 ou 87 etc.).
Tirons un deuxième échantillon n = 5.
En pratique ¯𝛸 pourrait être 70 mais ¯𝛸 pourrait aussi être 74 ou 0, 100, etc.

39
Q

quel est le synonyme de l’erreur d’échantillonnage

A

erreur type de la moyenne - L’erreur d’échantillonnage: la fluctuation naturelle entre les échantillons tirés de la même population.
Différent échantillons extraits de la même population ne sont pas nécessairement composées des mêmes observations.
-L’erreur type de la moyenne («standard error») : la fluctuation naturelle entre les ¯𝛸 des échantillons tirés de la même population.

40
Q

comment l’erreur type de la moyenne vient nuancer le principe d’inférence (hypothèses et vérification)

A

Nouvelle règle d’inférence :
Rejet de H0 lorsque la différence entre la moyenne des échantillons (ou entre ¯𝜲 et m) est plus grande que l’erreur-type de la moyenne.

INFÉRENCE EN RÉSUMÉ:
Implique une conclusion au sujet de la population à partir d’un l’échantillon.
Exige la formulation de H1 et de H0.
Se réduit a la décision: H1 ou H0.
La décision H1 vs H0 dépend de la différence entre ¯𝛸 et m ou entre les ¯𝛸 de plusieurs échantillons.
Mais il faut prendre en considération l’erreur type de la moyenne («standard error»).
Rejet de H0 si la différence entre les moyennes est plus grande que l’erreur type de la moyenne.

41
Q

Quels sont les types d’erreurs d’inférence?

A

ERREUR DE TYPE 1 (alpha)
Conclure qu’un phénomène existe alors qu’il n’existe pas consiste en une erreur de type I (alpha; «type I error»)
Conclure qu’il existe une différence entre deux moyennes, un lien entre deux variables (etc.) alors qu’en réalité il n’existe pas de différence ou de lien.
Conclure à tort au rejet de H0.
Il s’agit d’un «faux positif».
ERREUR DE TYPE II (BETA)
Conclure qu’un phénomène n’existe pas alors qu’il existe consiste en une erreur de type II (bêta; «type II error»)
Conclure qu’il n’existe pas de différence entre deux moyennes, aucun lien entre deux variables (etc.) alors qu’en réalité la différence ou le lien existe.
Conclure à tort au non-rejet de H0.
Il s’agit d’un «faux négatif».

42
Q

Quel postulat de l’inférence?

A
  • Nous présumons que le ou les échantillons sont aléatoirement extraits de populations normalement distribuées.
  • Il n’est pas requis que l’échantillon soit parfaitement normalement distribué mais il lui faut être aléatoirement extrait.
43
Q

quelle est la fluctuation type?

A

Imaginons que nous tirons tous les échantillons de même taille d’une population et que nous calculons la ¯𝛸 de chaque échantillon.
Calculons la différence moyenne (typique?) entre les ¯𝛸.
Ce calcul produit «un chiffre» qui spécifie le degré de fluctuation entre les ¯𝛸.

Ceci ressemble à un écart-type; fluctuation type, mais au niveau des échantillons et non de la distribution.

44
Q

la différence typique entre les Moy et la Moy(pop) ressemble à quoi?

A

elle ressemble à la variance (la moyenne des écart à la moyenne des X)

45
Q

qu’est-ce l’erreur type de la moyenne?

A

o^2 X est la variance des moyennes des échantillons de la population.
La racine carrée de o^2 ¯𝛸 produit «l’écart-type» des ¯𝛸 autour de m. C’est l’erreur type de la moyenne (s ¯𝛸).

«L’erreur type de la moyenne» (s ¯𝛸 ) est la fluctuation «typique» ou «habituelle» entre les ¯𝛸 des échantillons provenant de la même population.
Si nous connaissions toutes les ¯𝛸 de tous les échantillons il serait facile de calculer s ¯𝛸 .

46
Q

comment calculer la différence typique de la moyenne (puisque nous n’avons pas toutes les moyennes de la pop disponible)

A

Nous connaissons toujours la taille (n) de notre échantillon.
Lorsque la variance de la population (s² et s) est connue, la différence typique probable entre ¯𝛸 et m peut être estimée o ¯𝜲.

Mais nous avons un problème ! Nous ne connaissons presque jamais s² ou s !
L’axiome statistique peut nous aider: s est le meilleur estimé de s.
Nous pouvons alors utiliser s.
ALORS (ÉCHANTILLON)=
Sx = s/racine de n

47
Q

comment faire une estimation de u(moyenne pop) à l’aide de Xmoy et Sx?

A

Règle décisionnelle
L’échantillon n’appartient PAS a cette population (rejet de H0) si la différence entre ¯𝛸 et m est plus grande que s¯𝛸.
76,31-73,49 = 2,82; 2,82 > 2,39

¯𝛸 n=21= 76,31

s¯𝛸 = 2,39

76,31 + 2,39 = 78,70
76,31 – 2,39 = 73,92

Rejet de H0 ? Oui.

Il faut créer l’intervalle de confiance (± s¯𝛸) à partir de la ¯𝛸 de l’échantillon. Si m est inclus dans l’intervalle, il faut accepter H0. L’échantillon appartient à la population, il n’est pas si différent de m.
Si m est à l’extérieur de l’intervalle, il faut accepter H1. L’échantillon est trop différent de m. Il doit appartenir à une autre population.

48
Q

comment ajuster l’intervalle de confiance (IC) pour baisser le risque d’erreur alpha?

A

il faut augmenter l’intervalle de confiance ==> Accroitre les bornes soit en:
-En augmentant l’erreur-type de la moyenne (s¯𝛸).
-En choisissant un seuil alpha plus petit (0,01 plutôt que 0,05).
-En réduisant le nombre d’observations n.

49
Q

comment calculer l’intevalle de confiance?

A

IC = ¯𝛸 ± z s¯𝜲
¯𝛸 = la moyenne de l’échantillon
s¯𝜲 = l’erreur type de la moyenne
z = la taille de l’intervalle de confiance: il réfère au nombre de s¯𝜲 qui vont être utilisés pour établir les bornes. Le plus souvent oublié.

En général nous utilisons z = 1,96 (p < 0,05); 2,58 (p < 0,01) et à l’occasion z = 3,1 (p < 0,001).

49
Q

comment réduire le risque d’erreurs beta en jouant avec l’IC?

A

Erreur bêta: conclure au non-rejet de H0 alors qu’en réalité cela est faux.
Il faut réduire les bornes de l’IC.
En réduisant l’erreur-type de la moyenne (s¯𝛸).
En choisissant un seuil alpha plus grand (0,05 plutôt que 0,01).
En augmentant le nombre d’observations n.

50
Q

comment choisir quel risque d’erreur réduire?

A

Le choix entre la réduction de l’erreur de type I ou l’erreur de type II dépend totalement du risque d’erreur que l’on désire minimiser.

Si fondamentalement, la conséquence de faire une erreur de type II est plus grave que la conséquence d’une erreur de type I, réduisons l’erreur beta (et vice-versa).

exemple1
Un médicament «guérit» le SIDA. En fonction des différences individuelles, le médicament guérit seulement 1 % des patients (taille de l’effet = petite). Si nous utilisons un petit n dans notre étude, il est peu probable que nous allons conclure H1, car le médicament ne peut pas guérir beaucoup de gens. Il est plus probable de conclure H0. Le médicament ne sera pas mis sur le marché

Mais guérir 1 % des patients d’une maladie aussi grave est important dans ce cas. Donc nous serions mieux de nous servir de grands échantillons, pour vérifier si réellement 1 % des gens sont guéris et d’éviter une erreur de type II. Avec un grand n, nous concluons à la signification statistique et le médicament est mis sur le marché.
exemple 2:
Un médicament «guérit» le rhume. En fonction de différences individuelles, le médicament guérit seulement 1 % des patients. Si nous utilisons un très grand n dans notre étude, il est fort probable que conclure au rejet H0. Le médicament sera mis sur le marché.

Mais guérir seulement 1 % des patients n’est pas important dans ce cas. Le rhume n’est pas mortel, alors donner le médicament à tous serait une perte de ressources. . Si nous utilisons un petit n dans notre étude, il est peu probable de conclure au rejet de H0. Le médicament ne sera pas mis sur le marché.