Cours 4 Flashcards
La population:
• 100% des informations concernant un phénomène;
• la totalité des observations qui pourrait être faite;
• Présente la VÉRITÉ ABSOLUE d’un phénomène naturel;
Attention: il faut que la mesure soit valide!
En effet, la vérité est obtenue à partir de la mesure. Si la mesure porte à faire des
erreurs, ce sera une vérité absolue, mais faussée (validité / fidélité).
La population:
Dans la plupart du cas, il est quasi impossible de mesure une population:
• Le degré de motivation à l’égard des formations en statistique;
• L’âge du premier accouchement;
• La perception de compétence des étudiants à l’égard du cours PSY 1004;
• Le salaire de la population québécoise;
Est-ce possible de mesurer ces populations? difficile
Recensement:
Lorsque l’on prend une mesure à partir d’une population;
• Temps requis pour terminer un programme de baccalauréat à l’UdeM;
• La note moyenne des étudiants à l’examen mi-session du cours PSY 1004
L’échantillon:
Les informations concernant un phénomène obtenues sur une parcelle des observations réelles (existantes);
• L’information disponible au sujet d’un phénomène;
Sondage: Lorsqu’on prend une mesure à partir d’un échantillon;
• L’échantillon représente une estimation du phénomène dans la population;
Exemple: Les intentions de vote émises par 1000 personnes;
La population et l’échantillon:
• Le principe sous-jacent à cette manipulation: l’échantillon s’avère la meilleure estimation de la population;
• La population est donc, en termes statistiques, l’ensemble d’unités généralisé par un modèle statistique (échantillon);
• Échantillon est directement mesurable;
Inférence statistique:
L’inférence consiste à tirer une conclusion au sujet des caractéristiques de la population (qui sont inconnues) à partir des caractéristiques de l’échantillon (qui sont connues);
Que signifie “caractéristiques” ?
Les paramètres (caractéristique d’une population) VS les statistiques (caractéristique d’un échantillon)
paramètre : est utilisé pour décrire les caractéristiques de la distribution de la population;
statistique : est utilisé pour décrire les caractéristiques d’un échantillon OU de la distribution de la population, par l’intermédiaire d’une inférence;
Ex: sa moyenne, sa variance, son écart-type, son asymétrie et son aplatissement, etc.
Les paramètres sont décrits avec des lettres de l’alphabet grec
Les statistiques sont décrites avec des lettres de l’alphabet latin
Utilisation de l’inférence statistique
Une estimation implique une probabilité.
Lorsque nous faisons une estimation, il est possible de faire une erreur: une erreur d’inférence.
Les statistiques issues de l’échantillon permettent de faire une inférence au sujet des paramètres de la population, mais cette inférence pourrait être erronée.
Ex.: dans notre échantillon, les personnes aux cheveux bruns sont meilleures à l’école que celles aux cheveux noirs, nous inférons que cela est aussi le cas dans la population.
Nous n’avons pas nécessairement raison!
Comment choisir un échantillon
• L’estimation des paramètres de la population réalisée à partir de statistiques présume que l’échantillon est représentatif;
• Les caractéristiques de l’échantillon doivent être similaires à celles que l’on retrouve dans la population; (même moyenne…)
• La distribution d’un échantillon représentatif devrait ressembler à la distribution de la population (la forme et les caractéristiques de la distribution);
Une incertitude permanente:
ce ne sont pas toutes les personnes concernées d’une population qui sont prises en considération.
Il est important de prendre un échantillon représentatif;
Les individus qui composent l’échantillon ont les mêmes caractéristiques que ceux de la population, idéalement dans les mêmes proportions;
Trois critères de validité des échantillons:
• La taille de l’échantillon;
• Le critère de la chance égale;
• Le critère de l’indépendance des réponses;
Le critère de la chance égale
Échantillon aléatoire simple: Chaque individu de la population a une chance égale d’être choisie;
Échantillon aléatoire stratifié: combiner aléatoire et représentativité / stratification:
• Les strates correspondent à des caractéristiques connues de la population;
• On souhaite de tester le degré de motivation des étudiants à l’égard de la formation en statistique, il est connu que dans la population, il y a 50% en 1re année, 30% en 2e année et 15% en 3e année;
• L’échantillon stratifié idéal serait constitué de 50 % d’étudiants en 1re année, 30 % d’étudiants en 2e année, et 15 % d’étudiants en 3e année choisissons au hasard
La taille de l’échantillon
Qualité de l’estimation faite par un échantillon en fonction de son n
• Plus grand est un échantillon, plus il sera représentatif de la population dont il est extrait;
• La relation entre la taille de l’échantillon et la représentativité n’est pas linéaire;
L’indépendance des scores:
La réponse d’une personne ne peut pas être influencée par la réponse d’une autre personne;
• On voulait étudier l’attitude à l’égard de la statistique, mais les étudiants proviennent d’une même classe de statistique PSY1004 dont le cours est offert par une professeure affreuse…
• Le vote secret VS le vote à main levée en présence d’un dictateur;
Indépendance et degrés de liberté
Le calcul de m et de 𝛸 est identique : chaque observation est indépendante;
Le calcul de s et de s est différent: la division, pour les échantillons se fait par
𝑛 − 1;
𝑛 − 1 = les degrés de liberté (d.l.); (on enlève un degré de liberté)
La division par 𝑛 − 1 produit un estimé non biaisé de s de la population
à partir de la s de l’échantillon;
Degrés de liberté (degree of freedom)
Première raison:
• Dans la population, il existe des valeurs très extrêmes;
Les valeurs très extrêmes affectent beaucoup la variance;
QI de 230 = extrême
Première raison:
• Un échantillon exclura probablement ces valeurs extrêmes;
• La variance de l’échantillon sera alors plus petite que la variance dans la population;
• La division par n – 1 compense ce biais en exagérant légèrement la variance de l’échantillon, ce qui produit une meilleure estimation de la variance de la population;
L’inférence statistique exige le respect du critère d’indépendance pour toutes les observations d’une distribution;
Pourtant, il y a une des différences qui n’est jamais indépendante;
Si m = 5
Voici 4 observations:
X1 = 4
X2 = 6
X3 = 8
X4 =?
Pour estimer la variance sans biais, nous retirons une observation;
Toutes les observations restantes sont maintenant indépendantes, telles que l’exige la règle de la randomisation
• Lorsque nous travaillons avec de grands échantillons, la division par n - 1 ou par n produit presque le même résultat;
• Néanmoins, par mesure de prudence, afin de distinguer s de s nous utilisons toujours n -1 lorsque nous calculons la variance de nos échantillons;
• La correction pour les degrés de liberté est extrêmement importante lorsque les échantillons sont de petite taille;
• Dans certains champs disciplinaires, nous sommes contraints de nous servir de petits échantillons; (en psychologie)