Cours 4 Flashcards
La population:
• 100% des informations concernant un phénomène;
• la totalité des observations qui pourrait être faite;
• Présente la VÉRITÉ ABSOLUE d’un phénomène naturel;
Attention: il faut que la mesure soit valide!
En effet, la vérité est obtenue à partir de la mesure. Si la mesure porte à faire des
erreurs, ce sera une vérité absolue, mais faussée (validité / fidélité).
La population:
Dans la plupart du cas, il est quasi impossible de mesure une population:
• Le degré de motivation à l’égard des formations en statistique;
• L’âge du premier accouchement;
• La perception de compétence des étudiants à l’égard du cours PSY 1004;
• Le salaire de la population québécoise;
Est-ce possible de mesurer ces populations? difficile
Recensement:
Lorsque l’on prend une mesure à partir d’une population;
• Temps requis pour terminer un programme de baccalauréat à l’UdeM;
• La note moyenne des étudiants à l’examen mi-session du cours PSY 1004
L’échantillon:
Les informations concernant un phénomène obtenues sur une parcelle des observations réelles (existantes);
• L’information disponible au sujet d’un phénomène;
Sondage: Lorsqu’on prend une mesure à partir d’un échantillon;
• L’échantillon représente une estimation du phénomène dans la population;
Exemple: Les intentions de vote émises par 1000 personnes;
La population et l’échantillon:
• Le principe sous-jacent à cette manipulation: l’échantillon s’avère la meilleure estimation de la population;
• La population est donc, en termes statistiques, l’ensemble d’unités généralisé par un modèle statistique (échantillon);
• Échantillon est directement mesurable;
Inférence statistique:
L’inférence consiste à tirer une conclusion au sujet des caractéristiques de la population (qui sont inconnues) à partir des caractéristiques de l’échantillon (qui sont connues);
Que signifie “caractéristiques” ?
Les paramètres (caractéristique d’une population) VS les statistiques (caractéristique d’un échantillon)
paramètre : est utilisé pour décrire les caractéristiques de la distribution de la population;
statistique : est utilisé pour décrire les caractéristiques d’un échantillon OU de la distribution de la population, par l’intermédiaire d’une inférence;
Ex: sa moyenne, sa variance, son écart-type, son asymétrie et son aplatissement, etc.
Les paramètres sont décrits avec des lettres de l’alphabet grec
Les statistiques sont décrites avec des lettres de l’alphabet latin
Utilisation de l’inférence statistique
Une estimation implique une probabilité.
Lorsque nous faisons une estimation, il est possible de faire une erreur: une erreur d’inférence.
Les statistiques issues de l’échantillon permettent de faire une inférence au sujet des paramètres de la population, mais cette inférence pourrait être erronée.
Ex.: dans notre échantillon, les personnes aux cheveux bruns sont meilleures à l’école que celles aux cheveux noirs, nous inférons que cela est aussi le cas dans la population.
Nous n’avons pas nécessairement raison!
Comment choisir un échantillon
• L’estimation des paramètres de la population réalisée à partir de statistiques présume que l’échantillon est représentatif;
• Les caractéristiques de l’échantillon doivent être similaires à celles que l’on retrouve dans la population; (même moyenne…)
• La distribution d’un échantillon représentatif devrait ressembler à la distribution de la population (la forme et les caractéristiques de la distribution);
Une incertitude permanente:
ce ne sont pas toutes les personnes concernées d’une population qui sont prises en considération.
Il est important de prendre un échantillon représentatif;
Les individus qui composent l’échantillon ont les mêmes caractéristiques que ceux de la population, idéalement dans les mêmes proportions;
Trois critères de validité des échantillons:
• La taille de l’échantillon;
• Le critère de la chance égale;
• Le critère de l’indépendance des réponses;
Le critère de la chance égale
Échantillon aléatoire simple: Chaque individu de la population a une chance égale d’être choisie;
Échantillon aléatoire stratifié: combiner aléatoire et représentativité / stratification:
• Les strates correspondent à des caractéristiques connues de la population;
• On souhaite de tester le degré de motivation des étudiants à l’égard de la formation en statistique, il est connu que dans la population, il y a 50% en 1re année, 30% en 2e année et 15% en 3e année;
• L’échantillon stratifié idéal serait constitué de 50 % d’étudiants en 1re année, 30 % d’étudiants en 2e année, et 15 % d’étudiants en 3e année choisissons au hasard
La taille de l’échantillon
Qualité de l’estimation faite par un échantillon en fonction de son n
• Plus grand est un échantillon, plus il sera représentatif de la population dont il est extrait;
• La relation entre la taille de l’échantillon et la représentativité n’est pas linéaire;
L’indépendance des scores:
La réponse d’une personne ne peut pas être influencée par la réponse d’une autre personne;
• On voulait étudier l’attitude à l’égard de la statistique, mais les étudiants proviennent d’une même classe de statistique PSY1004 dont le cours est offert par une professeure affreuse…
• Le vote secret VS le vote à main levée en présence d’un dictateur;
Indépendance et degrés de liberté
Le calcul de m et de 𝛸 est identique : chaque observation est indépendante;
Le calcul de s et de s est différent: la division, pour les échantillons se fait par
𝑛 − 1;
𝑛 − 1 = les degrés de liberté (d.l.); (on enlève un degré de liberté)
La division par 𝑛 − 1 produit un estimé non biaisé de s de la population
à partir de la s de l’échantillon;
Degrés de liberté (degree of freedom)
Première raison:
• Dans la population, il existe des valeurs très extrêmes;
Les valeurs très extrêmes affectent beaucoup la variance;
QI de 230 = extrême
Première raison:
• Un échantillon exclura probablement ces valeurs extrêmes;
• La variance de l’échantillon sera alors plus petite que la variance dans la population;
• La division par n – 1 compense ce biais en exagérant légèrement la variance de l’échantillon, ce qui produit une meilleure estimation de la variance de la population;
L’inférence statistique exige le respect du critère d’indépendance pour toutes les observations d’une distribution;
Pourtant, il y a une des différences qui n’est jamais indépendante;
Si m = 5
Voici 4 observations:
X1 = 4
X2 = 6
X3 = 8
X4 =?
Pour estimer la variance sans biais, nous retirons une observation;
Toutes les observations restantes sont maintenant indépendantes, telles que l’exige la règle de la randomisation
• Lorsque nous travaillons avec de grands échantillons, la division par n - 1 ou par n produit presque le même résultat;
• Néanmoins, par mesure de prudence, afin de distinguer s de s nous utilisons toujours n -1 lorsque nous calculons la variance de nos échantillons;
• La correction pour les degrés de liberté est extrêmement importante lorsque les échantillons sont de petite taille;
• Dans certains champs disciplinaires, nous sommes contraints de nous servir de petits échantillons; (en psychologie)
La méthode scientifique repose sur trois concepts centraux :
La théorie : une représentation de la réalité.
L’hypothèse: Une conséquence observable qui sera vraie si la théorie est juste.
La vérification de l’hypothèse: Un ensemble de procédures logiques qui vérifient si l’hypothèse a une bonne ou une mauvaise chance d’être vraie.
La théorie:
• Une représentation de la réalité;
• Elle permet de faire des prédictions observables;
• Doit être testable;
• Ex.: La théorie de l’attachement;
Hypothèses:
L’hypothèse (H1) prédit que quelque chose est vrai dans la population;
H1 : La violences conjugales influence l’attachement des jeunes enfants;
Mais, n’ayant pas accès à la population, l’hypothèse se vérifie par l’entremise des échantillons et des inférences;
Vérification de l’hypothèse
La vérification empirique de la théorie exige deux hypothèses:
Hypothèse : une conséquence observable qui découle de l’hypothèse;
Hypothèse nulle: l’inverse de l’hypothèse;
La vérification de l’hypothèse: accepter ou rejeter l’hypothèse;
La vérification:
L’hypothèse alternative (H1) prédit que quelque chose est vrai dans la population.
• H1: Les enfants subissant la violence conjugale présentent plus souvent un attachement insécure.
• H0: Les enfants subissant la violence conjugale ne présentent pas un attachement insécure plus fréquent que les enfants issus de la famille normale.
L’hypothèse se vérifie par l’entremise des échantillons et des inférences;
Logique du jeu d’hypothèse H1 vs H0
H1: il y a des cygnes noirs.
H0: il n’y a pas de cygne noir.
• Le non-rejet de H0 ne prouve pas que H1 est fausse; On ne peut pas accepter l’hypothèse nulle;
• Le rejet de H0 implique nécessairement l’acceptation de H1: il y a des cygnes noirs!
• Si nous rejetons l’hypothèse nulle, son inverse doit nécessairement être vrai;
• Le rejet de H0 mène à l’acceptation de H1 ;
Mais l’inverse n’est pas le cas:
• Si H0 ne peut pas être rejetée, cela ne veut pas nécessairement dire que H1 est fausse;
On a peut-être mal mesuré, on n’a pas réussi à trouver, etc. …
Quatre principaux concepts d’inférence
• Si H0 est rejetée, H1 est nécessairement vraie
• Si H0 n’est pas rejetée, il n’y a pas de preuve confirmant H1, mais H1 n’est pas nécessairement fausse
• Nous ne pouvons jamais prouver qu’une H1 est fausse (que le phénomène n’existe pas) à partir d’un échantillon
• Pour prouver que quelque chose n’existe pas, il faut examiner la population complète, ce qui est généralement irréalisable;
H1: il y a des extraterrestres.
H0 : il n’y a pas d’extraterrestres.
• On essaye de rejeter l’hypothèse nulle;
• On essaye de trouver des extraterrestres…Mais on n’en trouve pas.
• Est-ce qu’on peut conclure que les extraterrestres n’existent pas? Non
Sommaire de la logique de l’inférence
• Les hypothèses sont vérifiées par l’entremise d’échantillons et servent à tirer une inférence au sujet de la population;
• Les échantillons sont aléatoirement tirés de la population;
• Lorsque nous rejetons H0, nous concluons que l’échantillon ne provient probablement pas de cette population;
• Lorsque nous ne rejetons pas H0, nous concluons qu’il n’y a pas de preuves que l’échantillon ne provient pas de cette population;
La signification statistique
• La signification statistique porte directement sur la relation entre l’échantillon et la population;
• Lorsque nous trouvons une corrélation statistiquement significative entre x et y, nous inférons qu’il y a de faibles chances que la corrélation x et y au niveau de la population soit en réalité égale à zéro (0 = aucune corrélation);
• Lorsque nous trouvons une différence statistiquement significative entre la performance scolaire des filles et des garçons, nous inférons qu’il y a de faibles chances qu’au niveau de la population la différence entre les filles et les garçons soit égale à zéro;
Il s’agit d’une inférence, l’erreur est possible.
L’erreur d’échantillonnage :
la fluctuation naturelle entre les échantillons tirés de la même population;
• Différents échantillons extraits de la même population ne sont pas nécessairement composés des mêmes observations;