Chapitre 8 : Les concepts de l'inférence statistique Flashcards
Qu’est-ce que l’inférence statistique?
L’inférence statistique est un concept fondamental nous permettant de tirer des conclusions.
Qu’est-ce qu’une population?
- La population constitue un groupe complet ou un groupe inaccessible que nous souhaitons connaître.
- Représente 100% des informations concernant un phénomène ou un groupe
- Représente la vérité absolu au sujet d’un phénomène, d’une caractéristique, de la relation entre deux variables, etc.
- Théoriquement, c’est la vérité car l’information est obtenue pour toutes les personnes/entités constituant la population. **Il faut toutefois avoir une mesure valide et fidèle
- Ensemble de personnes auxquelles s’appliquent les conclusions d’une recherche
Qu’est-ce qu’un échantillon?
- L’échantillon consiste en ce que nous connaissons.
- Information disponible au sujet d’un phénomène
- Informations obtenues en parcelle des membres ‘une population
- Est le meilleur estimé de la population
- Est directement mesurable
Quelles sont les différences entre paramètres vs statistiques?
- Le terme “paramètre” est utilisé pour décrire les caractéristiques de la distribution de la population
- Le terme “statistique” est utilisée pour décrire les caractéristiques d’un échantillon ou de la distribution de la population, par l’intermédiaire d’une inférence
- Les caractéristiques de la distribution d’une population ou d’un échantillon sont sa moyenne, sa variance, son écart-type, son asymétrie et son aplatissement
- Les paramètres sont décrit avec l’alphabet grec
- Les stats sont décrits avec l’alphabet latin
Comment utilise-t-on l’inférence statistique?
- L’inférence consiste à “estimer” les paramètres à partir de stats
- Un estimé implique toujours probabilité Ainsi, lorsque nous faisons une estimation, il est possible de faire une erreur d’inférence
Que signifie échantillon représentatif?
Puisque nous avons accès qu’à l’échantillon, il faut que les carac. de l’échantillon soient similaires à celles que l’on retrouve dans la population
- Distribution d’un échantillon représentatif devrait ressembler à la distribution de la pop (forme et carac. de la courbe sont similaires)
Pourquoi est-ce important qu’un échantillon soit représentatif?
Car il existe toujours une incertitude face aux conclusions en raison de l’interférence
Comment peut-on constituer un échantillon représentatif pour une population dont nous ne connaissons pas les caractéristiques?
Il faut utiliser un échantillon aléatoire. Avec les lois du hasard, s’il contient un nombre “suffisant” d’observations, l’échantillon sera la représentation la plus fidèle de la population.
Quels sont les deux critères de l’échantillonnage aléatoire?
- Le critère de la chance égale : chaque individu de la population a une chance égale d’être choisi
- Le critère de l’indépendance des réponses : la réponse d’une personne ne doit pas être influencée par la réponse d’une autre
Quels sont les différents types d’échantillons aléatoires?
- Aléatoire simple : chaque élément a une chance égale d’être choisi
- Aléatoire stratifié : Les strates correspondent à des caractéristiques connues de la population (p.ex. on choisit 20% des boomers d’une compagnie)
- Par grappes : On choisit par groupe et non par individus, l’unité d’analyse est donc un groupe.
Pourquoi est-ce que un échantillon plus grand a plus de chances d’être représentatif?
À cause de distribution normale, majorité des observations sont proches de la moyenne.
Ainsi, plus échantillon est grand, plus il a de chances d’inclure les observations plus rares et donc d’être représentatif.
Pourquoi est-ce que les calculs des stats et paramètres sont-ils différents?
Les calculs de la variance et de s sont différents dans les paramètres et stats (division par n - 1 plutôt que par n) pour produire un estimé non biaisé
À quoi sert la division par n - 1?
Étant donné que les chances que les valeurs extrêmes soit inclus dans l’échantillon sont très faible, la variance et s d’un échantillon seront plus petits que ceux de la pop (biais)
La division par n - 1 compense ce biais en exagérant la variance de l’échantillon, ce qui sera une meilleure estimation de la variance de la pop.
Pourquoi ne pas diviser par n - 1 pour les paramètres?
En travaillant avec la population, nous n’avons pas besoin d’estimer la variance. Il n’y a pas d’inférence pcq nous avons 100% des observations. Ainsi, impo d’avoir un biais et donc aucune correction requise.
Qu’est-ce qu’une théorie?
Une théorie est une représentation de la réalité.