Échantillonnage et variables Flashcards
Avantages et inconvénients de l’échantillon?
Avantages: économie et accessibilité, observer une partie seulement d’un
ensemble
Inconvénient = risque de se tromper, de
tirer une conclusion erronée au sujet d’un ensemble. Plus les éléments varient, plus l’erreur est probable.
Avantages et inconvénients du recensement?
Recensement = on mesure les N membres de la population
Avantages: inférences
puisque les informations proviennent de tous les
éléments de la population
Contraintes: identification préalable et localisation de
la totalité des éléments de la population = coût
relativement élevé
Définitions de population cible, population accessible, échantillon?
Population cible: Ensemble d’individus auxquels on voudra appliquer les résultats obtenus (taille N).
Population accessible: Portion de la population cible qui est disponible à la recherche, ceux qui peuvent se déplacer ou qu’on peut rejoindre
Taille nA, où n ≤ nA ≤ N (mais n < N). Source de biais de représentativité #1. Devrait pouvoir être un sous-ensemble aléatoire de la population cible.
Échantillon: Sous-ensemble de la population accessible qui participera à l’expérience (taille n). Source de biais de représentativité #2. Devrait pouvoir être un sous-ensemble aléatoire de la population
accessible.
Utilités d’un grand échantillon?
Plus l’échantillon est petit, plus l’erreur est grande (Théorème Central Limite)
Utilité d’un grand échantillon: quand plusieurs variables non contrôlées interviennent, le principe du hasard permet de postuler que ces variables parasites vont tendre à se
contrebalancer à la longue.
Lorsque nous désirons comparer des sous-groupes à
l’intérieur d’un échantillon, la taille de ce dernier doit être
suffisamment grande pour permettre un tel fractionnement tout
en préservant une certaine représentativité de chacun des
sous-groupes.
Comment déterminer la taille nécessaire de
l’échantillon?
Difficile! Mais requiert trois considérations:
- Précision recherchée pour l’estimation
- Niveau de confiance choisi (ou du risque d’erreur
assumé) - L’ordre de grandeur de la variabilité présumée du trait
étudié
Plus chacune de ces considérations implique
une évaluation élevée (précision, niveau,
variabilité), plus la taille de l’échantillon doit
augmenter.
C’est quoi des échantillons probabilistes ou aléatoires?
Fondés sur les probabilités
Utilisent des estimateurs précis
Se basent sur des modèles théoriques
Exigent une base de sondage
Une liste exhaustive de tous les éléments de la population
L’échantillonnage aléatoire simple?
chacune des unités
de la population a une probabilité égale
d’appartenir à l’échantillon
p = n/N
identifier chacun des éléments de la population et retenir un certain nombre (n) par un tirage au sort (enlève biais, monde idéal).
L’échantillonnage aléatoire stratifié?
diviser la population en sous
populations (strates) en
fonction de critères (ou
variables de stratification) et à
constituer par la suite un
échantillon aléatoire pour
chacune des strates
Ex: représentation des différents groupes religieux (permet contrôle rehaussé
comparé à l’échantillonnage
aléatoire, particulièrement pour les plus petits sous-groupes)
L’échantillonnage par grappes?
utilisé si difficile d’identifier chaque élément d’une population ou si plus
pratique de sélectionner non pas des individus mais des groupes d’individus
Il est plus facile de sélectionner des classes entières d’élèves plutôt que des élèves répartis
Potentiel élevé d’effet de grappe sur représentativité
Problème de l’approche aléatoire?
Ne se peut pas en pratique!
Implique que:
- on dispose d’une base de
sondage (liste) de taille N
- on parvient à rejoindre et à convaincre de participer à l’étude tous les n participants sélectionnés
Les non-réponses ou les refus de participation affectent
lourdement la valeur des estimés (remet en cause le caractère aléatoire d’un échantillon)
Le tirage au hasard va à l’encontre de l’éthique: une recherche
ne peut être entreprise qu’avec des individus volontaires et
consentants.
Généralement, les individus qui acceptent de participer
présentent une configuration de caractéristiques qui les
distinguent de ceux qui déclinent la même invitation
Échantillonnages non-probabilistes (empiriques)?
L’approche probabiliste est impossible (appropriée juste dans agriculture et géologie)
Il n’existe aucun moyen de déterminer la probabilité
qu’a un élément de la population d’être inclus dans
l’échantillon, voire même aucune certitude à l’effet
que tous les éléments ont une chance quelconque d’en faire partie.
Pourquoi on aime les échantillons non-probabilistes: éthique, économiques, pratiques
L’échantillonnage accidentel?
prendre les cas qui se présentent simplement à nous à un moment et à un endroit
donné jusqu’à avoir assez de gens.
ex: entrevues réalisées auprès des passants dans la rue
Problèmes liés à l’échantillonnage
accidentel?
risquée parce sources de biais
importants
Les gens qui ne fréquentent pas ces endroits n’ont
aucune chance d’être choisis…
Population cible de l’échantillon
accidentel?
La probabilité d’être choisi varie en effet d’un
individu à un autre en fonction du jour, du
moment ou de l’endroit (ne représentent aucune population
bien définie)
difficile de formuler une
quelconque généralisation
Améliorations à la méthode
accidentelle?
sélectionnant les participants de
l’échantillon en fonction de renseignements
pertinents (échantillonnage dirigé)
Ex: se servir de certains renseignements pertinents,
tels les endroits publics que fréquentent
habituellement les personnes anxieuses
statistiques descriptives sur les jours et les heures de fréquentation (entrevues en assumant une rotation des jours et des heures de la semaine)