S4 : échantillonage Flashcards
Biais d’échantillonnage
qd les personnes de l’échantillon sur ou sous représentent les caractéristiques de la population qui sont importantes pour l’étude
Y a 2 types de biais d’échantillonnage
- Biais conscient (comme dans purposive sampling - l’échantillonnage intentionnel) : nous sommes conscients du biais, mais nous recherchons spécifiquement ceux qui ne répondent pas au traitement, qui ont des opinions bien arrêtées sur ce sujet, etc
- Biais inconscient : ne choisir que celles et ceux qui ont l’air coopératifs, amicaux –> ne peut pas être généralisé
flowchart?
nos critères pour les participants sont clairement définis et petit à petit on va préciser l’échantillon qui lui également va devenir de plus en plus pet
pour compenser le fait qu’on ne puisse pas tester toute notre population cible / de référence, on a recours à …
la méthode d’échantillonnage –> restreindre l’échantillon et avoir une petite proportion de la population cible qui nous intéresse
Grâce aux méthodes stats, ne tester qu’un échantillon parmi la population générale ne pose pas de souci. Pq?
car on obtient des résultats qui contiennent la part de risque qu’on prend à généraliser à la population globale
2 techniques d’échantillonnage composées chacunes de 4 sous-types
- Probabiliste ou random sampling :
- échantillonnage aléatoire simple (simple random sample)
- échantillonnage aléatoire systématique (systemic sampling)
- échantillonnage aléatoire stratifié (stratified sampling)
- échantillonnage en cluster (cluster sampling) - Non-probabiliste ou non-random sampling :
- convenience sample
- quota sample
- purposive sample
- snowball sample
Simple random sample
échantillon probabiliste
Utilisation de méthodes pour permettre une selection aléatoire. Aucun membre n’a plus de chance d’être sélectionné qu’un autre. Plusieurs outils en ligne disponibles pour ça ou des packages dans des logiciels statistiques
Tiré de la population accessible, souvent tiré d’une liste de personnes, comme les répertoires des membres, des institutions, etc. (e.g., liste d’inscription de tous les étudiants de BA1 en psychologie à l’ULB; la population accessible est donc limitée à ce groupe, et nous ne pourrons peut-être pas généraliser à tous les étudiant.es).
Systematic sampling
échantillonnage probabiliste
Variation de l’échantillonnage aléatoire simple. Trier toutes les personnes de la liste (par exemple par ordre alphabétique), s’assurer que la liste n’est pas triée par l’un de vos attributs clés (VD/VI), diviser le nombre de personnes dans la liste par le nombre que souhaité dans l’échantillon (e.g., 1000 noms mais besoin de 100 personnes), sélectionner 1 personne sur 10 dans la liste.
Intervalle d’échantillonnage = 10
Equivalente au simple random sampling et très efficace en terme de temps.
Stratified sampling
échantillon probabiliste
La stratification peut réduire l’erreur d’échantillonnage et améliorer la représentativité si vous connaissez les caractéristiques pertinentes de la population pour la VD et divisez la population en groupes non chevauchants, ou « strates ».
Ex : les étudiant.es peuvent avoir différents niveaux d’habitudes alimentaires saines, qu’iels soient en BA1 (n = 30 000), BA2 (n = 25 000), BA3 (n = 18 000), MA1 (n = 14 000), MA2 (n = 13 000), total de 100.000. A l’inverse de l’échantillon aléatoire simple où la distribution par hasard peut ne pas refléter la proportion différentielle de chaque strate
Nous pouvons d’abord créer des groupes, puis prélever des échantillons aléatoires ou systématiques de chaque strate
strates?
= groupes avec différentes caractéristiques
Y a 2 façons de faire un échantillon aléatoire stratifié (reprendre l’exemple des habitudes alimentaires saines de BA1 à MA2)
1) Proportionnel : nous voulons échantillonner au hasard, et obtenons BA1 = 30, BA2 = 25, BA3 = 18, MA1 = 14, MA2 = 13 (échantillon total de 100)
2) Disproportionné: on peut se retrouver avec des échantillons trop petits pour des analyses en BA3, MA1, MA2. Soit on tire le même nombre pour chaque sous-ensemble (ex : 30/strate), soit on ajuste les analyses statistiques) les groupes sur-représentés compte pour moins.
=/= des clusters ou chaque cluster est considéré comme similaire
Cluster sampling
échantillonnage probabiliste
aussi appelé multistage sampling
Diviser une population en clusters (e.g., zones géographiques, écoles, etc.) puis à sélectionner au hasard certains de ces clusters pour constituer l’échantillon. Idéalement, chaque cluster devrait être une mini-représentation de la population dans son ensemble
Ex : 1) on s’intéresse aux adolescents ; 2) on choisit aléatoire 10 écoles parmi les 20 dans la ville ; 3) on choisit aléatoirement 1 classe dans chacune de ces 10 écoles, qu’on interroge
c’est quoi un échantillon non-probabiliste?
Echantillon choisi sur une autre base que l’aléatoire. Toutes les unités n’ont donc pas la même chance d’être sélectionnées, donc la représentativité de la population générale est moindre.
Convenience sampling
échantillon non-probabiliste
Sélectionné en fonction de leur disponibilité (pool TP à la fac, dans les rues, salle d’attente, réseau personnel, recrutement de bénévoles via annonces …)
problème du convenience sampling
biais potentiel d’auto-sélection : les personnes volontaires ou recrutées à un seul endroit ne son potentiellement pas représentatives de la population générale
Quota sampling
échantillonnage non-probabiliste
Equivalent de la stratification dans l’échantillon non-probabiliste.
- Permet de contrôler les variables confondues (e.g., le genre)
- Ex : cesser d’accepter les participants lorsque le quota pour les hommes (40%) ou pour les femmes (60%) est atteint dans l’échantillon
Échantillonnage toujours non-probabiliste, mais légèrement meilleur que l’échantillonnage de convenance pour représenter les caractéristiques importantes de la population.
Purposive sampling
échantillonnage non-probabiliste
Sélection des participant·es en fonction de critères spécifiques (e.g., personne qui suit assidûment un traitement tester son efficacité, personne loquace sur le sujet d’intérêt pour mener une recherche
qualitative, etc.)
Similaire à l’échantillonnage de convenance mais le choix de sélection est fait sur des critères spécifiques internes à l’individu. Mêmes restrictions et biais pour la généralisation qu’un échantillon de convenance.
Snowball sampling
échantillonnage non-probabiliste
Souvent utilisé pour étudier des sujets sensibles ou des traits rares, des populations cachées (e.g., chemsex, comportement illicite, sans-abri). Méthode de la réaction en chaîne / cascade.
1) quelques sujets répondant aux critères d’inclusion sont invités à participer
2) ces personnes sont invitées à en identifier d’autres ayant les mêmes caractéristiques requises
3) transmission du questionnaire à ces personnes.
Le chercheur doit être en mesure de vérifier l’éligibilité de chaque personne pour assurer qu’iels correspondent aux critères d’inclusion (questionnaire de filtrage)
Rappel : la taille d’échantillon influence …
la puissance statistique (1- bêta), càd la proba de détecter un effet significatif dans l’échantillon
Rappel : la puissance dépend de 4 choses
alpha, variance dans notre échantillon, taille de l’effet et n (un des seuls facteurs sur lequel on peut jouer pour obtenir une bonne puissance)
On réalise une analyse de puissance soit … soit …
a priori
post hoc
qu’est-ce qui se passe quand on est en sous-puissance?
- difficile de conclure avec confiance au rejet ou non-rejet de H0 (à la significativité ou non significativité).
- maximise le risque d’erreurs :
- de type 1 (faux positif), e.g., « test de grossesse positif alors que vous n’êtes pas enceinte »
- de type 2 (faux négatif), e.g., « test de grossesse négatif alors que vous êtes enceinte »
comment décider de la taille d’échantillon et calculer la puissance?
avec G*Power