module 4 Flashcards
méthodes de prévention des biais d’observations
1 AVEUGLE = + important
- issues objectives
- critères explicites pour déterminer ou mesurer l’issue (indications claires)
- outils de mesure std et valides (échelle validée)
- suivi strictement identique et complet dans tous les groupes
phase 1 essai clinique
étude de tolérance: sur sujets sains volontaires (compensation) PAS de contrôle
on mesure la toxicité, comment le tx est métabolisé
contrôles arrivent dans quelle phase d’un essai clinique
phase 3: étude comparative (ECR)
phase 2 essai clinique
étude pilote des conditions d’efficacité et des modalités thérapeutiques
petits groupes de malades PAS de contrôle
phase 3 essai clinique
étude comparative (ECR) AVEC contrôle
phase 4 essai clinique
étude post-marketing
- ES détectés dans grands groupes de malades (après mise en marché)
PICO
P: pop référence (+ large)
I: intervention/expo testée
C: expo du contrôle
O: outcome principal –> doit être l’efficacité du tx
cadre d’échantillonnage doit absolument contenir quoi
lieu et temps du suivi
population expérimentale
après critères inclusion/exclusion (sujets éligibles)
participants
éligibles qui acceptent de participer
taux de participation
participants (consentent) / # éligibles
effet observé d’une expo est la ∑ de quelles composantes
effet du tx (expo) + effet placebo + effet du suivi + effet du temps
donc on compare à un placebo pour que la seule variable qui les différencie soit l’effet du tx expérimental
effet Hawthorne
effet du suivi médical peut s’accompagner d’un effet bénéfique
v ou f
en ECR, la probabilité d’un patient d’avoir une certaine assignation dépend de l’assignation des autres patients
f
randomisation empêche ça: c’est indépendant
tous les participants ont la même chance/probabilité d’être assigné à un traitement particulier
v ou f
l’efficacité de la randomisation est indépendante du nombre de participants
f
+ participants = + efficace
avantages randomisation
- prévient biais observation pcq permet et aide à l’aveugle
- confère rigueur à l’étude
- prévient de choisir les patients pour un tx ou l’autre
- prévient FC (rend les groupes semblables en tous points sauf pour l’intervention étudiée)
on veut dire quoi par FC affecte l’issue
qd y’a un FC: on ne peut pas être sûrs que la différence observée entre 2 groupes (effet observé) est due au tx, au FC ou à une combi des 2
meilleur moyen d’éviter les FC
randomisation
v ou f
jumelage = vrm bonne méthode pour s’assurer d’avoir des groupes vrm comparables
f
1) on peut jumeler slm pour des caractéristiques connues et mesurables (science pas assez évol pour connaîtres tous les facteurs qui auraient un impact potentiel)
2) ce serait pas très réaliste, pratique, trop compliqué
issue principale = toujours quoi
efficacité du tx expérimental mesurable chez TOUS les sujets randomisés
=> on veut qu’elle soit le + objective possible (ex décès super objectif mais fatigue a besoin d’une échelle précise)
issues secondaires
variables reliées à l’efficacité ou ES
pourquoi on veut un suivi strictement identique et des issues mesurées exactement de la même façon
éviter biais d’observation (introduire des différences qui ne seraient pas dues à l’intervention d’intérêt)
essai ouvert (open-label)
expo impossible à cacher (diète, exercices, formation…)
+ de risques de biais d’observation: patient connait son statut (si placebo, répond + défavorablement vs expo répond + favorablement) et MD aussi (investigue davantage/mieux expo)
quand l’aveugle fonctionne, les participants sont + susceptibles de
adhérer au tx
quand l’aveugle fonctionne, les participants sont MOINS susceptibles de
- répondre de façon biaisée (psychologiquement ou physiquement)
- chercher des tx additionnels
- quitter l’étude
effets de l’aveugle sur les investigateurs
moins susceptibles à:
- transférer leur opinion aux participants
- admin co-tx ou ajuster doses différemment
- retirer participants de l’étude
- encourager/décourager participants à rester dans l’étude
effet de l’aveugle sur les évaluateurs
moins susceptibles de mesurer les issues de façon biaisée (surtout si issues subjectives)
3 grands impacts d’un manque d’aveugle pour les participants
- réponses biaisées
- moins adhérence
- probable de quitter l’étude
2 grands impacts d’un manque d’aveugle pour les investigateurs
+ susceptibles
- d’influencer leurs patients
- d’être biaisés dans leurs mesures
indice que les chercheurs ont essayé de faire une étude à l’aveugle
groupe placebo dans l’organigramme
v ou f
les perdus de vues comprennent ceux qui quittent à cause d’un déménagement, décès, non-respect du protocole, non-observance
f
les patients exclus par le médecin parce qu’ils ne respectent pas le protocole ou sont non-observants ne sont pas de véritables perdus de vue
biais causé par les perdus de vue
biais de sélection: réduit la puissance de l’étude
2 causes de biais de sélection
- façon de sélectionner les sujets
- pertes au suivi (ECR = juste par pertes grâce à la randomisation, doivent être nombreuses et/ou déséquilibrées pour causer un biais)
v ou f
les pertes au suivi ne sont pas indépendantes de l’issue
v
peut surestimer l’efficacité si perte des exposés (ex si participants perdus avaient + de risque d’avoir une issue négative) donc attrition n’est pas indépendante de l’issue
ou si les perdus de vue ne développent pas l’issue au même rythme que les autres participants
prévention des biais de sélection en ECR avant la fin de l’étude
Éviter pertes au suivi !!
- resserrer critères sélection
- contacts fréquents avec patients
- récompense / indemnisation déplacements
- bien expliquer l’importance de ne pas quitter l’étude
- promesse d’informer le pt sur les résultats de l’étude
prévention d’un biais de sélection après l’étude
- comparer caractéristiques de bases entre finissants et perdus (si ressemblent, pas trop pire)
- imputation
type d’imputation pour des issues continues
- carrying forward
- valeur moyenne
- imputation multiple
type d’imputation pour des issues catégoriques
- valeur favorable/défavorable pour tous: worst-case scenario
effet de le non-observance dans le groupe expérimental sur les résultats d’association
rend les groupes + semblables: diminue la puissance de l’étude
prévention de la non-observance
- pop motivée
- présentation réaliste des tâches requises lors du consentement
- contacts fréquents avec sujets
- suivi de l’observance (pill count)
- période d’essai pour éliminer les sujets indisciplinés
- étude à L’AVEUGLE !
v ou f
randomisation prévient TOUJOURS les FC
f
pas toujours, surtout dans les petites études (petit n)
première étape d’analyse d’un ECR
Table 1: FC
1. caractéristiques comparables ou déséquilibrées?
2. si déséquilibres: est-ce que la variable a une importance et ecq ça va dans le sens du résultat (ecq le FC peut expliquer les résultats ou pas tant)
3. autres FC/FDR potentiels non-présentés (besoin d’un expertise)
ex étude démontre qu’un tx B n’a pas d’efficacité p/r au placebo pour améliorer la survie contre la maladie A.
Si le groupe tx B est plus âgé que le groupe placebo, est-ce qu’on tient un FC potentiel?
oui
âge est un FC important qui pourrait expliquer le résultat surtout puisqu’il est dans la direction du outcome de l’étude
si le groupe placebo avait été plus vieux tho ça n’aurait pas été dans le même sens donc pas vraiment.
ex étude démontre qu’un tx B n’a pas d’efficacité p/r au placebo pour améliorer la survie contre la maladie A.
Si le groupe placebo a plus de DB que le groupe tx B, est-ce que le DB est un FC
non
si le DB est associé à plus de mortalité pour la maladie A, le fait qu’il y en ait plus dans le placebo va en sens contraire du résultat parce que si + décès dans placebo, on surestime l’effet du tx B => ce qui n’est pas le outcome de l’étude
RR de 0.85 veut dire quoi (tx B vs placebo pour mesurer l’incidence d’intubation/décès chez les patients covid)
Chez les patients malades de la COVID, ceux traités au tx B ont 0.85 fois l’incidence d’intubation/décès des non-traités (effet modeste)
DR de -1.8% veut dire quoi (tx B vs placebo pour mesurer l’incidence d’intubation/décès chez les patients covid)
Pour chaque 1000 patients COVID traités au tx B (vs placebo), 18 de moins seront intubés/décèderont
NNT
number needed to treat/avoid:
(à combien je dois donner le traitement pour qu’il y en ait 1 de moins qui décède)
- trouver la DR (RR tx - RR placebo)
- ex DR = -0.018
- pour chaque 1000 patients traités, 27 de moins seront décédés
- NNT = 1/DR = 1000/18 = 56
pour éviter qu’un patient meurt, je dois en traiter 56 avec le tx expérimental
NNT = inverse du risque attribuable (aka différence de risque)
différentes façon d’exprimer l’efficacité d’un tx
RR
DR
NNT (1/DR)
comment on exprimer l’amélioration de l’incidence chez les traités relativement à ce qu’elle est chez les traités en ECR?
(R placebo - R traitement) / R placebo = %
Fraction attribuable d’une exposition bénéfique
interprétation d’un fraction attribuable de 15% d’amélioration de l’incidence de décès chez les traités au tx B relativement à chez les non traités
En utilisant le tx B, on pourrait diminuer de 15% l’incidence des décès liés à la maladie d’intérêt
v ou f
bonne idée d’exclure els non-observants de l’analyse d’une ECR
f
JAMAIS, tous les pts randomisés doivent faire partie de l’analyse principale
- dans toutes les études, y’a juste une petite partie des participants qui sont réellement 100% observants
- les non-observants tendent à avoir des moins bonnes issues de santé: si on les retire, on garde les observants qui ont de meilleures issues et donc étude est moins généralisable
- randomisation permet équilibre entre groupes: si on retire des gens dans chaque groupe selon leur observance, qu’est-ce qui me dit que les gens restant sont réellement comparables (retirer les non-observants brise la randomisation)
Analyse par intention thérapeutique: AIT
analyse qui inclue tous les patients randomisés (peu importe observance, adhérance, traitement reçu, retrait subséquent, déviation protocole)
PAS DE PERDUS DE VUE OU D’OBSRVATIONS MANQUANTES EN AIT
but derrière une AIT
on veut trouver un RR qui nous donne l’efficacité moyenne d’un tx donné par un MD moyen pour un pt moyen (qui n’a pas une observance parfaite)
ressemble + à la réalité: se rapproche de l’efficacité réelle d’un traitement dans la pop
simplifie gestion des participants & maintien l’équilibres des caractéritiques de base et la taille de l’échantillon
v ou f
imputation dans AIT enlève le biais de sélection potentiel
F !! ne l’enlève PAS
utilisée pour attribuer une valeur d’issue aux perdus de vue et maintenir la taille de l’étude et l’effet de la randomisation
inconvénients de faire une AIT
- estimation d’effet demeure conservatrice (étude qui aurait eu RR super avec que les plus observants va paraître un peu moins efficace ici)
- hétérogénéité peut survenir quand on mélange les observants et les non-observants
Analyse per protocole (APP)
on garde juste ceux qui ont parfaitement suivi le protocole et complété l’étude –> biais (moins de validité interne), moins précise (groupe + petit: + erreurs aléatoires) et moins généralisable (moins de validité externe)
avantages d’une APP
- renseigne sur effets biologiques du tx
- si non biaisée: renseigne sur efficacité potentielle (idéale) du tx (mais presque toujours biaisée) => en condition idéale, molécule démontre quoi en terme d’efficacité
mais techniquement, pour avoir une efficacité réelle (dans un vrai contexte), la molécule doit avoir une efficacité potentielle (idéale)
comment savoir si une étude a été faite par AIT
organigramme: ecq tous ceux qui ont été randomisés se retrouvent à la fin dans l’analyse
si on retire un seul patient: on devrait indiquer que c’est une analyse par intention thérapeutique MODIFIÉE (mais on est pas trop inquiet que le résultat soit biaisé)
efficacy vs effectiveness
efficacy: efficacité potentielle
effectiveness: efficacité réelle
efficacité potentielle
tx en conditions optimales: observance parfaite, sujets uniformes, conditions contrôlées
=> estimée par APP non biaisée
efficacité réelle
tx en conditions normales: observance N, changements, interruption tx, ajouts de tx, indications +/- appropriées…
donc bénéfice du tx donné par md moyen à un pt moyen dans conditions de pratiques quotidiennes
=> estimée par AIT
validité interne dépend de quoi
absence de:
- biais sélection (pertes suivi limitées)
- biais observation
- FC (randomisation efficace)
manque de validité = erreur systématique
validité interne = avant ou après la randomisation
APRÈS
validité externe
généralisabilité de l’étude dans la population de référence
validité externe dépend de quoi
ce qui vient AVANT la randomisation:
- participants représentatifs de la pop expérimentale (éligibles) :
- bon taux de participation
- comparabilité entre participants et ceux qui refusent - pop expérimentale (éligible) représentative de la pop de référence
- critères inc/exc raisonnables
- cadre d’échantillonnage représentatif (plusieurs milieux vs 1 seul)
v ou f
validité externe a préséance sur validité interne
f
contraire: sans validité interne, les résultats ne sont pas valides donc on ne veut pas les généraliser
sélection de sujets sur la base du volontariat peut nuire à la validité interne ou externe
EXTERNE: avant la randomisation, sous-groupe de participants distorsionné de la population expérimentale (éligible)
APP (si non biaisée) peut nuire à la validité externe ou interne
externe: affecte la généralisabilité MALGRÉ le fait qu’il s’agit d’une décision/action réalisée APRÈS la randomisation
fonctions des critères inc/exc
- optimise la cible / réduit bruit de fond
- sûreté de l’étude (CI)
- raisons pratiques (ex ne parle aucune langue des investigateurs)
- contrôle FC (restriction)
- améliore validité interne
parfois utilisés pour magnifier l’effet (ex en excluant certaines comorbidités si on sait qu’elles ont un impact sur le outcome) ou par coutumes (femmes enceintes) …BAD
pourquoi on veut un haut taux de participation
pour que le résultat obtenu vienne d’un groupe qui ressemble à toute la population éligible: généraliser les résultats
& pour avoir un échantillon assez large, une bonne puissance
pourquoi on veut que les gens qui consentent (les participants) soient comparables à ceux qui refusent
pour pouvoir généraliser les résultats chez les participants à ceux qui ont simplement refusé de participer
avantages des ECR
randomisation & placebo permettent une meilleure validité interne (moins de biais)
ECR = gold std de la recherche,
désavantages ECR
- difficile à généraliser
- très cher
- pas toujours faisables/recommandables (éthique ou pratique)
raisons éthiques qui rend ECR moins recommandable
- avantages trop évidents ou connus (pas d’équipoise)
- expo néfaste (cancérigène soupçonné)
- expo non-randomisable (allaitement maternel)
raisons pratiques pour ne pas choisir de faire ECR
- expo déjà utilisées à large échelle (vitamines)
- mx rare, recrutement trop long
- expo fixe (groupe sanguin)
valeur ponctuelle d’un HR entre 0-1 vs 0 vs 1-infini si l’issue = décès
0-1: effet bénéfique (moins de décès chez tx)
0: pas d’effet (TI expo = TI non-expo)
1-0: effet néfaste du traitement (+ décès chez tx)
+ un échantillon est ____ + l’IC sera large et + la variabilité de l’échantillon sera ____
+ échantillon petit = + grande variabilité = IC + large et plus de chance que la valeur nulle en fasse partie
interprétation IC 90% autour du HR (0.75;0.96)
Nous sommes sûrs à 95% que dans une population de pts souffrant de maladie A et traités au tx B, l’incidence de décès est 0.75 à 0.96 fois celle d’une population comparable non-traitée au tx B
donc à peu près (95%) sûrs que le HR n’est pas égal à 1 et donc que le tx B a un véritable effet (modeste pcq 0.75-0.96 = proche de 1) et donc le hasard seul ne peut pas expliquer le résultat obtenu
conclusion: effet statistiquement significatif
erreur a (type 1)
rejette H0 quand H0 est vrai (donc on conclu qu’il y a une différence statistiquement significative alors qu’il n’y en as pas réellement)
probabilité de fair une erreur a si IC 95%
5% et moins
en prenant un IC: on est prêt à tolérer jusqu’à 5% d’erreur a
interprétation IC 90% autour du HR (0.38; 1,81)
nous sommes sûrs à 95% que le véritable HR de décès comparant une pop traitée et une pop comparable non-traitée est entre 0.38 et 1.81
donc à peu près certains que valeur nulle (absence effet) fait partie des valeurs plausibles => on ne peut donc pas conclure en un effet statistiquement significatif et la différence observée est compatible avec l’effet seul du hasard.
erreur B (type 2)
ne pas rejeter H0 alors que Ha est vrai (donc que H0 est rejeté)
on conclu qu’il n’y a pas de différence statistiquement significative alors qu’il y en a une réelle
probabilité de commettre erreur B dépend de quoi
puissance de l’étude = 1-B = probabilité de détecter une différence existante
puissance d’une étude
capacité à détecter une différence statistiquement significative entre 2 populations quand cette différence existe réellement
v ou f
la puissance est déterminée à l’analyse et non choisie par le chercheur
f
devrait idéalement être choisie d’avance
par convention on veut une puissance de quoi
80% (20% d’erreur B max)
j’ai un p-value > 0.05 mais l’expo a réellement un effet
p > 0.05: H0 pas rejetée: pas d’effet stat sign alors que y’a actually un effet
donc erreur B
j’ai un p-value < ou = 0.05 mais l’expo n’a actually pas d’effet réel
p < ou = 0.05: H0 rejetée: différence stat sign alors que y’a pas actually d’effet
donc erreur a
RR = 1 (p: 0.06) alors que l’expo n’a pas réellement d’effet
expo n’a pas de véritable effet p/r au contrôle (pas réel ni stat sign) => le résultat est explicable par l’effet seul du hasard
quel IC nous permet d’être certains de ne pas commettre l’erreur B
un IC qui ne contient PAS la valeur nulle (HR = 1)
pcq erreur B = accepter H0 alors qu’elle est fausse, si on conclu un effet stat sign, on ne peut pas faire d’erreur B
par contre dans cet IC, on peut être sujet à erreur a (qui est de rejeter H0 alors qu’elle est vraie)
pour déterminer les facteurs qui modulent la puissance, on cherche quoi
les facteurs qui font en sorte que l’IC inclut la valeur nulle ou non
=> + échantillon petit: + IC large: + chance qu’il contienne valeur nulle
=> + niveau de confiance choisi est petit (1-a: donc - on est prêt à commettre erreur a: ex IC 99%) : + IC large: + chance de contenir valeur nulle
& la magnitude de l’effet qu’on essaie de détecter (distance entre RR et la valeur nulle => donc + un tx est sensé être efficace, + sa supériorité sera facile à détecter)
éléments principaux affectant la puissance (1-B) d’une étude
- taille échantillon “n” (petit = moins puissant)
- erreur a tolérée “a” (grande = moins puissant)
- ampleur de l’effet escompté ou différence attendue entre groupe “∂” (grande = + puissant)
- fréquence de basse de l’issue dans groupe placebo “p0”
trouve a, n, ∂ et B dans ce paragraphe:
we assumed that the risk of death would be 30% in the placebo group and that the risk with tocilizumab would be reduced to 15%. With a total of 243 patients, we had 80% power to detect such a difference assuming a significance level of 0.05
a = significance level = 0.05 = 5% => IC 95%
n = échantillon = 243
∂ = magnitude d’effet escomptée = 30-15 = 15%
B = 1- puissance = 1-80 = 20%
comment les chercheurs savent quel n leur est nécessaire
trouver l’ampleur d’effet que l’étude doit pouvoir détecter (∂)
=> dépend si étude de supériorité, non-infériorité ou d’équivalence
=> dépend de la clinique: différence suffisante cliniquement pour MD, significative pour le pt et ecq ça améliore assez pour justifier les coûts / ES / changements associés?
en quel cas on peut se permettre de faire une étude plus petite
si on pense que l’effet (∂) sera super grand, c’est plus facile à détecter donc pour maintenir une même puissance et un même niveau alpha, on a besoin de moins de participants
si l’ampleur d’effet (∂) intéressante est de 10%
comment on interprète une DR IC [11 % ; 20%]
effet stat sign (exclu 0)
intéressant en pratique (dépasse 10) quelque soit sa valeur réelle
si l’ampleur d’effet (∂) intéressante est de 10%
comment on interprète un IC [2% ; 8%]
effet stat sign (exclu 0)
effet précis (IC assez étroit: n + grand: + précis)
non intéressant en pratique (sous seuil de 10)
si l’ampleur d’effet (∂) intéressante est de 10%
comment on interprète un IC [2% ; 19%]
effet stat sign (exclu 0)
effet +/- précis (IC large: n plus petit: - précis)
effet peut être cliniquement sign (si vers fin IC) ou non (si se rapproche du 0) => il faudrait augmenter n pour trancher (réduire IC)
si l’ampleur d’effet (∂) intéressante est de 10%
comment on interprète un IC [-5% ; 25%]
effet non stat sign (comprend 0)
effet imprécis (IC large: n petit)
effet cliniquement sign (proche 25%) ou non (proche -5%, effet néfaste) => il faudrait augmenter n pour trancher
si l’ampleur d’effet (∂) intéressante est de 10%
comment on interprète un IC [-2% ; 2%]
effet non stat sign (comprend 0)
effet au mieux faible (si proche de 2%, reste modeste)
À priori, effet n’est pas intéressant (sous 10)
que veut dire “l’efficacité du vaccin pfizer est de 95%”
95% de l’incidence de covid chez les non-vaccinées est évitée chez les vaccinés
Efficacité = Fraction attribuable (AR% ou FA) =
(TI covid placebo - TI covid vaccin) / TI covid vaccin
2 raisons de maximiser le taux de participation
- validité externe (généralisabilité entre participants et pop expérimentale éligible)
- puissance (n plus grand donc moins de variabilité, réduit IC, résultat plus précis et moins le rôle du hasard est important)
v ou f
si pertes au suivi mais qu’on fait de l’imputation, on peut considérer l’étude comme AIT
f
AIT = aucunes pertes => impossible en vrai donc toujours AIT modifiés
on considère un biais de sélection à partir de quel % de perdus de vue
20%
v ou f
on peut causer un biais au moment de l’échantillonnage
f
biais viennent APRÈS la randomisation
v ou f
non-observance dans le groupe expérimental peut diminuer la puissance
v
pcq rend les 2 groupes + similaires et donc moins facile de détecter l’efficacité réelle du traitement (plus de risque d’erreur B)
v ou f
si j’ai DR = -2.0 pour IC 95% [-5 ; 0.9], est-ce que ce résultat peut être fruit d’une erreur a
valeur nulle ici: DR = 0 (aucune différence)
donc ici l’IC contient la valeur nulle, il ne la rejette pas comme on le fait dans l’erreur a => plutôt un risque d’erreur B (ne pas rejeter H0 alors que Ha est vrai)
si H0 fait partie de l’IC: pas possible d’avoir erreur a
si H0 est exclu de l’IC: pas possible d’avoir erreur B
v ou f
volontariat affecte la validité interne
f
validité interne est préservée puisque le fait de se porter volontaire ne favorise pas nécessairement la présence de facteurs de confusion lors de la randomisation, de biais d’observation ou de biais de sélection
volontariat a un impact avant la randomisation dans l’échantillonnage => validité externe (volontaires + tendance à vouloir se prendre en main et pas tant représentatif du cadre d’échantillonage)
aussi + volontaires = + motivés = moins tendance à quitter = moins pertes et de risque de biais de sélection