Cours 10: Reproductibilité Flashcards
La crise de reproductibilité
Une crise? Quelle crise?
Cette figure illustre un exemple de processus pouvant amener à un résultat scientifique controversé (ainsi qu’un exemple de problème de comparaisons multiples).
La crise de reproductibilité
Une crise? Quelle crise?
En 2016, un sondage effectué auprès de 1576 chercheurs a été mené dans le but de voir si, dans la perception des professionnels dans la recherche, il y avait une crise de reproductibilité, et si oui, laquelle (Baker, 2016). En tout, 90% des chercheurs ont affirmé dans ce sondage qu’ils pensaient qu’il y avait effectivement une crise de reproductibilité (52% pour une crise significative et 38% pour une crise modérée).
La reproductibilité, c’est quoi? Si nous avions accès aux données derrière ce papier, serait-on capable de refaire les analyses et d’arriver aux mêmes conclusions? Un autre concept proche est la réplicabilité: en recrutant de nouveaux sujets (nouvel échantillon) et en faisant exactement ce que les autres chercheurs avaient fait au niveau des outils utilisés et des analyses effectuées, est-ce que nous trouverions les mêmes résultats? Dans le sondage, 70% des personnes sondées rapportaient avoir échoué à reproduire les résultats d’une autre équipe de recherche et plus de 50% d’entre eux rapportaient même avoir échoué à reproduire leurs propres résultats.
Les personnes sondées ont aussi évalué les causes probables de cette crise de reproductibilité. Parmi les raisons les plus fréquemment mentionnées, on retrouve la pression de publier, la publication sélective (les gens ne publient seulement que ce qui fonctionne bien) ainsi que la puissance statistique limitée. Ce chapitre cherchera à expliquer certaines de ces notions plus en détail en commençant par formaliser le processus de génération de connaissances scientifiques.
La crise de reproductibilité: La méthode scientifique
Cette figure illustre le cycle des découvertes scientifiques selon l’approche de la méthode scientifique décrite par Karl Popper.
La crise de reproductibilité: La méthode scientifique
La Fig. 109 présente une version simplifiée de la méthode scientifique impliquée dans la découverte de connaissances, inspirée par la théorie de Karl Popper, telle qu’elle est généralement implémentée dans la communauté de recherche.
On commence avec une consultation des publications antérieures: celles-ci représentent les connaissances qui ont été accumulées par d’autres chercheurs avant nous.
En lisant cette littérature, les chercheuses/chercheurs peuvent prendre connaissance de ce qui a déjà été découvert et formuler des hypothèses en lien avec ce que l’on sait déjà sur des choses qu’on ne connaît pas encore.
Les chercheuses/chercheurs vont alors construire un devis de recherche: nombre de participants, groupes, tests statistiques, etc. Elles/ils vont aussi faire des prédictions concernant les résultats qu’elles/ils pensent obtenir.
Une fois le devis de recherche élaboré, il est maintenant temps de recueillir les données.
Ensuite, on analyse les données en suivant le protocole qui avait été établi dans le devis de recherche.
Il faut alors interpréter les résultats et notamment les comparer à nos prédictions pour valider ou invalider nos hypothèses.
Les résultats de la recherche sont alors publiés pour permettre au reste de la communauté de recherche de continuer à formuler de nouvelles hypothèses.
Comme on utilise des statistiques rigoureuses dans cette approche, on ne génère qu’une quantité limitée de faux positifs, et donc, on fait des découvertes scientifiques sans faire trop d’erreurs. En pratique, cette approche peut être adaptée de nombreuses manières en y incluant des pratiques de recherche douteuses qui vont compromettre l’intégrité et la rigueur des conclusions de l’étude.
La crise de reproductibilité: La méthode scientifique: hacked
Cette figure illustre les pratiques douteuses qui peuvent affecter négativement l’intégrité du cycle des découvertes scientifiques.
La crise de reproductibilité: Biais de publication
La publication sélective est un des problèmes les plus importants identifiés dans le sondage vu plus tôt. Cela signifie que les résultats d’une étude ne sont publiés que lorsqu’ils sont positifs, c’est-à-dire uniquement s’ils confirment les hypothèses de l’équipe de recherche. Si ce type de pratique est systématique dans une communauté de recherche, il se peut que plusieurs groupes rapportent un résultat, qui semblera alors robuste, alors qu’en fait, un nombre plus important de groupes de recherche n’ont pas pu répliquer cet effet et ne l’ont donc jamais publié. Cela vient déformer complètement la collection de connaissances accumulée par la communauté scientifique, collection qui sera elle-même à l’origine des hypothèses des études futures.
La crise de reproductibilité: p-hacking
Si nous voyons que nos résultats ne correspondent pas à nos attentes, il est possible que nous nous demandions si nous avons commis une erreur ou si nous avons bien choisi la technique d’analyse optimale. Nous risquons alors de revisiter la manière à laquelle nous analysons les données jusqu’à ce que les résultats deviennent significatifs. Ce type d’approche a été baptisé p-hacking. Le p-hacking peut prendre de nombreuses formes: exclusion arbitraire de “valeurs aberrantes”, sélection d’un sous-groupe qui montre l’effet attendu, changement des paramètres de prétraitement, etc.
La crise de reproductibilité: HARKing
La dernière pratique douteuse est baptisée le « HARKing ». Le terme HARK est un acronyme originaire de l’anglais pour les termes « Hypothesis after results are known », ou bien “définition des hypothèses après que les résultats soient connus”. On va effectuer de nombreux tests à partir des données recueillies et on va formuler a posteriori des hypothèses correspondant aux résultats significatifs dans l’échantillon. Ce processus n’est pas nécessairement malicieux, mais il peut émerger d’une volonté d’interpréter les données à tout prix. Cette démarche n’est pas nécessairement problématique, du moment que les hypothèses sont (correctement) présentées comme étant de nature exploratoire, guidées par les données, plutôt que comme des hypothèses formulées a priori de façon rigoureuse.
Reproductibilité et neuroimagerie
Nous allons maintenant voir comment la neuroimagerie représente un domaine particulièrement propice au p-hacking, ainsi que d’autres facteurs qui peuvent contribuer au manque de reproductibilité. Ces facteurs sont tous liés à la complexité des chaînes de traitement en neuroimagerie.
Tout d’abord, il est possible de faire varier de façon importante les conclusions d’une étude juste en modifiant les choix analytiques que l’on fait concernant la chaîne de traitement (ce que l’on appelle les degrés de liberté en recherche).
Ensuite, il est possible de confondre les effets significatifs et les effets importants (on doit considérer la taille des effets).
Enfin, à cause de la complexité des méthodes utilisées, il est souvent difficile, voir impossible, de vraiment comprendre les méthodes utilisées dans un article seulement sur la base du texte de cet article (méthodes incomplètes).
Reproductibilité et neuroimagerie: Degrés de liberté en recherche
Cette figure résume les cartes d’activations IRMf générées par 64 équipes indépendantes à partir des mêmes données et ayant pour objectif de tester la même hypothèse. Les équipes ont été séparées en trois sous-groupes sur la base de la similarité spatiale de leurs cartes d’activation à l’aide d’un algorithme automatique. Le premier groupe (cluster 1) est le plus gros, avec 50 équipes, alors que les deux autres sous-groupes incluent 7 équipes chacun. Notez les variations importantes entre les trois sous-groupes.
Reproductibilité et neuroimagerie: Degrés de liberté en recherche
Pour chacune des techniques étudiées dans ces notes de cours, il est nécessaire d’implémenter une série d’étapes d’analyse et de choisir certains paramètres pour chacune de ces étapes. Dans la mesure où l’on n’a pas de vérité de terrain à laquelle se référer en neuroimagerie, il n’existe pas de consensus sur le choix optimal concernant ces paramètres. De plus, ce choix est probablement dépendant de la population d’intérêt et des questions de recherche dans une large mesure. Pour quantifier cette variabilité, une étude récente a invité 70 équipes de recherche à analyser le même jeu de données par activation en IRMf Botvinik-Nezer et al., 2020 et à tester les mêmes hypothèses. Un premier résultat frappant est que chaque équipe a utilisé une approche unique pour analyser les données, illustrant ainsi le manque criant de standardisation dans le domaine. Un autre résultat frappant est que, pour une hypothèse donnée, certaines équipes ont produit des cartes très différentes (voir Fig. 111). Bien que certains sous-groupes d’équipes aient identifié des cartes très similaires, certains choix ont amené à des différences importantes. Par ailleurs, même pour les équipes générant des cartes similaires, leur interprétation de la carte pour répondre à l’hypothèse variait substantiellement!
Reproductibilité et neuroimagerie: Degrés de liberté en recherche (Degrés de liberté en recherche et p-hacking)
Le nombre de paramètres qu’un chercheur peut manipuler est appelé degré de liberté en recherche. Comme la neuroimagerie a un très grand nombre de degrés de liberté, cela augmente le risque de p-hacking. En effet, il est toujours possible de comparer plusieurs approches pour sélectionner la “meilleure”, c’est-à-dire celle qui amène les résultats les plus conformes aux hypothèses de l’équipe de recherche.
Reproductibilité et neuroimagerie: Degrés de liberté en recherche (Impact des logiciels d’analyse et de l’environnement virtuel)
Au-delà des paramètres utilisés dans une analyse, des différences substantielles peuvent venir du choix du logiciel ou de la version du logiciel utilisé (Bowring et al., 2019). Même des changements mineurs peuvent avoir un impact sur les résultats. Et cela n’est pas limité au logiciel de neuroimagerie en tant que tel. Un changement de système d’opération peut lui aussi créer des différences, par exemple, dans une analyse de morphométrie (Gronenschild et al., 2012).
Reproductibilité et neuroimagerie: Tailles d’effet
Illustration de deux distributions de groupes suivant une loi normale pour différentes tailles d’effet mesurées avec le d de Cohen.
Reproductibilité et neuroimagerie: Tailles d’effet
Une autre erreur commune en neuroimagerie est d’interpréter une différence significative comme étant une différence importante. Par exemple, imaginons que l’on trouve une différence significative concernant le volume de l’amygdale entre deux groupes: celui-ci serait réduit chez des personnes sur le spectre de l’autisme par rapport à des individus neurotypiques. Cela signifierait que la différence de la moyenne des distributions est différente, mais il se peut tout à fait qu’un individu sur le spectre ait une amygdale plus grande qu’un individu neurotypique.
Plutôt que de seulement se fier à la significativité, il est important de mesurer la taille de l’effet, c’est-à-dire la différence qui existe entre les deux populations. On peut par exemple considérer la différence des moyennes que l’on divise ensuite par l’écart type des deux populations - une mesure appelée le d de Cohen. Un d de Cohen de 0.1 ou 0.2 est courant pour des différences de groupes entre populations cliniques. Avec ce type de différence, les distributions des deux groupes se chevauchent de manière importante. Un d de Cohen de 2 décrirait pour sa part un effet de groupe très important, où le score de presque tous les membres d’un groupe est inférieur au score de tous les membres de l’autre groupe.