Cours 9: Cartes statostiques Flashcards
Régression linéaire: Variables
La position de deux voxels (illustrée à l’aide d’un cercle bleu (haut) et d’un cercle olive (bas)) est ici superposée sur des cartes de densité de matière grise pour différents sujets du jeu de données OASIS (Marcus et al., 2010). À droite, un histogramme représente la distribution de la densité de matière grise pour le voxel correspondant, à travers un échantillon de 100 sujets.
Régression linéaire: Variables
Les concepts présentés dans ce chapitre s’appliquent à la plupart des modalités d’imagerie vues dans le cours de façon plus ou moins identique. Afin de rendre les choses un peu plus concrètes, nous allons ici nous intéresser à une analyse morphométrique de type VBM (IRM structurelle). Cette analyse utilise le jeu de données OASIS (Marcus et al., 2010). Des cartes de densité de matière grise pour les données OASIS sont disponibles via la librairie nilearn. Pour chaque voxel, on dispose d’une mesure locale de densité de matière grise qui varie entre 0 et 1. Comme toutes les images des 100 participants OASIS utilisés dans cet exemple ont été recalées dans un même espace stéréotaxique, chaque voxel est associé à une série de 100 mesures. Il s’agit de notre variable dépendante. On va par la suite chercher à expliquer les variations de cette mesure à travers les sujets à l’aide d’autres variables, appelées les prédicteurs. Pour notre exemple, nous allons démarrer avec l’âge des participants qui varie ici de 20 ans à 90 ans.
Régression linéaire: Modèle linéaire
Exemple de régression linéaire où la variable dépendante est la densité de matière grise pour un voxel et le prédicteur est l’âge. Les valeurs de densité de matière grise proviennent de 100 sujets de la base de données OASIS (Marcus et al., 2010). Les deux voxels utilisés ici sont les mêmes que ceux représentés dans la Fig. 99 (voxel bleu à gauche, voxel olive à droite).
Régression linéaire: Modèle linéaire
Le concept soutenant le modèle de régression est une équation, ou une sorte de loi, qui va tenter de prédire la variable dépendante (ici, la densité de matière grise) à partir de prédicteurs (par exemple, l’âge). Mais contrairement à une loi physique qui tente de représenter une dépendance exacte (jusqu’à un certain degré), la présente loi ne capture qu’une fraction de la variance de notre mesure. La loi va donc incorporer un certain bruit représentant toutes les sources de variabilité que l’on ne peut pas capturer avec notre relation. La relation mathématique va prendre la forme suivante:
densite_matiere_grise = b0 + b1 * age + e densite_matiere_grise est la densité de matière grise mesurée pour un voxel
age est l’âge du participant de recherche
b0 est une valeur constante, appelée en anglais “intercept” (l’ordonnée à l’origine). Cette valeur est identique pour tous les sujets. Dans ce cas-ci, elle représenterait la densité de matière grise observée à la naissance (age=0), en moyenne sur la population.
b1 est une autre constante qui dans cet exemple mesure la réduction de matière grise par année de vie (en moyenne sur la population).
e est un bruit de mesure qui capture toutes les variations de densite_matiere_grise que l’on ne peut pas expliquer avec age. Typiquement, on suppose que la moyenne de e dans la population est 0 et que la variance de e est identique pour tous les sujets, égale à
.
On ne connaît évidemment pas les coefficients b0 et b1. Il sera nécessaire d’utiliser une procédure statistique pour les estimer, c’est-à-dire deviner (au mieux) leurs valeurs à partir des données dont nous disposons. Par exemple, pour la région de couleur olive (graphe de droite dans Fig. 100), on voit que l’on perd environ 25% de densité entre 20 ans et 90 ans (voir Fig. 100). On perd donc environ 0.35% de densité de matière grise par an, soit b1 ~ -0.0035. En utilisant cette valeur et en remarquant que la densité de matière grise est d’à peu près 0.85 à 20 ans, on en déduit que la densité à la naissance devrait être b0=0.92. En pratique, la procédure statistique va choisir les valeurs b0 et b1 pour minimiser l’amplitude des résidus de la régression:
residus = densite_matiere_grise - b0 - b1 * age
Une fois les coefficients b0 et b1 estimés, on peut tracer une droite qui représente les valeurs de densité de matière grise prédites à partir de l’âge des sujets (voir Fig. 100). Si le modèle permet d’expliquer une partie importante de la variabilité de la variable dépendante, les points mesurés seront proches de la droite de prédiction.
Régression linéaire: Analyse massivement univariée
Cartes de paramètres statistiques dans une régression linéaire massivement univariée. Première ligne: intercept b0, deuxième ligne: effet linéaire de l’âge b1.
Régression linéaire: Analyse massivement univariée
Pour l’instant, nous avons utilisé un modèle de régression pour deux voxels seulement. Mais une carte VBM peut inclure des centaines de milliers de voxels. Les logiciels de neuroimagerie permettent d’effectuer systématiquement une régression linéaire pour l’ensemble des voxels, simultanément. Dans ce cas, on estime deux paramètres pour chaque voxel: b0 (l’intercept) et b1 (l’effet de l’âge). On va donc générer deux cartes statistiques séparées (voir Fig. 101). Ces deux cartes récapitulent donc des milliers de modèles de régression différents. Comme les régressions effectuées à chaque voxel sont indépendantes les unes des autres, on parle de modèle univarié. L’autre option, le modèle multivarié, chercherait plutôt à combiner les valeurs obtenues à différents voxels. De plus, comme on fait un très grand nombre de régressions en même temps, on parle de régression massivement univariée.
Statistiques et multimodalité
Le modèle de régression est appliqué à plusieurs modalités de neuroimagerie. Dans ce chapitre, il est question d’un exemple utilisant la VBM. Mais le même modèle fonctionne dès lors qu’on a une série de cartes pour différents sujets. Il pourrait par exemple être utilisé en IRMf ou bien en TEP. Le même type de modèle peut aussi s’appliquer à des mesures prises sur des récepteurs en imagerie optique ou des mesures moyennes sur un faisceau de fibres en IRMd. Le modèle de régression est partout!
Modèle linéaire général: Variables
Relation entre âge, sexe et densité de matière grise pour un voxel (le voxel de couleur bleu dans Fig. 99). Le graphique est réalisé à l’aide de la libraire seaborn (cliquer sur + pour voir le code).
Modèle linéaire général: Variables
L’approche de régression linéaire que l’on vient de voir est simple et puissante, mais elle est limitée à deux variables. En neurosciences humaines, on ne se trouvera généralement pas dans ce cas. On va très souvent vouloir étudier des facteurs multiples de manière conjointe. Même si la représentation du sexe des participants par une variable binaire est très (très) simplificatrice - sans compter la diversité de l’identité de genre - nous allons quand même essayer d’intégrer le sexe (mâle vs femelle) dans notre analyse. La figure ci-dessus montre les distributions d’âge et de matière grise (pour le voxel bleu), séparées par sexe. Ce graphique suggère que la distribution de matière grise est peut-être différente entre mâle et femelle, mais cette différence pourrait également être liée à l’âge. Le modèle linéaire général nous permet d’intégrer toutes ces variables dans une seule analyse.
Modèle linéaire général: Régression multiple
Variables pour une régression multiple. La variable dépendante est la densité de matière grise pour un voxel (MG, le voxel de couleur bleu dans Fig. 99). Les autres colonnes représentent les variations de l’âge, du sexe et de l’intercept à travers les sujets (variables prédictives). Les variables prédictives sont généralement représentées de manière plus compacte, sous la forme d’une image où la couleur de chaque pixel représente l’intensité du régresseur. Le graphique est adapté d’un code python produit par l’équipe Dartbrains, ainsi que d’un tutoriel nilearn (cliquer sur + pour voir le code).
Modèle linéaire général: Régression multiple
D’un point de vue mathématique, le modèle de régression multiple, parfois appelé modèle linéaire général, consiste simplement à incorporer plus de variables dans la “loi” qui tente de prédire la variable dépendante à partir des régresseurs: densite_matiere_grise = b0 + b1 * age + b2 * sexe + e
Le seul nouveau coefficient est b2, qui dans ce cas mesure la différence entre la moyenne de matière grise entre les femelles (codées avec un 0 dans le modèle) et les mâles (codés avec un 1 dans le modèle), après un ajustement pour l’âge des sujets. Ce type de codage est utilisé avec les données catégorielles et est appelé “dummy variable” en anglais. Il permet d’intégrer des tests de différence de moyenne entre les groupes dans un modèle de régression.
Régression multiple et statistiques classiques
Le modèle de régression multiple est très flexible. Il est possible de formuler la plupart des tests statistiques classiques tels que l’analyse de variance (ANOVA) ou bien le test d’égalité des moyennes de Student (t-test) à l’aide du modèle de régression linéaire. Voir ce guide pour plus de détails.
Modèle linéaire général: Cartes statistiques
Cartes de paramètres statistiques dans une régression linéaire multiple massivement univariée. Haut gauche: intercept b0, haut droite: effet linéaire de l’âge b1, bas gauche: effet linéaire du sexe b2.
Modèle linéaire général: Cartes statistiques
Une caractéristique qui peut être légèrement contre-intuitive avec la régression multiple est que la carte présentant l’effet de l’âge ici est différente de celle présentée dans la section portant sur la régression simple. En effet, l’effet de l’âge est maintenant évalué après avoir pris en compte des différences de sexe. Malgré cela, le résultat de la régression n’a pas changé de manière frappante: le cortex s’atrophie avec l’âge (en bleu), alors que le liquide céphalo-rachidien s’étend (en rouge). Ce qui apparaît comme une expansion de la matière grise reflète probablement des effets de volume partiel et des tissus classifiés incorrectement comme de la matière grise. L’analyse sur la variable sexe montre que la densité de matière grise est plus élevée (en moyenne) dans le cortex chez les hommes, alors que la tendance est inversée au niveau du cervelet.
Tests statistiques: Tests t et valeur p
Tests statistiques sur la significativité de l’association entre densité de matière grise et âge. Test t de Student (haut) et log10(p) (bas). Cette figure est adaptée d’un tutoriel de la librairie nilearn (cliquer sur + pour voir le code).