cour 6: reconnaissance d'objet Flashcards
Comment est-ce que le cerveau traite l’information visuelle pour reconnaître et catégoriser les objets?
processus hierarchiques. Plus on avance dans le traitement, plus ca traite l’abstrait et le complexe.
différents champs récepteurs reçoivent des informations différentes d’un objet.
Représentation rétinotopique: projections de cellules voisines sur la rétine = réponses voisines dans le cerveau.
explique le problème de la reconnaissance des objets
différentes représentation pour le même objet (généralisation) ou points de vue = difficile pour les réseaux artificiels
Explique la théorie des gabarit
le système visuel reconnaît les objets en faisant correspondre la représentation neuronale de l’image avec une représentation interne de la même “forme” dans le cerveau.
Différentes représentations du même objet, qui activent chacune un gabarit (copie de ce format de l’objet). Concentré sur la forme (les patrons)
Explique ce qui est problématique avec la théorie des gabarits
parfois trop de différences… Problème d’invariance, tolérance au changement compliqué. Serait impossible qu’on ait autant de gabarits.
Explique la théorie des prototypes
concept de représentations prototypiques dans la reconnaissance des objets
Différentes versions d’un même objet se reconnaîtraient par une représentation abstraite typique (moyenne) créée par les expériences. Chaque fois qu’on rencontre qqch, permet de modifier le prototype moyen pour le mettre à jour dynamiquement et crée un concept abstrait
Introduit l’idée de catégories cognitives organisées autour de prototypes.
Dans la théorie des prototypes, le concept de représentations
prototypiques dans la reconnaissance des objets a été largement influencé
par les travaux de cette psychologue dans les années 1970.
Eleanor Rosch
Nomme une preuve qui montre que la théorie des prototypes pourrait être valide
Les individus classent plus rapidement et plus facilement des objets comme appartenant à une catégorie s’ils sont proches du prototype de cette catégorie. Par exemple, dans la catégorie des oiseaux, un robin est souvent considéré comme un exemple plus typique (ou prototypique) que, disons, un pingouin.
Explique la théorie des exemplaires
Les individus classent des objets et des événements en se basant sur la comparaison avec des exemples spécifiques (ou exemplaires) qu’ils ont rencontrés dans le passé, plutôt que par rapport à un prototype moyen ou idéal de chaque catégorie.
La théorie des exemplaires a été formalisée durant les années 80 par qui?
prof. Robert Nosofsky.
Explique la théorie de la reconnaissance généralisée
Se veut une extension multidimensionnelle de la SDT. caractéristiques spécifiques par dimensions x, y et z. Considère la reconnaissance d’objets comme un processus de décision probabiliste. distribution d’objets dans le cerveau
dans un graphique, les axes diffèrent sur le niveau de l’interaction entre les deux catégories de stimuli.
3 concepts importants
1. indépendance perceptuelle
2. séparabilité perceptuelle
3. Séparabilité décisionnelle.
La théorie de la reconnaissance généralisée a été introduite par qui?
introduite par Prof. Gregory Ashby en 1986.
Explique la recherche de Soho et pourquoi elle pourrait être une preuve qui soutient la théorie de reconnaissance généralisée
des visages sont présentés. Ils varient selon 2 dimensions: genre et expression faciale. Les points = distribution = permettent de calculer les probabilités. Jugement du participant.
La théorie de la reconnaissance généralisée est une extension multidimensionnelle de la théorie de détection du signal. Ici, la théorie s’intéresse donc à la sensibilité et au critère de la relation dynamique et au genre (c’est-à-dire, est-ce qu’on est sensible à une émotion selon le genre).
Explique le concept d’indépendance perceptuelle dans la théorie de la reconnaissance généralisée et le lien avec la recherche de Soho.
L’indépendance perceptuelle indique s’il existe une corrélation entre deux catégories perceptuelles.
S’il n’existe aucune corrélation entre les deux catégories (la perception de l’émotion ne dépend pas de la perception du genre), les deux catégories sont perceptuellement indépendantes.
Si on remarque une tendance, par exemple à dire que les visages perçus comme féminins ont l’air plus heureux, les catégories sont corrélées ensemble et on a un échec de l’indépendance perceptuelle.
Explique le concept de séparabilité perceptuelle dans la théorie de la reconnaissance généralisée
On veut savoir si un changement de perception de x influence la perception du y.
La séparabilité perceptuelle s’intéresse à comparer deux stimuli (ou plus) ensemble. Des participants ont vu ces visages et ont dû identifier le genre et l’émotion. Ces réponses, pour chaque visage, se distribuent normalement.
Si les distributions pour différents stimuli se chevauchent, on a de la séparabilité perceptuelle.
- quand les courbes normales sur l’axe heureux/triste se chevauchent, cela veut dire que la perception de la joie sur un visage n’est pas influencée par la perception du genre
- Si ces distributions ne se chevauchent pas, cela nous indique que le visage masculin a été perçu comme plus heureux.
Explique le concept de séparabilité décisionnelle dans la théorie de la reconnaissance généralisée
permet de savoir si le participant a un biais perceptuel.
La séparabilité décisionnelle nous informe si un participant aura tendance à dire que les visages de femme sont plus heureux que ceux des hommes, par exemple. C’est le critère de la théorie de détection du signal.
Il y a séparabilité décisionnelle quand un participant n’a pas de biais, quand la droite est perpendiculaire à l’axe des X.
Si la droite a un angle différent de 90 degrés, échec de la séparabilité décisionnelle. Le participant a tendance à dire que les visages féminins sont plus heureux que ceux masculins.
Explique la théorie de reconnaissance par composante
les objets sont reconnus par les identités et les relations de leurs composantes
Géons : 36 « ions géométriques » à partir desquels les objets sont construits. Comme un alphabet.
Qui a créé la théorie de reconnaissance par composante? (géons)
Biederman
Dans les modèles computationnels de reconnaissance des objets, explique ce qu’est un réseau neuronal profond (DNN)
Réseaux de neurones à plusieurs niveaux pouvant être entraînés à reconnaître des objets. hiérarchie entre info de bas niveau puis plus on avance dans les couches, de plus en plus complex
● De nombreuses instances d’un objet sont montrées au réseau, avec du feedback
● Au fil du temps, le réseau peut reconnaître de nouvelles instances de l’objet sur lesquelles il n’a jamais été entraîné
se base sur des probabilités et prédictions.
les derniers DNN rivalisent avec les performances de
représentation du cortex IT (chez le singe) sur une tâche
de reconnaissance visuelle d’objets. Qui a découvert cela dans ses travaux?
Cadieu et al. (2014; Plos Comp Biol)
Les représentations d’un modèle DNN de reconnaissance d’objet “expliquent” les représentations mesurées dans IT avec l’IRMf. Ce sont les travaux de qui?
Khaligh-Razavi (2014; Plos Comp Biol)
Qu’est-ce que Lindh et al. (2019; Nature Communications) ont montré dans leur utilisation de DNN?
En utilisant un DNN pour modéliser les propriétés visuelles du stimulus, les auteurs montrent que les
propriétés de niveau intermédiaire et de haut niveau des images peuvent prédire la conscience visuelle, et
peuvent fournir une explication mécanistique du phénomène du clignement attentionnel.
Explique le théorie des cellules grand-mère
Un seul neurone pourrait-il être responsable de la reconnaissance de grandes entités comme par exemple,
votre grand-mère
Qui a créé la théorie des cellules grand-mère?
Jerry Lettvin
Plusieurs études furent publiées dans les années 2000, suggérant certaines
évidences pour les cellules
Grand-Mère. Notamment, une étude de Quiroga. Explique ce qu’il a montré pour soutenir cette théorie.
expérience de EEG ont montré que des neurones répondent spécifiquement à une seule personne comme les neurones de Jennifer Anniston qui répondaient spécifiquement à elle seule
Mais serait expliqué par le fait que le neurone appartiendrait à un réseau.
Quelles sont les 3 parties principales du cerveau et dans laquelle retrouve-t-on le plus de neurones?
régions corticales (reste du cerveau)
cortex
cervelet = le plus de neurones (85%)
Quel est le nombre de neurones dans le cerveau environ?
environ 170 Billions de neurones (+/- 14)
Explique l’expérience de Brendan RitchieThomas Carlson, une approche incluant plusieurs théories
extension de la théorie de détection du signal
les participants devaient identifier si l’objet sur une image était animé (l’ordre du vivant) ou inanimé (les outils par exemple).
analyser ces images à l’aide d’un modèle d’apprentissage machine entraîné à prédire si les images sont animées ou inanimées. Les images dont leur nature animée est moins claire sont proches de la decision boundary et les images qui sont clairement animées ou inanimées sont loin de la decision boundary
plus les images sont loin de cette decision boundary, plus le temps de réaction des participants pour identifier la nature animée de l’image était court.
on peut prendre ces temps de réaction pour calculer ce qu’on appelle le rang d’accumulation. Donc, ici le raisonnement est qu’on peut modéliser le temps de réaction en forme de droite. Plus le temps de réaction est rapide, plus la pente de cette droite sera aiguë
Les cellules ganglionnaires rétiniennes et le LNG répondent à quel type de stimulis?
et le cortex visuel primaire?
Les cellules ganglionnaires rétiniennes et le LNG répondent à des tâches
Cortex visuel primaire répond à des barres
Les taches et les barres deviennent du traitement d’objets au dela de V1
Quels champs récepteurs sont plus
sophistiqués entre ceux du cortex strié?
cellules extrastriées
À quoi répondent les champs récepteurs des cellules extrastriées?
Donne un exemple.
Ils répondent à des propriétés visuelles importantes pour la
perception des objets.
● Par exemple, « boundary ownership ». Pour une frontière donnée, quel côté fait partie de l’objet et quel côté fait
partie de l’arrière-plan ?
Explique la différence entre la vision de bas niveau, celle de niveau intermédiaire (mid-level) et celle de haut niveau
- caractéristiques de base ont été extraites de l’image
(vision de bas niveau). - vision intermédiaire
* Implique la perception des bords et des surfaces
* Détermine quelles régions d’une image doivent être
regroupées en objets
3.la reconnaissance d’objet et la compréhension de la scène (vision de haut niveau).
Comment trouvez-vous les bords des objets?
Comment savez-vous quels bords vont ensemble et lesquels
ne vont pas ensemble
Les cellules du cortex visuel primaire ont de petits champs
récepteurs.
en faisant des prédictions selon nos connaissances, possible de faire une continuation de contour mais un ordinateur ne peut pas
hypothèse: le système visuel ferait une règle de continuation pour créer des bordures illusoires. Champs récepteurs communiquent entre eux et font un travail de segmentation.
Qu’est-ce qu’un contour illusoire?
Un contour qui est perçu même si rien ne change d’un
côté du contour à l’autre
Explique la théorie de la Gestalt
“Le tout est plus grand que la somme de ses parties.”
- opposé du structuralisme*
suit les règles de regroupement Gestalt : un ensemble de règles qui décrivent quand les
éléments d’une image apparaîtront comme s’ils
étaient regroupés.
Ensuite, les comités de la Gestalt doivent intégrer les avis contradictoires
et parvenir à un consensus pour percevoir quelque chose.
Les comités perceptifs ont tendance à obéir aux lois de
la physique et à croire qu’il n’y a pas de points de vue accidentels
Nommes et définit les 8 différentes règles de regroupement Gestalt.
Celles-ci s’appliquent à quel niveau de la vision?
- bonne continuation: deux éléments auront tendance à se regrouper s’ils se trouvent sur le même contour.
- Similarité : les éléments similaires ont tendance à se regrouper.
- Proximité : les objets proches les uns des autres ont tendance à se regrouper
vision intermédiaire - Parallélisme : les contours parallèles appartiennent probablement au même groupe.
- Symétrie : les régions symétriques sont plus susceptibles d’être considérées comme un groupe
- Région commune : les éléments sont regroupés s’ils semblent appartenir à la même région plus grande.
- Connectivité : les éléments auront tendance à se regrouper s’ils sont connectés.
- Synchronie / sort commun: dans la même direction = regroupé
Vision intermédiaire
Sur quoi met l’accent le structuralisme
mettent l’accent sur les éléments de base de la perception.
Comment est définit une figure ambigue?
un stimulus visuel qui donne lieu à deux ou plusieurs interprétations de son identité ou de sa structure.
Qu’est-ce qu’un point de vue accidentel?
une position de visualisation
qui produit une certaine régularité dans l’image visuelle
qui n’est pas présente dans le monde.
Les comités de perception supposent que les points de
vue ne sont pas accidentels
Qu’est-ce que la discrimination figure-fond?
Déterminer quelle partie de l’environnement est la figure de sorte que celle-ci ressort du fond
Quels sont les 5 principes de discrimination figure-fond de la Gestalt?
● Entourage : les zones qui peuvent être considérées comme entourées par d’autres ont tendance à être considérées comme des figures
● Taille : La plus petite région est susceptible d’être la figure.
● Symétrie: Une région symétrique a tendance à être considérée comme une figure.
● Parallélisme : les régions aux contours parallèles ont tendance à être considérées comme des figures.
● Mouvement relatif : si une région se déplace devant une autre, la région la plus proche est représentée.
Que sont les caractéristiques non accidentelle?
caractéristique d’un objet qui ne dépend pas de la position de visualisation
exacte (ou accidentelle) de l’observateur.
Nomme et explique les 3 types de caractéristiques non accidentelles sur une image.
● Jonctions en T : indiquent l’occlusion. Le haut du T est devant et la tige du T est derrière.
● Jonctions en Y : indiquent les coins faisant face à l’observateur.
● Jonctions fléchées : indiquent les coins opposés à l’observateur.
Qu’est-ce que l’effet de supériorité globale?
la plupart du temps, les propriétés globales de l’objet (entier) priment sur les propriétés locales (des parties) de l’objet.
Note: mais les gens autistes ont tendances à traiter l’information locale en priorité
Résume les 5 principes de la vision intermédiaire
- Rassemblez ce qui devrait être réuni
- Divisez en deux ce qui devrait être divisé en deux
- Utilisez ce que vous savez
- Évitez les accidents
- Rechercher le consensus et éviter l’ambiguïté
L’imagerie fonctionnelle peut nous aider à identifier les
régions du cerveau qui répondent le mieux à certains stimuli. Explique la méthode de soustraction (classique) quant aux bases neuronales de la reconnaissance d’objets.
comparaison de l’activité cérébrale mesurée dans deux
conditions. La différence entre les images peut montrer
les régions cérébrales spécifiquement activées par ce
processus mental.
moyenne des réponses pour un voxel et soustraction de 2 conditions
L’imagerie fonctionnelle peut nous aider à identifier les
régions du cerveau qui répondent le mieux à certains stimuli. Explique la méthode de décodage.
Prenez des scans IRMf d’un participant regardant de nombreuses images de différentes catégories connues.
Entraînez un modèle informatique pour reconnaître l’activité cérébrale de chaque catégorie. Testez ensuite le modèle informatique pour voir s’il peut identifier une image non entraînée en fonction de ce qu’il a appris.
prédiction de l’image à l’aide de patrons; donne une cartographie du cerveau
Explique la théorie des voies ventrales et dorsales dans les bases neuronales de la reconnaissance d’objets (leur rôles respectifs)
Après le cortex extrastrié, le traitement des informations sur les objets est divisé en une voie « quoi » et une voie « où ».
○ La voie “Où/Where” (dorsale) concerne les
emplacements et les formes des objets, mais pas leurs noms ou leurs fonctions. Lié au lobe pariétal
cellules ganglionnaires m > cellules magnocellulaires LNG > V1 > V2 > V3 > V5 (MT), MST (Cortex médian temporal supérieur), STS ( Sulcus Temporal Supérieur)
○ La voie “Quoi/What” (ventrale) concerne les noms (identité) et les fonctions des objets, quel que soit leur emplacement. Lié au lobe temporal
cellules ganglionnaires p > cellules parvocellulaire LGN > V1 > V2 > V4 (couleur) > IT (forme)
Dans le cortex visuel d’un singe, explique les régions associées à la voie ventrale vs dorsale.
voie ventrale = lobe occipital > cortex extrastrié jusqu’au cortex inferotemporal. Permet de connaitre identité et nature de l’objet.
voie dorsale = lobe occipitale > régions partiétales = raffinement du traitement pour la localisation d’objets dans l’espace
Que se passe-t-il dans le traitement en passant de V1 à IT?
dans la voie “quoi”, les neurones
répondent à des stimuli de plus en plus complexes.
Quels stimulis sont traités dans V4?
les cellules s’intéressent aux stimuli tels que les fans, les spirales et les moulinets.
Il est difficile de savoir exactement ce que les neurones V4 aiment, mais c’est quelque chose de plus compliqué que des
taches ou des barres lumineuses. Elles contribuent à la segmentation.
des régions le long du cortex inféro-temporal (IT) répondent préférentiellement à certais stimulus. Détermine quels sont les stimulis préférentiels de ces régions:
- FFA (face fusiform area) - Nancy Kanwisher
- PPA (parahippocampic place area)
- LOC ( lateral occipital complex)
FFA = visages
nb: pas seulement la FFA qui contribue au visages. Réseau de neurones permet de différencier les objets. Remet en question les rôles spécifiques de voie ventrale vs dorsale
PPA = reconnaissance des scènes visuelles
LOC = répond aux objets, comme des formes ou distinction
Le débat entre les théories localistes et distribuées concerne la manière dont le
cerveau traite les informations visuelle. Nomme un argument pour un réseau distribué.
James Haxby et ses collègues proposent un modèle distribué, où l’information est traitée par des réseaux de régions cérébrales interconnectées, comme hIT (human
Inferior Temporal cortex), impliquées dans la reconnaissance d’objets de manière plus générale.
Nomme un argument qui soutient une perspective localiste quant aux bases neuronales de la reocnnaissance d’objets.
Nancy Kanwisher et d’autres ont identifié des régions cérébrales spécifiques,
comme la FFA (Fusiform Face Area), spécialisées dans la reconnaissance de
visages, soutenant une perspective localiste.
Que sont les propriétés du champ récepteur des neurones de hIT (cortex inféro-temporal)?
- grandeur
- stimulis préférentiels
*c’est une partie dans quelle voie?
Très grands - certains couvrent la moitié du champ
visuel
Ne répondent pas bien aux taches ou aux lignes mais répondent bien aux stimuli tels que les mains, les
visages ou les objet (détails fins). Traiterait aussi les images familières. Importante pour la reconnaissance des objets.
partie dans la voie ventrale.
Qu’est-ce qu’une lésion en neuropsychologie? (2 définition)
- (n.) Une région du cerveau endommagée.
- (v.) Détruire une partie du cerveau
Lorsque le cortex IT est lésé, que se produit-il?
des agnosies: Incapacité à reconnaître les objets malgré la capacité de les voir
En combien de temps se fait la reconnaissance d’objets?
Nomme et explique le processus utilisé
la reconnaissance d’objets se
produit en aussi peu que 150 ms.
C’est un laps de temps si court qu’il ne peut pas y avoir beaucoup de rétroaction des zones cérébrales ultérieures.
Processus “feed-forward” : un processus qui effectue un calcul (par exemple, la reconnaissance d’objets) une étape neuronale après l’autre, sans avoir besoin de rétroaction d’une étape ultérieure à une étape antérieure.
Explique le pseudo-paradoxe de la perception
Si le monde est tel que nous le percevons, le cerveau est tel que nous le percevons;
moins de 0,04% de l’information dans la lumière visible parvient au cortex
extrastrié
Donc le monde n’est pas tel que nous le percevons. Le monde est dans une large mesure à l’intérieur de notre
cerveau.
bref le monde est tel que nous le percevons mais donc différent pour tous.
Quel % de la lumière ambiante traverse le médium oculaire?
50% de la lumière visible ambiante traverse le médium oculaire
Quel % de la lumière traverse la rétine?
20% traverse les cellules de la rétine
Quel % d’information dans les récepteurs rétiniens sort des cellules ganglionnaires?
moins de 1% de l’information dans les récepteurs rétiniens sort des cellules ganglionnaires
Quel % de l’information qui arrive dans le LGN le quitte pour V1?
40% de l’information qui arrive dans le LGN le quitte pour V1
Quel % de l’information dans la lumière visible parvient au cortex extrastrié au final?
moins de 0,04% de l’information dans la lumière visible parvient au cortex
extrastrié
Les représentations d’objet (mesurées à l’aide
d’apprentissage machine et de l’IRMf) sont unique
aux individus et prédisent le comportement.
Avec quelle technique ces représentations sont-elles mesurées et explique la.
Mesure les représentations avec la Representational Similarity Analysis, puis compare les participants pour identifier les idiosyncrasies (la disposition humaine à ressentir différemment, selon les individus, une impression extérieure ou sensorielle.)
Les représentations d’objets dans le cortex IT peuvent être perçues comme une “empreinte” qui reflète nos différences individuelles en lien avec nos
expériences uniques.
Nomme les différents types d’agnosie selon si cela atteint la reconnaissance des couleur, les objet ou les visages.
objet = agnosie
visage = prosopagnosie
couleur = achromatopsie.
Le cortex extrastrié comprend généralement quelles 3 couches de cellules?
V2, V3 et V4
_____ est en fait la première structure qui détecte l’orientation, ou l’angle des bordures sur une image. Par contre, c’est le ________ _________qui intègre ces barres orientées en un contour défini.
V1 est en fait la première structure qui détecte l’orientation, ou l’angle des bordures sur une image. Par contre, c’est le cortex extrastrié qui intègre ces barres orientées en un contour défini.