cour 8: percevoir et reconnaître des scènes Flashcards

1
Q

À chaque instant de notre vie, on échantillonne notre environnement environ _______à _______ fois par seconde par des mouvements oculaires saccadés.

A

À chaque instant de notre vie, on échantillonne notre environnement environ trois à cinq fois par seconde par des mouvements oculaires saccadés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quelle est la structure sur laquelle les images s’arrête pour créer une fixation?

A

la fovéa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quelles sont les 2 types de scènes visuelles?

A

scène naturelle vs artificielle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Nommes les 4 types de scènes naturelles et ce qu’elles impliquent dans la perception.

A

● Paysages : Montagnes, forêts, plages, déserts, prairies. Ces scènes évoquent typiquement des émotions et souvenirs distincts, s’appuyant fortement sur l’agencement spatial, la couleur et les textures naturelles.

● Étendues d’eau : Océans, lacs, rivières, chutes d’eau. Le mouvement de l’eau ajoute des
aspects dynamiques à la perception des scènes, ainsi que des reflets et des paysages sonores uniques.

● Conditions météorologiques : Journées ensoleillées, pluie, neige, brouillard. Les
phénomènes atmosphériques ont un impact significatif sur notre perception des scènes,
affectant la visibilité, les conditions de lumière et l’esthétique générale.

● Biomes : Savanes, forêts tropicales, récifs coralliens. Reconnaître des biomes spécifiques implique d’intégrer des informations sur la végétation, la vie animale et les caractéristiques
du terrain

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nommes les 4 types de scènes artificielle et ce qu’elles impliquent dans la perception.

A

● Environnements urbains : Rues, bâtiments, places, parcs. Ces scènes nécessitent le traitement de relations spatiales complexes, d’indices de navigation et d’interactions sociales.

● Environnements intérieurs : Maisons, bureaux, cafés, bibliothèques. La reconnaissance implique de comprendre les activités humaines et la fonction des différents espaces en fonction du mobilier, de la décoration et de l’agencement.

● Lieux culturels : Bâtiments religieux, monuments historiques, musées. Ces scènes déclenchent souvent des connaissances et émotions spécifiques associées à une importance culturelle.

● Scènes dynamiques : Carrefours, marchés bondés, événements sportifs. Le traitement de ces scènes nécessite des changements rapides d’attention et l’intégration des informations
de mouvement dans la compréhension de la scène.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelle est la différence entre la reconnaissance des scènes et des objets ?

A

● Impliquent deux processus cognitifs distincts

● La principale différence réside dans la manière dont notre cerveau traite et interprète les informations visuelles.

Reconnaissance d’objets

●l’identification et la catégorisation d’éléments individuels dans notre champ visuel, tels que des objets, des personnes ou des animaux.

● se concentre sur les caractéristiques spécifiques de ces éléments: la forme, la taille, la couleur, la texture pour les distinguer

Reconnaissance de scènes

● englobe une compréhension plus large et plus globale de l’environnement visuel.

● inclut l’interprétation du contexte, la compréhension des relations spatiales entre les objets, et la capacité à saisir le sens global ou l’essence d’un environnement.

● Les scènes sont souvent complexes et contiennent de multiples objets qui interagissent dans un espace partagé, ce qui nécessite une intégration des informations visuelles à un niveau supérieur.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Explique le rôle du contexte dans la reconnaissance de scènes

A

● fournit des informations supplémentaires qui aident à interpréter les objets dans leur environnement.

● prédire quels objets sont susceptibles d’être présents et comment ils sont disposés, améliorant ainsi notre capacité à comprendre et à interagir avec notre environnement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Explique le rôle des relations spatiales dans la reconnaissance de scènes

A

Font référence à la disposition et à l’organisation des objets dans l’espace.

● Comprendre la disposition des objets est essentiel pour interpréter une scène.

● Ces relations aident à déterminer la structure d’une scène et à comprendre comment naviguer ou interagir avec l’environnement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Explique la théorie des affordances de James J. Gibson et sa force

A

emphase sur comment la scène visuelle peut guider nos actions et nos comportements sans faire une analyse complete des éléments non plus.

La reconnaissance des scènes se base sur la perception des affordances, c.a.d les possibilités d’action offertes par l’environnement.

● explique bien la rapidité et
l’efficacité de la reconnaissance des scènes dans la vie quotidienne.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Explique le problème avec la théorie des affordances de James J. Gibson (ce qu’elle ne permet pas d’expliquer)

A

elle ne prend pas en compte la
capacité à reconnaître des scènes complexes ou
ambiguës.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Nomme les 3 théories autour du traitement de l’information et leur auteur

A

● Images intrinsèques (Harrow et Tenenbaum, 1978)

● Relations d’objets ou de composantes (Biedermann, 1982)

● Propriétés de l’enveloppe spatiale (GIST; Oliva & Torralba, 2001)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Explique la théorie des images intrinsèque de Harry Barrow et les 3 propriétés sous-jacentes.

A

Une image peut être décomposée en un
ensemble d’« images intrinsèques », chacune représentant une propriété
fondamentale de la scène qu’elle dépeint.

● Ces propriétés incluent :

○ Réflectance : La proportion de lumière réfléchie par les surfaces de la scène (albédo).

○ Illumination : La quantité et la direction de la lumière tombant sur les surfaces.

○ Distance : La distance des surfaces par rapport à la caméra (profondeur)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Explique la théorie des composantes de Biederman

A

On peut reconnaître une scène
rapidement de par les relations entre les objets qui la constituent

5 classes de relations: l’interposition, le support, la probabilité, la position et la taille familière

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Définit les 5 classes de relations entre les objets dans la théorie des composantes de Biederman

A

● l’Interposition (les objets interrompent leur arrière-plan).

● le Support (les objets ont tendance à reposer sur des
surfaces).

● la Probabilité (les objets ont tendance à se trouver dans
certaines scènes mais pas dans d’autres).

● la Position (étant donné qu’un objet est probable dans une scène, il est souvent trouvé dans certaines positions et pas dans d’autres).

● la Taille familière (les objets ont un ensemble limité de
relations de taille avec d’autres objets).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Explique le modèle de Scene Gist (enveloppe spatiale) de Aude Olivia

A

Un modèle computationnel de la reconnaissance de
scènes du monde réel qui ne repose pas sur la segmentation et le traitement d’objets ou de régions
individuels.

● dimensions perceptuelles
(naturalité, ouverture, rugosité, expansion, rudesse) qui représentent la structure spatiale dominante d’une scène en utilisant des informations spectrales et grossièrement localisées.

● espace multidimensionnel dans lequel les scènes partageant une appartenance à des catégories sémantiques (par exemple, rues, autoroutes, côtes) sont projetées à proximité les unes des autres.

Montre que des informations spécifiques sur la forme ou l’identité des objets ne sont pas une exigence pour la catégorisation des scènes et que la modélisation d’une représentation holistique de la scène informe sur sa catégorie sémantique probable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Explique le principe d’image hybride

A

développement d’images hybrides: transforme une image dans l’espace de fourier (décomposition de fréquences spatiales de l’image et va filtrer pour révéler une bande de fréquence x) Les images hybrides combinent une représentation fréquentielle de 2 images. En changeant la taille de l’image sur la rétine, change le nombre de photorécepteurs qui répondent et change l’information (autre bande de fréquence spatiale percue) et nouvelle image apparaît.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Les images hybrides font référence à quelle théorie?

A

théorie de la scène-gist. Il est pertinent d’analyser des images en termes de basse et haute fréquence simplement parce que le monde visuel est un monde fréquentiel. Autrement dit, le monde visuel est composé de signaux visuels à basse et haute fréquence. Si l’on veut comprendre comment notre cerveau analyse le monde de façon fine, il est donc important de comprendre comment le cerveau décortique ces informations fréquentielles.

18
Q

Explique le concept de Grammaire de la scène de Melissa Vo

A

les règles structurelles et les relations sémantiques au sein d’une scène qui guident notre perception et compréhension.

● interpréter rapidement les scènes, à reconnaître les anomalies et à anticiper la position des objets, même dans des environnements inconnus.

● rôle clé dans l’allocation de l’attention, la mémoire des objets et de leurs emplacements, et le traitement cognitif des informations visuelles.

Notre connaissance de la localisation habituelle des objets dans une scène nous permet de faire des prédictions efficaces et très rapides, ce qui permet une économie de temps et de ressources.

19
Q

Quelle est la vitesse de reconnaissance des scènes quand on connait la cible? Les travaux de qui ont supporté cela?

A

Avec seulement 13 ms de présentation, si on connait la cible, on peut trouver une scène. Connaitre la cible influence la reconnaissance

Les travaux de Molly Potter ont un impact majeur dans notre compréhension de la
reconnaissance des scènes.

ses travaux ont aussi influencé la découverte du clignement attentionnel

20
Q

Selon Simon Thorpe, le cerveau a besoin de moins de
___ ms pour différencier des
scènes de différentes catégories.

A

Le cerveau a besoin de moins de 150 ms pour différencier des scènes de différentes catégories.

21
Q

Selon Simon Thorpe, en moins de ___ ms, une saccade oculaire est faite vers la scène d’une catégorie spécifique.

A

En moins de 120 ms, une saccade oculaire est faite vers la scène d’une catégorie spécifique.

22
Q

pour que l’informaiton de bas niveau soit relayée, par quelles structures ou couche passe-t-elle en partant de la rétine?

A

rétine;
photorécepteur;
v1 (premier relai)
cortex visuel primaire (info de bas niveau traité dans le lobe occipitale entre v1 et v3)

23
Q

Quelle région traite les informations visuelles de base comme les lignes, les couleurs et les textures et dans laquelle les premières étapes du traitement de la scène se déroulent?

A

Lobe occipital

24
Q

Quelle structure joue un rôle crucial dans le traitement de la disposition de la scène, des relations spatiales et de l’essence d’une scène, permettant naviguer, savoir ou on est et les actions potentielles à adopter dans la reconnaissance des objets?

A

Cortex parahippocampique (aire PPA)

25
Q

Nomme les 5 structures principales qui jouent un rôle crucial dans la reconnaissance des scènes

A

lobe occipital
PPA - cortex parahippocampique
cortex préfrontal médian
cortex inférotemporal
cortex rétrosplénien

26
Q

Qui est impliquée dans la découverte de la réponse préférentielle aux lieux (Epstein = son étudiant.)?

A

Nancy Kanwisher

27
Q

Quelle structure est impliqué dans la reconnaissance d’objets en contribuant à la compréhension de la scène en identifiant les objets dans la scène (interprétation des scènes, info sur identité des objets)

A

cortex inférotemporal

28
Q

quelle structure intègre les informations spatiales de différentes zones, facilitant la navigation et la compréhension de la scène? (comprendre comment les éléments de la scène sont intereliés)

A

Cortex rétrosplénien

29
Q

Quelle structure intègre divers aspects du traitement de la scène (objets, disposition spatiale, contexte) avec les connaissances et les souvenirs antérieurs, ce qui permet la compréhension de la scène?

A

Cortex préfrontal médian

30
Q

Explique l’expérience qui a été faite dans les travaux sur la reconnaissance de scènes

A

On montre des scènes visuelles aux gens à décrire. On cherche le lien entre représentations linguistiques et activations en réponse à des stimulis visuels. Le but est de reconstruire des phrases qui décrivent des scènes visuelles vues sur la base d’activation cérébrales de stimulis. Decodeur capable de décrire ce que la personne est en train de voir.

  1. on enregistre l’activité du cerveau des participants qui voient des images.
  2. “l’activité” générée par les phrases dans notre LLM qui est enregistrée.
  3. Ces activations sont ensuite utilisées pour entraîner un “encoding model”. Les encoding models prennent un stimulus et tentent de prédire l’activité dans le cerveau (ou dans un réseau de neurones) que génère ce stimulus.
  4. Ces mêmes activations sont aussi utilisées pour faire de la RSA (representational similarity analysis) afin de voir si la façon dont les LLM encodent la description des scènes est similaire à la façon dont le cerveau a encodé la description des scènes. C’est-à-dire s’ils représentent l’aspect sémantique des scènes de façon similaire.
31
Q

Que sont les 3 mécanismes de géolocalisation

A

Cellules de lieu hippocampiques.
Cellules de direction de la tête.
Cellules de grille.

32
Q

Par qui ont été découvertes les cellules de lieu hippocampiques?

A

John O’keefe

33
Q

Quelle est la fonction des cellules de lieu et ou se trouvent-elles?

A

Dans l’hippocampe

elles s’activent à des endroits spécifiques d’une scène, contribuant à la navigation spatiale et à la reconnaissance de la scène

34
Q

Par qui ont été découvertes les cellules de direction de la tête?

A

Jeff Taub

35
Q

Quelle est la fonction des cellules de direction de la tête et ou se trouvent-elles (3)?

A

thalamus
cortex entorhinal
cortex rétrosplénial.

rôle crucial dans la navigation spatiale en fournissant au cerveau un signal constant de l’orientation de notre tête dans l’espace, agissant comme une boussole interne.

36
Q

Qui a découvert les cellules de grilles?

A

Edvard Moser May-Britt Moser

37
Q

Ou se trouvent les cellules de grille et quelle est leur fonction?

A

Trouvées dans le cortex entorhinal (premier relai à l’hippocampe)

forment une représentation en grille de l’espace, contribuant à la navigation dans la scène et aux cartes mentales. cellules ne répondent pas a un seul endroit mais plusieurs, qui créent un pattern de patron hexagonale.

38
Q

Qui ont reçu en 2014 un prix Nobel pour leur découverte des cellules de lieu et des cellules de grilles?

A

John O’Keefe, Edvard et May-Britt Moser

39
Q

Explique la vision de bas niveau, niveau intermédiaire et haut niveau fait référence au traitement de quel stimulis

A

La vision de bas niveau concerne les orientations de barres et la luminance

La vision de moyen niveau concerne la texture et la forme de objets (des blobs, donc la forme général) et les contours (bordures)

Et la vision de haut niveau concerne l’identité ou la reconnaissance des objets.

40
Q

Explique le fonctionnement et le but du LLM

A

le LLM (Large Language Model) est utilisé pour simuler les processus sémantiques en vision, c’est-à-dire pour nommer et décrire une image. Un LLM fonctionne en analysant de grandes quantités de texte, ce qui lui permet de prédire la série de mots qui a le plus de sens dans un contexte donné. Dans cette étude, le LLM avait spécifiquement pour tâche de décrire des images. En gros, le LLM permet de simuler la partie du cerveau qui te permet de décrire une image.

Doerig et al. ont ensuite montré que ce modèle, qui inclut une simulation de la capacité à décrire une image, prédit mieux l’activité cérébrale des êtres humains dans une tâche de vision.