cours 8 Flashcards

1
Q

À chaque instant de notre vie, on échantillonne notre environnement environ 3 à 5 fois par seconde par des mouvements oculaires saccadés.
Chaque fixation produit une scène, une riche collection d’objets, de surfaces, d’agents, de structures, de textures et de couleurs. Différents types de scènes émergent séparées en 2 catégories principales (Scènes Naturelles et scènes artificielles)

A

vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

C’est quoi des scènes naturelles?

A

Paysages: Montagnes, forêts, plages, déserts, prairies. Ces scènes évoquent typiquement des émotions et souvenirs distincts, s’appuyant fortement sur l’agencement spatial, la couleur et les textures naturelles
Étendues d’eau: Océans, lacs, rivières, chutes d’eau. Le mouvement de l’eau ajoute des aspects dynamiques à la perception des scènes, ainsi que des reflets et des paysages sonores uniques
Conditions météorologiques: Journées ensoleillées, pluie, neige, brouillard. Les phénomènes atmosphériques ont un impact significatif sur notre perception des scènes, affectant la visibilité, les conditions de lumière et l’esthétique générale
Biomes: Savanes, forêts tropicales, récifs coralliens. Reconnaître des biomes spécifiques implique d’intégrer des informations sur la végétation, la vie animale et les caractéristiques du terrain

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

C’est quoi des scènes artificielles?

A

Environnements urbains: Rues, bâtiments, places, parcs. Ces scènes nécessitent le traitement de relations spatiales complexes, d’indices de navigation et d’interactions sociales.
Environnements intérieurs: Maisons, bureaux, cafés, bibliothèques. La reconnaissance implique de comprendre les activités humaines et la fonction des différents espaces en fonction du mobilier, de la décoration et de l’agencement.
Lieux culturels: Bâtiments religieux, monuments historiques, musées. Ces scènes déclenchent souvent des connaissances et émotions spécifiques associées à une importance culturelle.
Scènes dynamiques: Carrefours, marchés bondés, événements sportifs. Le traitement de ces scènes nécessite des changements rapides d’attention et l’intégration des informations de mouvement dans la compréhension de la scène

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quelle est la différence entre la reconnaissance des scènes et la reconnaissance des objets?

A

● well ils impliquent 2 processus cognitifs distincts, chacun jouant un rôle crucial dans notre interaction avec l’environnement
● La principale différence entre ces 2 processus réside dans la manière dont notre cerveau traite et interprète les infos visuelles

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qu’est ce que la reconnaissance d’objets?

A

● Ce processus implique l’identification et la catégorisation d’éléments individuels dans notre champ visuel, tels que des objets, des personnes ou des animaux
● La reconnaissance d’objets se concentre sur les caractéristiques spécifiques de ces éléments:
- la forme
- la taille
- la couleur
- la texture
● C’est par le traitement de ces caractéristiques que l’on peut distinguer les objets les uns des autres

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est ce que la reconnaissance de scènes?

A

● Contrairement à la reconnaissance d’objets, la reconnaissance des scènes englobe une compréhension plus large et plus globale de l’environnement visuel.
● Elle ne se limite pas à identifier des éléments individuels, inclu aussi l’interprétation du contexte, la compréhension des relations spatiales entre les objets, et la capacité à saisir le sens global ou l’essence d’un environnement
● Les scènes sont souvent complexes et contiennent de multiples objets qui interagissent dans un espace partagé, ce qui nécessite une intégration des infos visuelles à un niveau supérieur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Rôle du contexte et des relations spatiales

Quelle est l’importance du contexte?

A

● Joue un rôle crucial dans la reconnaissance des scènes, car fournit des infos supplémentaires qui aident à interpréter les objets dans leur environnement
● ex: voir une tasse sur une table dans une cuisine est attendu, ce qui facilite la reconnaissance de la scène comme une cuisine
● Aide à prédire quels objets sont susceptibles d’être présents et cmt ils sont disposés, améliorant ainsi notre capacité à comprendre et à interagir avec notre environnement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Rôle du contexte et des relations spatiales

Quelle est l’importance des relations spatiales?

A

relations spatiales: la disposition et à l’organisation des objets dans l’espace
● Comprendre la disposition des objets est essentiel pour interpréter une scène
● Ces relations aident à déterminer la structure d’une scène et à comprendre cmt naviguer ou interagir avec l’environnement
Ex : la reconnaissance qu’une chaise est sous une table peut indiquer un espace de salle à manger et influencer notre interaction avec cet espace (ex, en tirant la chaise pour s’asseoir)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Théories de la reconnaissance des scènes

Qu’est ce que la Théorie des affordances?

A

● Cette théorie met l’accent sur l’info “affordée” (offert) par l’environnement pr l’action
● La reconnaissance des scènes ne se base pas sur une analyse détaillée des éléments visuels, mais sur la perception des affordances = les possibilités d’action offertes par l’environnement
● théorie explique bien la rapidité et l’efficacité de la reconnaissance des scènes dans la vie quotidienne.
● MAIS ne prend pas en compte la capacité à reconnaître des scènes complexes ou ambiguës

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Théories de la reconnaissance des scènes

Quelles sont les théories autour du traitement de l’information?

A
  • Images intrinsèques
  • Relations d’objets ou de composantes
  • Propriétés de l’enveloppe spatiale
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Théories de la reconnaissance des scènes

Qu’est ce que la Théorie des images intrinsèques?

A

● Une image peut être décomposée en un ensemble « d’images intrinsèques », chacune représentant une propriété fondamentale de la scène qu’elle dépeint
● Ces propriétés incluent :
1. Réflectance: La proportion de lumière réfléchie par les surfaces de la scène (albédo)
2. Illumination: La quantité et la direction de la lumière tombant sur les surfaces.
3. Distance: La distance des surfaces par rapport à la caméra (profondeur)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Théories de la reconnaissance des scènes

Qu’est ce que la Théorie des composantes?

A
  • Tout comme dans la reconnaissance des objets, la théorie des composantes de Biederman joue un rôle dans la reconnaissance des scènes.
  • On px reconnaître une scène rapidement à l’aide des relations entre les objets qui la constituent
  • Il y a 5 classes de relations entre les objets:
    1. l’Interposition (les objets interrompent leur arrière-plan)
    2. le Support (les objets ont tendance à reposer sur des surfaces)
    3. la Probabilité (les objets ont tendance à se trouver dans certaines scènes mais pas dans d’autres)
    4. la Position (étant donné qu’un objet est probable dans une scène, il est souvent trouvé dans certaines positions et pas dans d’autres)
    5. la Taille familière (les objets ont un ensemble limité de relations de taille avec d’autres objets)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qu’est ce qu’un modèle de langage large (LLM)?

A

Un modèle de langage large (LLM) est un modèle informatique avancé conçu pour comprendre et générer du langage humain avec un haut niveau de précision et de complexité.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

On montre une scène visuelle qui faut décrire, qu’on utilise le modèle du langage LLM et on veut voit si on peut trouver un lien entre les représentations interne du modèle LLM et les représentations cérébrales mesuré par l’irmf. On veut savoir si le modèle est capable de prédire les prochains mots des phrases en étudiant tout ce que l’humain a déjà écrit sans que cela soit numérisé. Mais explique l’Image (voir pic voxel)

A
  • les 2 premières étapes roulent en parallèle
  • pr “Brain Activity & Activation Pattern/voxel response”, c’est l’étape où on enregistre l’activité du cerveau des participants qui voient des images. Pour “scene caption & LLM”, c’est un peu la même chose, mais de façon artificielle, où c’est “l’activité” générée par les phrases dans notre LLM qui est enregistrée
  • Ces activations, celles du cerveau et du LLM, sont ensuite utilisées pour entraîner un “encoding model”. Les encoding models prennent un stimulus et tentent de prédire l’activité dans le cerveau (ou dans un réseau de neurones) que génère ce stimulus
  • Ces mêmes activations sont aussi utilisées pour faire de la RSA (representational similarity analysis) afin de voir si la façon dont les LLM encodent la description des scènes est similaire à la façon dont le cerveau a encodé la description des scènes. C-a-d s’ils représentent l’aspect sémantique des scènes de façon similaire.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

explique l’image de la diapo 46 (voir pic)

A
  • on nous présente une image en mm temps d’enregistrer notre activité cérébral, on utilise le modèle LLM pour voir s’il y a correspondance entre le cerveau et un LLM dans le traitement de l’information sémantique. Ainsi, le modèle a bel et bien réussit à décrire ce que le participant voit seulement en se basant sur son activité cérébrale.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Théories de la reconnaissance des scènes

Qu’est ce qu’une image hybride? (Aude Oliva)

A
  • une image qui combinent l’information spectrale de deux scènes
  • image créée en fusionnant 2 images différentes, l’une étant traitée pr être perçue par le système visuel basé sur les basses fréquences spatiales (perception de près), et l’autre pour être perçue par le système visuel basé sur les hautes fréquences spatiales (perception de loin)
  • image qui peut être perçue différemment selon la distance à laquelle elle est vue
    ex : une image hybride peut apparaître comme un visage humain de près, mais comme un objet inanimé de loin

l’information de bas niveau (basse fréquences) = tt ce que tu pourrais dessiner. Donc, l’orientation des lignes d’une image, la forme en général, les couleurs, les textures, la lumière, etc.
L’information de haut niveau = c’est un peu l’intersection entre le langage et la vision. Donc, c’est le sens. Les choses que tu dois nommer ou décrire. On peut décrire un chien juste selon ses propriétés physiques (bas niveau), mais dès qu’on nomme ou décrit ce que le chien fait ou est, on est dans le haut niveau
ville = basse fréquence
l’image du couloire = haute fréquence

17
Q

Théories de la reconnaissance des scènes

Qu’est ce que le Scene-Gist? (hypothèse de la théorie de l’information)

A

● Un modèle computationnel de la reconnaissance de scènes du monde réel qui ne repose PAS sur la segmentation et le traitement d’objets ou de régions individuels
● Ça identifie un ensemble de dimensions perceptuelles (naturalité, ouverture, rugosité, expansion, rudesse) qui représentent la structure spatiale dominante d’une scène
● Ces dimensions peuvent être estimées de manière fiable en utilisant des infos spectrales et grossièrement localisées
● Le modèle génère un espace multidimensionnel où les scènes partageant une appartenance à des catégories sémantiques (rues, autoroutes, côtes) sont projetées à proximité les unes des autres
● La performance du modèle d’enveloppe spatiale montre que des infos spécifiques sur la forme ou l’identité des objets ne sont pas une exigence pour la catégorisation des scènes et que la modélisation d’une représentation holistique de la scène informe sur sa catégorie sémantique probable

18
Q

Théories de la reconnaissance des scènes

Qu’est ce que la grammaire de la scène? (melissa Vo)

A

● c’est règles structurelles et les relations sémantiques d’une scène qui guident notre perception et compréhension
● permet de déchiffrer des scènes complexes en identifiant cmt les objets interagissent et se rapportent les uns aux autres dans des contextes spécifiques
● Ce concept aide à expliquer notre capacité à interpréter rapidement les scènes, à reconnaître les anomalies et à anticiper la position des objets, mm dans des environnements inconnus
● joue un rôle clé dans l’allocation de l’attention, la mémoire des objets et de leurs emplacements, et le traitement cognitif des infos visuelles

19
Q

Dans l’exemple de montrer une image et de ask ou est la craie, seulement 14% de la scène est couverte. Donc une économie de 86%! Notre connaissance de la localisation habituelle des objets dans une scène nous permet de faire des prédictions efficaces et très rapides.

A

vrai

20
Q

Vitesse de la reconnaissance des scènes

Qu’est ce que le Rapid Serial Visual Presentation (Potter)?

A

● Avk slmt 13 ms de présentation, on peut facilement détecter dans une séquence rapide de scènes, la scène du mariage
● Dans cet exemple, par contre, il est nécessaire de connaître d’abord la cible.
● Les travaux de Molly Potter ont un impact majeur dans notre compréhension de la reconnaissance des scènes

21
Q

Vitesse de la reconnaissance des scènes

Que constate Simon Thorpe?

A

● Le cerveau a besoin de moins de 150 ms pr différencier des scènes de différentes catégories
● En moins de 120 ms, une saccade oculaire est faite vers la scène d’une catégorie spécifique

processus : temps pour que l’info soit relayé = rétine→ photorécepteur → V1, premier relai, cortex visuel primaire, info de bas niveau traité dans le lobe occipitale entre V1 et V3)

22
Q

Bases neuronales de la reconnaissance des scènes

Quels sont les régions cérébrales impliquées dans la reconnaissances des scènes?

A

1. Lobe occipital: Traite les infos visuelles de base comme les lignes, couleurs et textures. Les premières étapes du traitement de la scène se déroulent ici.
2. Cortex parahippocampique (PPA): Joue un rôle crucial dans le traitement de la disposition de la scène, des relations spatiales et de l’essence d’une scène
3. Cortex inférotemporal (IT): Impliqué dans la reconnaissance d’objets et contribue à la compréhension de la scène en identifiant les objets dans la scène
4. Cortex rétrosplénien: Intègre les infos spatiales de différentes zones, facilitant la navigation et la compréhension de la scène
5. Cortex préfrontal médian: Intègre divers aspects du traitement de la scène (objets, disposition spatiale, contexte) avk les connaissances et les souvenirs antérieurs, ce qui permet la compréhension de la scène

VOIR LES 5 PIC

23
Q

Mécanismes de géolocalisation

Quelles sont les 3 types de cellule qui constitue notre GPS mental?

A
  1. Cellules de lieu hippocampiques
  2. Cellules de direction de la tête (donc dépend ta tête regarde vers où)
  3. Cellules de grille
24
Q

Mécanismes de géolocalisation

Qu’est ce que la navigation spatiale?

A

la capacité d’un individu à se déplacer et à s’orienter efficacement dans son environnement

orientation spatiale: la capacité de percevoir et de comprendre la position et l’orientation des objets et des éléments dans l’espace par rapport à soi-même ou par rapport les uns aux autre. implique la capacité à s’orienter dans l’environnement et à comprendre les relations spatiales telles que la distance, la direction, l’angle, etc.

25
Q

Mécanismes de géolocalisation

Qu’est ce que des Cellules de lieu hippocampiques? (O’Keefe)

A
  • cellule qui s’activent à des endroits spécifiques d’une scène, contribuant à la navigation spatiale et à la reconnaissance de la scène (ex du rat qui repasse tjr a 1 place et créer un spot rouge)
26
Q

Mécanismes de géolocalisation

Qu’est ce que des cellule de direction de la tête? (Taube)

A
  • sont un groupe spécialisé de neurones trouvés dans des zones du cerveau telles que le thalamus, le cortex entorhinal et le cortex rétrosplénial
  • jouent un rôle crucial dans la navigation spatiale en fournissant au cerveau un signal constant de l’orientation de notre tête dans l’espace, agissant comme une boussole interne
27
Q

Mécanismes de géolocalisation

Qu’est ce que des cellule de grilles? (Moser)

A
  • Trouvées dans le cortex entorhinal, elles forment une représentation en grille de l’espace, contribuant à la navigation dans la scène et aux cartes mentales
28
Q

Maintenant, qu’est ce que les cellule de bordures?

A

● ces cellules frontalières sont un autre groupe fascinant de neurones trouvés dans la formation hippocampique, dans des régions comme le subiculum, le présubiculum et le cortex entorhinal.
● jouent un rôle distinct dans la navigation spatiale en codant la présence de limites environnementales, agissant essentiellement comme des gardiens des bords au sein de notre carte mentale.