cours 8 Flashcards
À chaque instant de notre vie, on échantillonne notre environnement environ 3 à 5 fois par seconde par des mouvements oculaires saccadés.
Chaque fixation produit une scène, une riche collection d’objets, de surfaces, d’agents, de structures, de textures et de couleurs. Différents types de scènes émergent séparées en 2 catégories principales (Scènes Naturelles et scènes artificielles)
vrai
C’est quoi des scènes naturelles?
● Paysages: Montagnes, forêts, plages, déserts, prairies. Ces scènes évoquent typiquement des émotions et souvenirs distincts, s’appuyant fortement sur l’agencement spatial, la couleur et les textures naturelles
● Étendues d’eau: Océans, lacs, rivières, chutes d’eau. Le mouvement de l’eau ajoute des aspects dynamiques à la perception des scènes, ainsi que des reflets et des paysages sonores uniques
● Conditions météorologiques: Journées ensoleillées, pluie, neige, brouillard. Les phénomènes atmosphériques ont un impact significatif sur notre perception des scènes, affectant la visibilité, les conditions de lumière et l’esthétique générale
● Biomes: Savanes, forêts tropicales, récifs coralliens. Reconnaître des biomes spécifiques implique d’intégrer des informations sur la végétation, la vie animale et les caractéristiques du terrain
C’est quoi des scènes artificielles?
● Environnements urbains: Rues, bâtiments, places, parcs. Ces scènes nécessitent le traitement de relations spatiales complexes, d’indices de navigation et d’interactions sociales.
● Environnements intérieurs: Maisons, bureaux, cafés, bibliothèques. La reconnaissance implique de comprendre les activités humaines et la fonction des différents espaces en fonction du mobilier, de la décoration et de l’agencement.
● Lieux culturels: Bâtiments religieux, monuments historiques, musées. Ces scènes déclenchent souvent des connaissances et émotions spécifiques associées à une importance culturelle.
● Scènes dynamiques: Carrefours, marchés bondés, événements sportifs. Le traitement de ces scènes nécessite des changements rapides d’attention et l’intégration des informations de mouvement dans la compréhension de la scène
Quelle est la différence entre la reconnaissance des scènes et la reconnaissance des objets?
● well ils impliquent 2 processus cognitifs distincts, chacun jouant un rôle crucial dans notre interaction avec l’environnement
● La principale différence entre ces 2 processus réside dans la manière dont notre cerveau traite et interprète les infos visuelles
Qu’est ce que la reconnaissance d’objets?
● Ce processus implique l’identification et la catégorisation d’éléments individuels dans notre champ visuel, tels que des objets, des personnes ou des animaux
● La reconnaissance d’objets se concentre sur les caractéristiques spécifiques de ces éléments:
- la forme
- la taille
- la couleur
- la texture
● C’est par le traitement de ces caractéristiques que l’on peut distinguer les objets les uns des autres
Qu’est ce que la reconnaissance de scènes?
● Contrairement à la reconnaissance d’objets, la reconnaissance des scènes englobe une compréhension plus large et plus globale de l’environnement visuel.
● Elle ne se limite pas à identifier des éléments individuels, inclu aussi l’interprétation du contexte, la compréhension des relations spatiales entre les objets, et la capacité à saisir le sens global ou l’essence d’un environnement
● Les scènes sont souvent complexes et contiennent de multiples objets qui interagissent dans un espace partagé, ce qui nécessite une intégration des infos visuelles à un niveau supérieur
Rôle du contexte et des relations spatiales
Quelle est l’importance du contexte?
● Joue un rôle crucial dans la reconnaissance des scènes, car fournit des infos supplémentaires qui aident à interpréter les objets dans leur environnement
● ex: voir une tasse sur une table dans une cuisine est attendu, ce qui facilite la reconnaissance de la scène comme une cuisine
● Aide à prédire quels objets sont susceptibles d’être présents et cmt ils sont disposés, améliorant ainsi notre capacité à comprendre et à interagir avec notre environnement
Rôle du contexte et des relations spatiales
Quelle est l’importance des relations spatiales?
● relations spatiales: la disposition et à l’organisation des objets dans l’espace
● Comprendre la disposition des objets est essentiel pour interpréter une scène
● Ces relations aident à déterminer la structure d’une scène et à comprendre cmt naviguer ou interagir avec l’environnement
Ex : la reconnaissance qu’une chaise est sous une table peut indiquer un espace de salle à manger et influencer notre interaction avec cet espace (ex, en tirant la chaise pour s’asseoir)
Théories de la reconnaissance des scènes
Qu’est ce que la Théorie des affordances?
● Cette théorie met l’accent sur l’info “affordée” (offert) par l’environnement pr l’action
● La reconnaissance des scènes ne se base pas sur une analyse détaillée des éléments visuels, mais sur la perception des affordances = les possibilités d’action offertes par l’environnement
● théorie explique bien la rapidité et l’efficacité de la reconnaissance des scènes dans la vie quotidienne.
● MAIS ne prend pas en compte la capacité à reconnaître des scènes complexes ou ambiguës
Théories de la reconnaissance des scènes
Quelles sont les théories autour du traitement de l’information?
- Images intrinsèques
- Relations d’objets ou de composantes
- Propriétés de l’enveloppe spatiale
Théories de la reconnaissance des scènes
Qu’est ce que la Théorie des images intrinsèques?
● Une image peut être décomposée en un ensemble « d’images intrinsèques », chacune représentant une propriété fondamentale de la scène qu’elle dépeint
● Ces propriétés incluent :
1. Réflectance: La proportion de lumière réfléchie par les surfaces de la scène (albédo)
2. Illumination: La quantité et la direction de la lumière tombant sur les surfaces.
3. Distance: La distance des surfaces par rapport à la caméra (profondeur)
Théories de la reconnaissance des scènes
Qu’est ce que la Théorie des composantes?
- Tout comme dans la reconnaissance des objets, la théorie des composantes de Biederman joue un rôle dans la reconnaissance des scènes.
- On px reconnaître une scène rapidement à l’aide des relations entre les objets qui la constituent
- Il y a 5 classes de relations entre les objets:
1. l’Interposition (les objets interrompent leur arrière-plan)
2. le Support (les objets ont tendance à reposer sur des surfaces)
3. la Probabilité (les objets ont tendance à se trouver dans certaines scènes mais pas dans d’autres)
4. la Position (étant donné qu’un objet est probable dans une scène, il est souvent trouvé dans certaines positions et pas dans d’autres)
5. la Taille familière (les objets ont un ensemble limité de relations de taille avec d’autres objets)
Qu’est ce qu’un modèle de langage large (LLM)?
Un modèle de langage large (LLM) est un modèle informatique avancé conçu pour comprendre et générer du langage humain avec un haut niveau de précision et de complexité.
On montre une scène visuelle qui faut décrire, qu’on utilise le modèle du langage LLM et on veut voit si on peut trouver un lien entre les représentations interne du modèle LLM et les représentations cérébrales mesuré par l’irmf. On veut savoir si le modèle est capable de prédire les prochains mots des phrases en étudiant tout ce que l’humain a déjà écrit sans que cela soit numérisé. Mais explique l’Image (voir pic voxel)
- les 2 premières étapes roulent en parallèle
- pr “Brain Activity & Activation Pattern/voxel response”, c’est l’étape où on enregistre l’activité du cerveau des participants qui voient des images. Pour “scene caption & LLM”, c’est un peu la même chose, mais de façon artificielle, où c’est “l’activité” générée par les phrases dans notre LLM qui est enregistrée
- Ces activations, celles du cerveau et du LLM, sont ensuite utilisées pour entraîner un “encoding model”. Les encoding models prennent un stimulus et tentent de prédire l’activité dans le cerveau (ou dans un réseau de neurones) que génère ce stimulus
- Ces mêmes activations sont aussi utilisées pour faire de la RSA (representational similarity analysis) afin de voir si la façon dont les LLM encodent la description des scènes est similaire à la façon dont le cerveau a encodé la description des scènes. C-a-d s’ils représentent l’aspect sémantique des scènes de façon similaire.
explique l’image de la diapo 46 (voir pic)
- on nous présente une image en mm temps d’enregistrer notre activité cérébral, on utilise le modèle LLM pour voir s’il y a correspondance entre le cerveau et un LLM dans le traitement de l’information sémantique. Ainsi, le modèle a bel et bien réussit à décrire ce que le participant voit seulement en se basant sur son activité cérébrale.