cours 5 : Percevoir et reconnaître les scènes Flashcards
À chaque instant de notre vie, on échantillonne notre environnement environ … par seconde par des mouvements oculaires saccadés.
trois à cinq fois
comment peut-être considéré une saccade ?
un échantillon de notre envi, qui peut être considéré une scène visuelle
Quelles sont les deux catégories principales de scènes visuelles ?
- Scènes naturelles
- Scènes artificielles
Quelles sont certains des éléments qui influencent notre perception des scènes naturelles ?
- paysages
- étendues d’eau
- conditions météorologiques
- biomes
les scènes de paysage évoquent typiquement des … distincts, s’appuyant fortement sur …, la couleur et les textures naturelles.
émotions et souvenirs
l’agencement spatial
Qu’est-ce qui caractérise les scènes artificielles ?
- Environnements urbains
- environnements intérieurs
- lieux culturels
- scènes dynamiques
Quelle est la principale différence entre la reconnaissance des objets et la reconnaissance des scènes ?
Ça réside dans la manière dont notre cerveau traite et interprète les informations visuelles
- rec des objets –> l’identification et la catégorisation d’éléments individuels dans notre champ visuel (carac spécifique des objets : formes, couleur, taille, texture)
- rec des scènes –> une compréhension plus large et plus globale de l’environnement visuel
- l’interprétation du contexte, la compréhension des relations spatiales entre les objets, capacité à saisir le sens global ou l’essence d’un envi
- nécessite une intégration des informations visuelles à un niveau supérieur
Quels sont les 2 éléments qui joue un rôle dans la reconnaissance des scènes ?
- contexte
- relations spatiales
Qu’est-ce que le rôle du CONTEXTE dans la reconnaissance des scènes ?
- Fournir des informations supplémentaires pour interpréter les objets dans leur environnement.
- Aide à prédire quels objets sont susceptibles d’être présents et comment ils sont disposés, améliorant ainsi notre capacité à comprendre et à interagir avec notre environnement
(ex : voir une tasse sur une table dans une cuisine est attendu, ce qui facilite la reconnaissance de la scène comme une cuisine)
Qu’est-ce que les relations spatiales ? et pq c’est important ?
- c la disposition et organisation des objets dans l’espace.
- Ces relations aident à déterminer la structure d’une scène et à comprendre comment naviguer ou interagir avec l’environnement.
(par exemple, la reconnaissance qu’une chaise est sous une table peut indiquer un espace de salle à manger et influencer notre interaction avec cet espace, en tirant la chaise pour s’asseoir)
Quelle est la première théorie vue en classe sur la reconnaissance des scènes ? de qui ?
La théorie des affordances de James Gibson
- La reconnaissance des scènes ne se base pas sur une analyse détaillée des éléments visuels, mais sur la perception des AFFORDANCES, c’est-à-dire les possibilités d’action offertes par l’environnement.
Quel est la force et la faiblesse de la théorie des affordances ?
+ :
explique bien la rapidité et l’efficacité de la reconnaissance des scènes dans la vie quotidienne.
- :
elle ne prend pas en compte la capacité à reconnaître des scènes complexes ou ambiguës
Quelles sont les 3 théories principales sur la reconnaissance des scènes et qu’est-ce qu’elle on en commun ?
théories autour du traitement de l’information :
1) Images intrinsèques (Barrow et Tenenbaum)
2) Relations d’objets et de composantes (Biedermann)
3) Propriétés de l’enveloppe spatiale (GIST, Olivia et Torralba)
Qu’est-ce que la théorie des images intrinsèques ?
Une image peut être décomposée en un ensemble d’« images intrinsèques », chacune représentant une PROPRIÉTÉ fondamentale de la scène qu’elle dépeint.
–> théorie structuraliste
Quelles sont les propriétés fondamentales de la théorie des images intrinsèques?
- Réflectance
–> La proportion de lumière réfléchie par les surfaces de la scène - Illumination
–> La quantité et la direction de la lumière tombant sur les surfaces. - Distance
–> La distance des surfaces par rapport à la caméra (profondeur)
Comment la théorie des composantes (Beiderman) aide-t-elle à reconnaître une scène?
On peut reconnaître une scène rapidement par les relations entre les objets qui la constituent.
Quelles sont les 5 classes de relations entre les objets selon la théorie des composantes de Biederman?
1) Interposition
2) Support
3) Probabilité
4) Position
5) Taille familière
Qu’est-ce que le Scene-Gist?
Un modèle computationnel de la reconnaissance de scènes du monde réel
–> ne repose pas sur la segmentation et le traitement d’objets individuels
Le modèle Scene-Gist génère un espace multidimensionnel dans lequel les scènes partageant une appartenance à des … (par exemple, rues, autoroutes, côtes) sont projetées à proximité les unes des autres.
catégories sémantiques
La performance du modèle d’enveloppe spatiale montre que des informations spécifiques sur la forme ou l’identité … ne sont pas une exigence pour la catégorisation des scènes et que la modélisation d’une représentation holistique de la scène informe sur sa catégorie sémantique probable.
des objets
Quel modèle n’a pas forcément recours à l’identification des objets qui font partie de la scène ?
Le modèle d’enveloppe spatiale (GIST)
Sur quoi met l’accent le modèle d’enveloppe spatiale ?
La théorie met l’accent sur l’analyse des basses fréquences spatiales pour reconnaître la catégorie d’une scène avant même d’identifier des objets spécifiques
- Cela signifie que nous pouvons percevoir si une scène est une rue, une plage ou une montagne juste en analysant sa structure globale, sans avoir besoin d’identifier des éléments précis comme une voiture, un palmier ou un rocher
- Le lien avec l’image hybride est que les basses fréquences spatiales contiennent des indices suffisants pour une reconnaissance rapide des scènes, tout comme dans une image hybride où la perception change selon la distance
Compléter avec : basses et hautes
De loin → tu perçois les… fréquences→ la structure générale
De près → tu vois les… fréquences→ les détails précis
Celaillustreparfaitement la façon dont notre système visuel traite les scènes : d’abord globalement (basses fréquences), puis localement (hautes fréquences)
basses
hautes
Qu’est-ce que la grammaire de la scène?
Désigne les règles structurelles et les relations sémantiques au sein d’une scène qui guident notre perception et compréhension
–> Elle nous permet de déchiffrer des scènes complexes en identifiant comment les objets interagissent et se rapportent les uns aux autres dans des contextes spécifiques.
–> et explique notre capacité à interpréter rapidement les scènes, à reconnaître les anomalies et à anticiper la position des objets, même dans des environnements inconnus