cours 8 - perception des scènes Flashcards
explique comment on voit une scène
À chaque instant de notre vie, on échantillonne notre environnement environ trois à cinq fois par seconde par des mouvements oculaires saccadés.
● Chaque fixation produit une scène, une riche collection d’objets, de surfaces, d’agents, de structures, de textures et de couleurs.
à chaque arrêt sur l’image (la fovéa arrete sur l’image) on parle d’une scène visuelle
quelles sont les 2 catégories de scènes visuelles
scènes naturelles et scènes articificielles (construitent par l’humain)
quelles sont les scènes artificielles (4)
● Environnements urbains : Rues, bâtiments, places, parcs. Ces scènes nécessitent le traitement de relations spatiales complexes, d’indices de navigation et d’interactions sociales.
● Environnements intérieurs : Maisons, bureaux, cafés, bibliothèques. La reconnaissance implique de comprendre les activités humaines et la fonction des différents espaces en fonction du mobilier, de la décoration et de l’agencement.
● Lieux culturels : Bâtiments religieux, monuments historiques, musées. Ces scènes déclenchent souvent des connaissances et émotions spécifiques associées à une importance culturelle.
● Scènes dynamiques : Carrefours, marchés bondés, événements sportifs. Le traitement de ces scènes nécessite des changements rapides d’attention et l’intégration des informations de mouvement dans la compréhension de la scène.
quelles sont les scènes naturelles (4)
● Paysages : Montagnes, forêts, plages, déserts, prairies. Ces scènes évoquent typiquement des émotions et souvenirs distincts, s’appuyant fortement sur l’agencement spatial, la couleur et les textures naturelles.
● Étendues d’eau : Océans, lacs, rivières, chutes d’eau. Le mouvement de l’eau ajoute des aspects dynamiques à la perception des scènes, ainsi que des reflets et des paysages sonores uniques.
● Conditions météorologiques : Journées ensoleillées, pluie, neige, brouillard. Les phénomènes atmosphériques ont un impact significatif sur notre perception des scènes, affectant la visibilité, les conditions de lumière et l’esthétique générale.
● Biomes : Savanes, forêts tropicales, récifs coralliens. Reconnaître des biomes spécifiques implique d’intégrer des informations sur la végétation, la vie animale et les caractéristiques du terrain.
quelle est la différence entre la reconnaissance des scènes et reconnaissance des objets
● Impliquent deux processus cognitifs distincts, chacun jouant un rôle crucial dans notre interaction avec l’environnement.
● La principale différence entre ces deux processus réside dans la manière dont notre cerveau traite et interprète les informations visuelles.
explique cette image
ai ; mécanisme de segmentation dynamique dans les voitures intelligentes, détectent présence d’objets en créant des bounding box, boite qui délimite les objets dans scènes visuelles et reconnait la catégorie de l’objet (personne vs voiture vs feux de circulation
explique la reconnaissance d’objets
Ce processus implique l’identification et la catégorisation d’éléments individuels dans notre champ visuel, tels que des objets, des personnes ou des animaux.
La reconnaissance d’objets se concentre sur les caractéristiques spécifiques de ces éléments:
○ la forme,
○ la taille,
○ la couleur,
○ la texture
C’est par le traitement de ces caractéristiques que l’on peut distinguer les objets les uns des autres.
pareil chez l’humain, ai : reconnait une statistique redondante ce qui distingue les objets (humains vs feux de signalisation)
comment est la reconnaissance des scènes
Contrairement à la reconnaissance d’objets, la reconnaissance des scènes englobe une compréhension plus large et plus globale de l’environnement visuel.
- Elle ne se limite pas à identifier des éléments individuels, mais inclut également l’interprétation du contexte, la compréhension des relations spatiales entre les objets, et la capacité à saisir le sens global ou l’essence d’un environnement.
- Les scènes sont souvent complexes et contiennent de multiples objets qui interagissent dans un espace partagé, ce qui nécessite une intégration des informations visuelles à un niveau supérieur.
quel est le rôle du contexte dans la reconnaissance des scènes
- Joue un rôle crucial dans la reconnaissance des scènes, car il fournit des informations supplémentaires qui aident à interpréter les objets dans leur environnement.
1. Par exemple, voir une tasse sur une table dans une cuisine est attendu, ce qui facilite la reconnaissance de la scène comme une cuisine. (lié à la grammaire de la scène) - Aide à prédire quels objets sont susceptibles d’être présents et comment ils sont disposés, améliorant ainsi notre capacité à comprendre et à interagir avec notre environnement. (lié à la notion de probabilité : on va trouver le toaster à un endroit précis (mais exp qui peut briser cette grammaire de la scène, ex dans le salon))
quel est le rôle des relations spaciales
● Font référence à la disposition et à l’organisation des objets dans l’espace.
● Comprendre la disposition des objets est essentiel pour interpréter une scène.
● Ces relations aident à déterminer la structure d’une scène et à comprendre comment naviguer ou interagir avec l’environnement.
Par exemple, la reconnaissance qu’une chaise est sous une table peut indiquer un espace de salle à manger et influencer notre interaction avec cet espace (par exemple, en tirant la chaise pour s’asseoir).
Théories de la reconnaissance des scènes
quest ce que la théorie des affordances par JAMES J. GIBSON(4)
● Cette théorie met l’accent sur l’information “affordée” par l’environnement pour l’action. (ce que la scène peur nous fournir, nous donner)
● La reconnaissance des scènes ne se base pas sur une analyse détaillée des éléments visuels, mais sur la perception des affordances, c’est-à- dire les possibilités d’action offertes par l’environnement.
● Cette théorie explique bien la rapidité et l’efficacité de la reconnaissance des scènes dans la vie quotidienne.
● Cependant, elle ne prend pas en compte la capacité à reconnaître des scènes complexes ou ambiguës.
but de la scène = rapidement savoir ce qui est possible
Théories de la reconnaissance des scènes
quelles sont les théories autour du traitement de linformation (3)
● Images intrinsèques (Harrow et Tenenbaum, 1978)
● Relations d’objets ou de composantes (Biedermann, 1982)
● Propriétés de l’enveloppe spatiale (GIST; Oliva & Torralba, 2001):
Théories de la reconnaissance des scènes
quest ce que la théorie des images intrinsèques (harry Barrow)
Une image peut être décomposée en un ensemble d’« images intrinsèques », chacune représentant une propriété fondamentale de la scène qu’elle dépeint. (diviser l’image en sous-image avec différentes propriétés)
les propriétés sont (3) :
○ Réflectance : La proportion de lumière réfléchie par les surfaces de la scène (albédo).
○ Illumination : La quantité et la direction de la lumière tombant sur les surfaces.
○ Distance : La distance des surfaces par rapport à la caméra (profondeur).
quest-ce que la théorie des composantes (Irving Biederman)
Tout comme dans la reconnaissance des objets, la théorie des composantes de Biederman joue un rôle dans la reconnaissance des scènes.
On peut reconnaître une scène rapidement de par les relations entre les objets qui la constituent.
dans la théories des composantes (Irving Biederman), quelles sont les 5 classes de relations entre les objets
● l’Interposition (les objets interrompent leur arrière-plan).
● le Support (les objets ont tendance à reposer sur des surfaces).
● la Probabilité (les objets ont tendance à se trouver dans certaines scènes mais pas dans d’autres).
● la Position (étant donné qu’un objet est probable dans une scène, il est souvent trouvé dans certaines positions et pas dans d’autres).
● la Taille familière (les objets ont un ensemble limité de relations de taille avec d’autres objets).
Aude Oliva - Théories de la reconnaissance des scènes
qu’est-ce qu’une image hybride
image qui transforme une image dans l’espace de Fourier (fréquence spatiale de l’image) et va réveler seulement une certaine bande de fréquence et va combiner l’information fréquentielle de deux images
l’image à basses fréquences semblent floues de près, mais nettes de loin
l’image à hautes fréquences (contours nets) semblent floues de loin, mais nettes de proches
Aude Oliva- Théories de la reconnaissance des scènes
quel est le mécanisme derrière les images (hybride), mais aussi en général
Corrélation dans l’info des diff bandes de fréquences, le cerveau peut décomposer limage entre les bandes de fréquences et sil y a corrélation entre les indices de fréquences et les catégories de la scène on peut rapidement reconnaitre dans quelle scène on se situe (mm sens des théories des affordances -» n’implique pas l’implication de chaque items de la scènes), mais plutôt l’enveloppe fréquentielle
Aude Oliva - Théories de la reconnaissance des scènes
quest ce que le scene-gist (gist signifie essentiel)
- Un modèle computationnel de la reconnaissance de scènes du monde réel qui ne repose pas sur la segmentation et le traitement d’objets ou de régions individuels.
- Identifie un ensemble de dimensions perceptuelles (naturalité, ouverture, rugosité, expansion, rudesse) qui représentent la structure spatiale dominante d’une scène.
- Ces dimensions peuvent être estimées de manière fiable en utilisant des informations spectrales et grossièrement localisées.
- Le modèle génère un espace multidimensionnel dans lequel les scènes partageant une appartenance à des catégories sémantiques (par exemple, rues, autoroutes, côtes) sont projetées à proximité les unes des autres.
- La performance du modèle d’enveloppe spatiale montre que des informations spécifiques sur la forme ou l’identité des objets ne sont pas une exigence pour la catégorisation des scènes et que la modélisation d’une représentation holistique (globale) de la scène informe sur sa catégorie sémantique probable.
Théories de la reconnaissance des scènes - Melissa Võ
qu’est ce que la grammaire de la scène
● Désigne les règles structurelles et les relations sémantiques au sein d’une scène qui guident notre perception et compréhension.
● Elle nous permet de déchiffrer des scènes complexes en identifiant comment les objets interagissent et se rapportent les uns aux autres dans des contextes spécifiques.
● Ce concept aide à expliquer notre capacité à interpréter rapidement les scènes, à reconnaître les anomalies et à anticiper la position des objets, même dans des environnements inconnus.
● La grammaire de scène joue un rôle clé dans l’allocation de l’attention, la mémoire des objets et de leurs emplacements, et le traitement cognitif des informations visuelles.
trouve la craie
Seulement 14% de la scène est couverte. Donc une économie de 86%!
● Notre connaissance (de la grammaire de la scène) de la localisation habituelle des objets dans une scène nous permet de faire des prédictions efficaces et très rapides.
Vitesse de la reconnaissance des scènes
quest ce que le Rapid Serial Visual Presentation (RSVP)
● Avec seulement 13 ms de présentation, on peut facilement détecter dans une séquence rapide de scènes, la scène du mariage.
● Dans cet exemple, par contre, il est nécessaire de connaître d’abord la cible.
● Les travaux de Molly Potter ont un impact majeur dans notre compréhension de la reconnaissance des scènes.
le cerveau a besoin de combien de ms pour différencier des scènes de différentes catégories
Le cerveau a besoin de moins de 150 ms pour différencier des scènes de différentes catégories. ex : scènes artificielles, naturelles, extérieures, intérieures
en combien de ms, une saccade oculaire est faite vers la scène d’une catégorie spécifique
moins de 120 ms
Bases neuronales de la reconnaissance des scènes
quelles sont les régions cérébrales impliquées (5)
- Lobe occipital
- Cortex parahippocampique
- Cortex inférotemporal
- Cortex rétrosplénien
- Cortex préfrontal médian