Cours 8 Flashcards
Vrai ou faux? À chaque instant de notre vie, on échantillonne notre environnement environ 5 à 7 fois par seconde par des mouvements oculaires saccadés
Faux! On échantillonne environ 3 à 5 fois!
Qu’est-ce qu’une scène?
Une riche collection d’objets, de surfaces, d’agents, de structures, de textures et de couleurs
Quelles sont les deux catégories de scènes visuelles?
Scènes naturelles & scènes artificielles
Quelles sont les différentes sortes de scènes naturelles? (4)
1) Paysage (forêts, déserts) : évoquent des émotions et souvenirs distincts en s’appuyant fortement sur l’agencement spatial, la couleur et les textures naturelles
2) Étendues d’eau (océans, lacs) : mouvement d’eau, reflets ajoutent des aspects dynamiques
3) Conditions météorologiques (ensoleillé, pluie) : ces phénomènes ont un impact significatif sur notre perception des scènes, affectant la visibilité, la,lumière et l’esthétique
4) Biomes (Savanes, récifs coralliens) : Reconnaître ces biomes implique des infos sur la végétation, la vie animale et les caractéristiques du terrain
Quelles sont les différentes sortes de scènes artificielles? (4)
1) Environnements urbains (rue, bâtiments) : nécessitent le traitement de relations spatiales complexes, d’indices de navigation et d’interactions sociales
2) Environnements intérieurs (Maisons, bureaux) : la reconnaissance implique de comprendre les activités humaines et la fonction de différents espaces en fonction du mobilier et de la déco
3) Lieux culturels (monuments historiques, musées) : déclenchent des connaissances et émotions spécifiques associées à une importance culturelle
4) Scènes dynamiques (marchés bondés, événements sportifs) : nécessite des changements rapides d’attention et l’intégration des infos de mouvement dans la compréhension de la scène
Comment expliquer la différence entre la reconnaissance d’objets et la reconnaissance des scènes?
- Impliquent deux processus cognitifs distincts
- La principale différence réside dans la manière dont notre cerveau traite et interprète les infos visuelles
1) Reconnaissance d’objets
-identification & catégorisation d’éléments individuels dans notre champ visuel (objets, personnes, animaux)
- Se concentre sur les caractéristiques spécifiques (forme, taille, couleur, texture)
2) Reconnaissance de scènes
- Englobe une compréhension plus large et globale de l’environnement
- Ne sert pas seulement à identifier des éléments individuels, inclut aussi l’interprétation du contexte, compréhension des relations spatiales entre les objets et la capacité à saisir le sens global d’un environnement
Quel est le rôle du contexte et celui des relations spatiales?
1) Contexte
- Joue un rôle crucial dans la reconnaissance des scènes, car il fournit des infos supplémentaires qui aident à interpréter les objets dans leur environnement (ex de voir une tasse sur une table de cuisine : attendu)
- Aide a prédire quels objets sont susceptibles d’être présents et comment ils sont disposés, améliorant notre capacité à comprendre et à interagir avec notre environnement
2) Relations spatiales
- Font référence à la disposition et l’organisation des objets dans l’espace
- Aident à déterminer la structure d’une scène et à comprendre comment naviguer ou interagir avec l’environnement (ex comprendre que la chaise est sous la table et qu’il faut la tirer pour s’asseoir)
Qu’est-ce que la théorie des affordances?
Théorie par James J. Gibson
- Elle met l’accent sur l’info «affordée» par l’environnement pour l’action (l’environnement permet de nous guider)
-La reconnaissance des scènes ne se base pas sur une analyse détaillée des éléments visuels, mais plus sur la perception des affordances (possibilités d’action offertes par l’environnement)
+ : Explique bien la rapidité et l’efficacité de la reconnaissance des scènes dans la vie quotidienne
- : Prend pas en compte la capacité à reconnaître des scènes complexes ou ambiguës.
Quelles sont les théories de la reconnaissance des scènes entourant le traitement de l’information? (3)
- Images intrinsèques (Harrow et Tenenbaum, 1978)
- Relations d’objets ou de composantes (Biedermann, 1982)
- Propriété de l’enveloppe spatiale ( Oliva et Torralba, 2001)
Qu’est ce que la théorie des images intrinsèques?
- L’image peut être décomposée en un ensemble d’images intrinsèques, chacune représentant une propriété fondamentale de la scène qu’elle dépeint
- Ces propriétés sont : réflectance (proportion lumière réfléchie par surfaces de la scène), illumination (quantité et direction lumière tombant sur surfaces), distance (entre surfaces par rapport à la caméra)
Qu’est-ce que la théorie des composantes?
- On peut reconnaître une scène rapidement de par les relations entre les objets qui la constituent
- 5 classes de relation : Interposition (objets interrompent leur arrière-plan), support (objets ont tendance à reposer sur surfaces), probabilité (objets ont tendance à se trouver dans certaines scènes mais pas d’autres), position (il est trouvé dans certaines positions mais pas d’autres), taille familière
Qu’est-ce que la théorie des propriétés de l’enveloppe spatiale?
- On utilise l’image hybride et l’espace de Fourrier -> On décompose en fréquence les images
- On utilise l’exemple d’une image hybride du corridor (basses fréquences) et d’une ville (hautes fréquences)
- Juste en changeant la taille, ça change la perception des fréquences spatiales (gros : on voit la ville, petit : on voit les corridors)
Scene-gist
- C’est un modèle computationnel de la reconnaissance de scènes du monde réel qui ne repose pas sur la segmentation et le traitement d’objets ou de régions individuelles
- Identifie un ensemble de dimensions perceptibles qui représentent la structure spatiale dominante d’une scène
- Ces dimensions peuvent être estimées de manière fiable en utilisant des infos spectrales et grossièrement localisées
- Le modèle génère un espace multidimensionnel dans lequel les scènes partageant une appartenance à des catégories sémantiques (rues, autoroutes) sont projetées à proximité les unes des autres
- La performance du modèle d’enveloppe spatiale montre que des infos spécifiques sur la forme ou l’identité des objets ne sont pas une exigence pour la catégorisation des scènes et que la modélisation d’une représentation holistique de la scène informé sur sa catégorie sémantique probable
Qu’est-ce que la grammaire de la scène?
- Elle désigne les règles structurelles et les relations sémantiques au sein d’une scène qui guident notre perception et compréhension
- Nous permet de déchiffrer des scènes complexes en identifiant comment les objets interagissent et se rapportent les uns aux autres dans des contextes spécifiques
- Aide à expliquer notre capacité à interpréter rapidement les scènes, à reconnaître les anomalies et à anticiper la position des objets, même dans des environnements inconnus
- Joue un rôle clé dans l’allocation de l’attention, la mémoire des objets et de leurs emplacements, et le traitement cognitif des informations visuelles
Expliquez l’expérience de la craie
- On demande de retrouver une craie dans une salle de classe majoritairement blanche et avec deux tableaux
- Facile à trouver!
- Seulement 14% de la scène est couverte, donc économie de 86%
- Notre connaissance de la localisation habituelle des objets dans une scène nous permet de faire des prédictions efficaces et très rapides
Expliquez les travaux de Molly Potter sur la vitesse de la reconnaissance des scènes à l’aide du Rapid Serial Visual Presentation
On présente une suite de plusieurs images très rapidement. On demande d’identifier la photo de mariage.
- Avec seulement 13ms de présentation, on peut facilement détecter dans une séquence rapide de scènes
- Dans cet exemple, il est nécessaire de connaître d’abord la cible