IC Flashcards
principe image classif? à quoi ça sert?
- Utilisation du bruit pr avoir accès aux info° utilisées.
- Seule hyp: le trait d’intérêt est dans l’image
-Image classif = méthode psychophysique qui vise à identifier caractéristiques d’un stim qui influencent percep° de l’obs sans a priori (modalités choisies aléat à chaque essai), sans biais (ensemble de l’espace est échantilloné aléatoirement) et exhaustif (ac suffisamment d’essais, l’univers des possibles exploré)
image = ensemble de pixel sans contenu sémantique pixel = carré ac taille, couleur et luminance unique = trait minimal d’une image
Corrélation inverse 1:
- objectifs
- exp
- protocole
- méthode
- stat
- pb
- vérif°
=> approche exploratoire, sans hyp sur régions (et vérif° ac méthode + classiques)
obj:
- Révéler traits utilisés pr interpréter expression, ac le moins de biais et le moins d’a priori possible
- ac suffisamment d’essais (dépend du nbre de paramètres à estimer et du nbre de valeurs qu’ils peuvent prendre), l’ensemble des possibles est exploré
exp:
- Test de la luminance: quelles st régions et valeurs de luminance associées à chaque catégo de choix du sujet
protocole:
- essai: Joconde + masque de bruit (ac luminance randomisée en chaque point) mesure (échelle en 21 pts de truste à contente)
méthode:
- moyenne des masques de bruit par type de réponse H0: Si pas d’effets => écran uniforme (gris) (quels pixels ≠ signif de la moy)
résultat:
- seules les données extrêmes st analysées - 1 image de classif° par émotion
pb:
Comparaisons multiples => augmente risque 1re espèce => W sur pixels + gros + seuil p < .001 => pr avoir au pire 7 fausses alarmes (pr voir si fausse alarme => refaire exp)
vérif:
- Superposi° des images de classif sur portrait => mais insuffisant
- ajout partie haute ou basse des images de classif sur protrait + tâche de reco d’express° => c’est la partie basse qui donne expression
IC: exp parfaite?
limites?
- pixel = résolution minimale d’un stimulus
- choix et valeur pixel de dépend d’aucun a priori
- ensemble des possibles exploré
- bcp essais ( 10000) dc tps
- cloisonnement à luminance
- pixels non indépendants (corrélés)
- résultat bruité ++ => + gros pixels => a priori
- méthode analyse peut s’améliorer
bulles
- principes
- avantages
- exp 1/analyse/result
- limites
- améliora° technique/tâche/résultat
- système optimal? /technique/résultat/interprétation
=> pixels non indépendants les uns des autres dc on met un peu de corrélation
avantages:
- moins d’essais dc + de S
- diminu° espace recherche (= espace de positions) car on montre parties => dc possibilité de travailler sur espaces + compliqués (couleur… pr genre: sourcils et lèvres)
- permet de révéler régions corrélées à réussite tâche
exp 1/analyse/result:
- Image originale + masque ac bulles Gaussiennes = image présentée
- ≠ entre moy réponses correctes et réponses incorectes => en rouge rég° signif
H0: si aucune rég° apporte info° => répart° uniforme des trous
- pr genre: yeux et sourcils - pr expression: bouche
limites:
- pb importance ttt global => généralisa° à percep° visages impossible => améliora° pr éviter de forcer ttt local
améliora°:
- Transformée de fourrier = décompo° envt en sommes de sinusoides qui a amplitude et fréquence
- décompo° en fréquences spatiales (BF à HF) + bulles en échantillonnant régions au hasard (si on double fréquence, on double taille des bulles pr avoir m quantité d’info° par bulle) => somme => image + ctrl de la difficulté de la tâche
- reconnaissance genre /expressivité
- moyenne et soustrac° bonnes et mauvaises réponses => on regarde pr chaque fréquence quelles régions sont révélées => donne région corrélées dc région diag
système optimal?
- système visu optimal ou pas pr détecter express°? Optimal = permet au mieux de séparer les ≠ classes ds envt
- observateur idéal = ordinateur = a accès à l’info° de tt l’envt => capte région de l’image qui ont une gde variance locale entre catégories
- corréla° entre image de classif° des ≠ émotions => si faible = on utilise info° ≠
- corréla° + faible chez homme que chez modèle
- en comparaison au modèle, S utilisent info° spatiales et fréquentielles qui maximisent ≠ entrre les expression faciales => la percep¨° et prod° expression auraient évolué afin de maximiser transmission du signal émot (par ex, pr longues distance)
≠ entre bulles et corréla° inverse?
Exp1/cond/protocole/résultat/intérêt
Exp 2/result/avantages/limites
=> corréla° pt apporter info° non apportées par bulles
Exp 1:
- carré de kanitza – contours illusoires
- contours réels/illusoires/occlusion/contours fragmentés
- image + masque de bruit puis moy des bruits qui ont généré épais, idem pr fins => différence (indépendamment des bonnes/mauvaises réponses) => image de classif moyenne => ce qui est noir favorise réponse fin et blanc favorise épais
- pr répondre à quest° fin/épai on sse sert de ‘linfo° présente dans contour illusoire
- on révèle info° ds le système (boite noire/méca d’extrac° et de construc° du contour ) car pas d’info° ds le stimulus humain utilise info° non présente ds envt ≠ idéal
- permet de résoudre pb d’occlusion ds vie de ts les jours
Exp 2:
- besoin de stimulus? => perceptions supersticieuses => est-ce qu’on voit un S ds du bruit uniquement
- ts les S n’utilisent pas le m template (corréla° ac police ordi
- visualisation d’une représentation interne de la tâche
- gd nbre d’essais - aucune incertitude spatiale (on dit au S que le S prend la tailled e l’image) - stimuli binaire ( en noir et blanc)
améliorations terminales CI
- diminuer taille de l’espace de recherche => 2 exemple: couleurs => bruit et perecption de la 3D & a priori
- bruit structuré (gabor) ou transfo de Fourrier: 1 info° amplitude (fréquence présentes ds cet envt – info° globale de structure - spécifique à catégorie) + info° de phase ( localisa° des fréquences – spécifique à chaque image)
couleurs:
ID: garder info° d’amplitude mais enlever celle de phase afin d’obtenir une régularité propre à la classe (on enlève info° identité du visage pr créer incertitude sur posi° des fréquences, cad contours) ac transfo° de Fourrier inverse => chimères dont le bruit respecte propriétés ( exhaustif, sans a priori, sans biais) ms ac structures des images naturelles ce qui permet de diminuer le nbre d’essais.
- visage ou non?
- moyenne des images pr lesquelles ont a vu visage; idem pr non => obtention de la visualisation de ce qu’est un visage pr chaque S
3D:
- percep° profondeur dépend de l’interprétation de l’illumination et dc de la direc° des ombres => stim a biais? est-ce que modulable?
- stim en gardant amplitude balle ms mélange phase – m propriétés en terme de fréquences spatiales que l’objet ms structure mélangée
- détecter balle ds bruit - lampe à G ou D de l’écran
- biais vers le ht semble robuste - biais vers G est modulable, dépend de l’envt
≠ bulles et corréla° : cadre téhorique
RAP = cadre th pr étudier catégorisation =>
- vision de bas nivx A = info° disponible de l’envt
- vision ht nivx R = représenta° de la tâche
- info° utilisée P = info° dispo utile pr résoudre tâche = intersec° entre info° dispo et représentée; tt processus de catégo est interac° entre R et A R * A = P
bulles révèle info° utile car on se base sur info° présente ds envt et on utilise celle qui est cohérente ac représenta° (on utilise bonnes moins mauvaises réponses)
CI donne accès à R (f° de transfert => cmt je transforme signal d’entrée en signal de sortie) (on utilise réponse d’une classe moins l’autre classe)
méthodes:
- construc° stim
- classement réponse
- résultats
- analyse
- bulles => moins d’essai car on introduit corréla°. Chaque bulle est comme 1 gros pixel => + on augmente taille des bulles, + on limite taille espace de recherche, + on perd en précision spatiale. (mathlab) - ac CI: gabor noise ou transfo fourier pr limiter espace recherche (R)
- catégoriel/ discrimina° / échelles => TR rapides st corrélés ac info°
- classement des bruits par réponse – régression => représenta° espace ac protions correspondant aux qu° posées pr bulles et distrib° de pixels corrélé à réponse pr IC
- Somme des bruits et moyenne puis analyse stat => test pr chaque pixel pr savoir si valeur ≠ de 0,5 (gris) => pb des compa multiples
espaces de recherches usuels
- visage (marche bien car assez invariant) - lettre (appli dys) - mots (discriminia° mots/non mots) - mvts bio, silhouette (varia° longueurs…) - percep° 3D - géons - scènes naturelles
limites: ne pas faire varier le stimulus ds l’espace - 1 espace ms plusieurs manières de poser qu° => réponses ≠. par ex ac visage: 2D = espace des pixels=> colones/lignes/uminance => info° sur traites/fréquences/régions 3D = mesh => info° sur morphologie unité d’ac° faciale => espace de prod° de l’express° => info° sur combinaison unité d’ac° à travers tps pr produire express°
mesures
- bonne/mauvaise réponse * catégorie * TR * amplitude électrique (EEG/MEG => quelles amplitudes corrélées à quel type d’info°)
- bold => quelle représentat° maximise le débit sanguin d’une région donnée (classement image en f° du débit sanguin => on a 1 IC pr chaque voxel) => on peut voir évolu° à travers tps des opéra° nécessaires pr traiter 1 expression faciale
mesures
- bonne/mauvaise réponse * catégorie * TR * amplitude électrique (EEG/MEG => quelles amplitudes corrélées à quel type d’info°)
- bold => quelle représentat° maximise le débit sanguin d’une région donnée (classement image en f° du débit sanguin => on a 1 IC pr haue voxel) => on peut voir évolu° à travers tps des opéra° nécessaires pr traiter 1 expression faciale
portrait d’une exp:
- image
- carte graphique
- écran
- envt
- tps
image:
Valeurs luminance + couleurs (distrib° de rge/vert/bleu). Distorsion lié à résol° (nbre pixel par pt de l’espace) et valeurs de luminance.!! compress° (ex: jpeg, mpeg, mp4). Utiliser format sans pert et non compressé (tiff parfois, wav) (ac son pb: échantillonnage et perte fréquences élevées)
carte graphique:
256 nivx gris ou pr chacune des couleurs => insuffisant car notre capacité de discrimina° est + forte que ce qui est présenté à l’écran. Utiliser outils ( carte graphique/son spécifique – pas celle pr jeu) pr représenter les stimulus sans perte de signal
écran:
CRT= affichage des images impulsionnel. Luminance rapide puis diminu°. Pb = dépendance spatiale (varia° couleurs pixel en f° du voisin)
LCD = affichage par échelon à retard puis s’éteint. Pb = retard + varia° de luminance (oscillation)
OLED = pas de retard pr allumage et extinction => le mieux DLP/vidéoprojecteur
écran à normaliser => variation entre image et affichage selon luminance de départ (f° gamma), selon écran, luminance selon tps de chauffe (allumer 30 min avt); couleur≠ selon écran; luminance peut varier en f° localisa° pt sur image/ angle de vue (sur LCD ms pas sur CRT)
=> important si subliminal/contraste/couleurs
envt:
* lumière perçue = émise + réfléchie * lumière artificielle: pose pb couleur de la lumière (selon lampe, âge ampoule…) * lumière nat: varie selon heure/jour/saison * noir: ms pas éco + adaptation => pas de sol°, voir ce qui est gênant
temps:
- présenta°: lié au pgme, OS, carte graphique, écran, cables. Si >50ms, ok.!!! si coordina° son/image. Durée stim dépend du nbre frame et fréquence de rafraichissemnt horizontale
- réponse: m pb – boitier réponse mieux (USB pb car paquet) ou clé vocale (MS atten° plosive/fricative). Si hyp d’interac°, pas très grave car décalage partout (parfois on introduit biais ms on augment variance dc + erreur de type 2)
vérif:
- intensité constante ds chaque haut parleur
- vérif ac instru: colorimètre, uxmètre, spectromètre… => blind box