Diskuter hvorfor objekt gjenkjenning er et vanskelig beregningsmessig problem Flashcards
Innledning: Gå ut over mønsteret av lys og mørke: innledning
For å bestemme hva som er der ute, altså objekt gjenkjenning, ute er det nødvendig å gå utover mønsteret av lys og mørke som en scenen skaper på retina.
Å oppleve et bybilde krever mer enn mønsteret av lys og mørke - for eksempel for å avgjøre om et bygg med en spesiell form faktisk er et bygg og ikke noe annet. Her bruker vi kanskje tidligere tilegnet kunnskap i tillegg for å avgjøre.
Vi ser viktigheten av dette når vi ser hvor vanskelig det har vært å programmere perseptuelle maskiner.
Datamaskiner gjør det dårlig på visuell persepsjon: intro til problemene til å skape en persepsjon maskin
Visuell persepsjon er en vanskelig oppgave for datamaskiner, som involverer komplekse programmer og mye trening på tusenvis av forskjellige bilder.
Et av de mange problemene de nåværende dataprogrammene står overfor er at selv om de kanskje kan identifisere enkelte objekter, gjør de ofte feil som et menneske aldri ville gjort, for eksempel å kalle et kameralinsedeksel eller toppen av en tekanne for en tennis ball. Dataprogrammer lar seg faktisk lett lure. Dataprogrammer gjør det altså dårligere enn mennesker på å ta finkornede avgjørelser og derfor også på generell visuell persepsjon.
Det er flere problemer når det kommer til å lage en persiperings maskin. Disse problemene løser mennesker lett, raskt og ofte automatisk, men det gjør ikke en datamaskin. Problemene involverer altså komplekse prosesser som det ikke er lett å bygge inn i et dataprogram.
- problem: stimuliene på reseptorene er tvetydige
Et problem et at stimulien på reseptorene er tvetydelige, og derfor blir også bildet på netthinnen tvetydig.
Når du ser på siden i en bok, er bildet som kastes av kantene på siden på netthinnen tvetydig. Det kan virke rart å si det, fordi den rektangulære formen på siden er åpenbar for oss.
Det perseptuelle systemet er imidlertid ikke opptatt av å bestemme et objekts bilde på netthinnen, men omvendt. Det starter med bildet på netthinnen, og jobben er å bestemme objektet “der ute” som skapte bildet.
Oppgaven med å bestemme objektet som er ansvarlig for et bestemt bilde på netthinnen kalles det omvendte projeksjonsproblemet
For å illustrere hvorfor dette er et “problem”, så kan netthinnebildet skapt av den rektangulære siden av boka ha blitt skapt av en rekke forskjellige objekter
Når vi tenker på at et bestemt 2D-bilde på netthinnen kan lages av mange forskjellige objekter i 3D-miljøet, er det lett å se hvorfor vi sier at bildet på netthinnen er tvetydig og at vi dermed på en eller annen måte må finne ut hva som har blitt presentert for oss.
Merkelig nok ser det ut til at mennesker lett løser det omvendte projeksjonsproblemet, selv om det utgjør alvorlige utfordringer for datasynssystemer.
- problem: objekter kan være gjømt eller uklare
Et annet problem er at objekter kan være gjømt eller uklare. Selv om det kan kreve litt leting, kan mennesker finne objekter i et bilde selv om bare en liten del av disse objektene er synlige.
Dette problemet med skjulte objekter oppstår hver gang ett objekt skjuler en del av et annet objekt. Dette forekommer ofte i miljøet, men folk forstår lett at den delen av en gjenstand som er tildekket fortsetter å eksistere, og de er i stand til å bruke erfaring og kunnskapen om miljøet til å bestemme hva som sannsynligvis vil være til stede. Folk er også i stand til å gjenkjenne objekter som ikke er i skarpt fokus.
- problem: objekter ser ulikt ut fra ulike synsvinkler
Et annet problem er at objekter ser ulike ut fra ulike synsvinkler. Dette betyr at bildene av objekter er i kontinuerlig endring, avhengig av vinkelen de ses fra.
Selv om mennesker fortsetter å oppfatte objektet som det samme objektet sett fra forskjellige vinkler, er dette ikke så åpenbart for en datamaskin.
Evnen til å gjenkjenne et objekt sett fra forskjellige synspunkter kalles synspunktinvarians.
Avslutning på problemene og hva de illustrerer
Vanskelighetene som enhver persepsjonsmaskin står overfor illustrerer at persepsjonsprosessen er mer kompleks enn den ser ut til, til tross for at den ikke føles slik.
Problemene oppsummert:
stimuliene på reseptorene er tvetydige
objekter kan være gjømt eller uklare
objekter ser ulikt ut fra ulike synsvinkler