Computer vision Flashcards
Computer vision
AI som gör det möjligt för datorer att förstå och tolka visuell information från bilder och videor
Vad kallas det nätverk som utför computer vision
Convolutional Neural Networks
LeNet-5
Det första CNN
AlexNet
Utvecklades från LeNet-5
CNN består av lager:
- Input lager
- Convolutional lager
- Pooling lager
- Con
- Pool
…… - Output lager
Vad gör input lagret?
Alla pixlar från bilden representeras av varsin nod.
Pixlarna sparas i matris som representerar vart de finns på bilden
- 2D
Vad gör convolutional layer?
Filtrerar, behåller det viktiga för viss feature
Består av Karnel
Skapar feature map
Skickar vidare feature map
Vad gör pooling layer?
Sammanfattar informationen ytterligare
- Tar emot feature map
- Skapar pooling map
- Största värdet eller medelvärdet
- Pooling map skickas vidare till nytt convolutional layer
Vad händer mellan sista pooling layer och output layer?
Flatten
- Pooling map i 2D blir till 1D
- Görs till en lista, (eller vektor)
Vad händer i output lagret?
Sannolikhet, klassificering
- Dense lager
- Softmax - algoritm som avgör vilken neuron som har störs sannolikhet att vara korrekt utifrån listan med värden
- Den neuronen aktiveras och printar ut sin etikett - “Katt”
Vad betyder convolution
Kallas processen där filtrer, karnelen, rör sig över pixlarna eller då map
Vad kallas processen som sker i pooling lagren?
Subsampling
Kernels
Filter
Rutnät
- Förtränade vikter som rör sig över bilden
- 3x3 eller 5x5
Hur skapas features map via kernels rent matematiskt?
Vikterna inom kernelen multipliceras med respektive pixelvärde.
Sedan adderas samtliga.
Värdet skrivs in i feature map
Pooling
Metod som minskar storleken på feature map.
Vill behålla det viktigaste:
- Största värdet…
- … eller medelvärdet
Ett enda värde behålls och skrivs in i pooling map
Spatial invariance
Att CNN kan känna igen objekt oavsett vart i bilden det befinner sig
- Eftersom filtret flytter över hela bilden
Receptive field
Den del av ingångsbilden eller map som varje neuron “ser” och kan reagera på.
Längre in i nätverket efter mer pooling blir receptive fields större
Strides
Hur mycket filtrer, kernelen, ska flytta
Hur bygger man djupare CNN?
Adderar fler konvolutionslager och poolinglager
- Ofta mer än 2-3 som är det grundläggande
Transfer learning
Teknik där en modell som redan tränats på en uppgift används för att lära sig en ny uppgift.
- Återanvädner feature extractor network
- Ny Tast-specific network
Feature extractor network
Backbone i CNN
Fösta delen som består av:
- Convolutional lager
- Pooling lager
Den del som kan känna igen och sammanfatta features
Task-specific network
Sista delen i CNN som utför klassificeringen
Confusion matrix
Tabell som visar hur bra en klassificeringsmodell fungerar
Detta gör träningen övervakad
-TP
-FP, typ-1fel
-TN
-FN, typ-2fel
Object detectors
Har som uppgift att lokalisera och identifiera objekt