Computer Vision Flashcards

1
Q

Vilken är den huvudsakliga skillnaden mellan dense-nätverk och CNNs?

A) Dense kopplar alla noder; CNNs använder lokala kopplingar med delade vikter.

B) Dense använder lokala filter; CNNs har full anslutning.

C) Dense har icke-linjära aktiveringar; CNNs är linjära.

D) Dense är optimerade för bilder; CNNs för sekvenser.

A

Svar: A

Förklaring: CNNs utnyttjar lokal konnektivitet och viktdelning, vilket skiljer dem från dense nätverk som kopplar alla noder.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vad innebär “viktdelning” i CNNs?

A) Filter delas upp i flera matriser.

B) Olika filter används för varje region.

C) Vikter slumpas om för varje position.

D) Samma filter appliceras över hela indata.

A

Svar: D

Förklaring: Viktdelning innebär att samma filter används över alla delar av indata.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hur beräknas ett värde i en feature map?

A) Genom medelvärde av en patch.

B) Elementvis multiplikation och summering.

C) Genom att addera alla pixlar.

D) Genom att ta differensen mellan patchens element.

A

Svar: B

Förklaring: Varje output beräknas genom att multiplicera motsvarande element och sedan summera resultatet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

För en 8x8-bild med ett 3x3-filter och stride 1, vad blir feature map-dimensionen?

A) 6×6

B) 3×3

C) 8×8

D) 10×10

A

Svar: A

Förklaring: Dimensionen beräknas som (N - f + 1), alltså (8 - 3 + 1) = 6 per sida.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Vad är syftet med pooling i CNNs?

A) Öka parametrarna.

B) Utföra global normalisering.

C) Minska dimensionen och ge spatial invarians.

D) Duplicera feature maps.

A

Svar: C

Förklaring: Pooling reducerar den rumsliga storleken och gör modellen robust mot små förflyttningar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vilken CNN-arkitektur revolutionerade ILSVRC 2012?

A) LeNet-5

B) AlexNet

C) VGGNet

D) ResNet

A

Svar: B

Förklaring: AlexNet var banbrytande och sänkte konkurrensen vid ILSVRC 2012.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Vad innebär “receptivt fält” i CNNs?

A) Regionen i indata som påverkar en neuron.

B) Totala antalet filter i ett lager.

C) Den aktiveringsfunktion som används.

D) En metod för viktuppdatering.

A

Svar: A

Förklaring: Det receptiva fältet definierar den del av indata som påverkar en specifik neuron.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Vad är en av de främsta fördelarna med CNNs vid bildigenkänning?

A) De har fler parametrar än dense nätverk.

B) De är robusta mot små förflyttningar tack vare lokal konnektivitet och viktdelning.

C) De använder endast linjära aktiveringar.

D) De förlitar sig på full anslutning mellan lager.

A

Svar: B

Förklaring: Tack vare viktdelning och lokala filter blir CNNs mindre beroende av exakta positioner i bilden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hur extraherar ett konvolutionslager funktioner från indata?

A) Genom att applicera ett globalt medelvärde.

B) Genom att använda rekurrenta samband.

C) Genom att slumpmässigt dölja delar av indata.

D) Genom att använda små filter för att beräkna lokala dotprodukter.

A

Svar: D

Förklaring: Konvolutionslagret använder filter som flyttas över indata och beräknar dotprodukter för att upptäcka lokala mönster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vad definierar “stride” i en konvolution?

A) Antalet filter i laget.

B) Hur långt filtret flyttas vid varje steg.

C) Storleken på filtret.

D) Antalet aktiveringsfunktioner per lager.

A

Svar: B

Förklaring: Stride anger hur många pixlar filtret förflyttas mellan konvolutionsstegen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hur genereras en feature map med ett konvolutionsfilter?

A) Filtret appliceras statiskt på indata.

B) Filtret flyttas över indata med ett fast steg och beräknar dotprodukter.

C) Filtret summerar hela indata till ett tal.

D) Filtret används enbart på bildens kanter.

A

Svar: B

Förklaring: Genom att flytta filtret över hela indata med ett fast stride beräknas dotprodukter som formar feature mappen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vad innebär “spatial invariance” i CNNs?

A) Att nätverket kan känna igen objekt oberoende av deras exakta position.

B) Att alla pixlar normaliseras globalt.

C) Att feature maps är identiska över hela bilden.

D) Att ett pooling-lager multiplicerar alla värden.

A

Svar: A

Förklaring: Spatial invariance gör att CNNs kan detektera objekt trots små förskjutningar i bilden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hur kombinerar ett CNN konvolutions- och poolinglager?

A) Konvolutionslagret extraherar funktioner och poolinglagret reducerar dimensionerna.

B) Båda lagren ökar dimensionsstorleken.

C) Konvolutionslagret normaliserar indata medan poolinglagret extraherar funktioner.

D) Poolinglagret ersätter konvolutionen helt.

A

Svar: A

Förklaring: Konvolutionen extraherar lokala funktioner, medan pooling reducerar spatiala dimensioner och stärker invarians.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vad innebär “weight sharing” i CNNs?

A) Samma filter används över hela bilden för att minska parametrar.

B) Varje filter har unika vikter för varje position.

C) Vikter uppdateras oberoende i varje lager.

D) Filter dupliceras slumpmässigt för att öka variabiliteten.

A

Svar: A

Förklaring: Weight sharing innebär att samma filter appliceras på olika delar av bilden, vilket minskar antalet parametrar och ökar generaliseringen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Vilka är de huvudsakliga fördelarna med CNNs enligt kurslitteraturen?

A) De hanterar sekventiell data med minskat antal filter.

B) De extraherar robusta funktioner med färre parametrar och är spatialt invarianta.

C) De använder fullständiga dense lager för exakt återgivning.

D) De ökar komplexiteten genom att duplicera indata.

A

Svar: B

Förklaring: CNNs kombinerar lokal konnektivitet, viktdelning och pooling för att extrahera funktioner effektivt med färre parametrar och robusthet mot små förflyttningar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Vilket är det primära syftet med objektdetektionsalgoritmer enligt kursmaterialet?

A) Att identifiera objektens klasser utan att nödvändigtvis lokalisera dem i bilden.

B) Att lokalisera objekt genom att beräkna bounding boxes, bedöma “objectness” och klassificera dem.

C) Att reducera indata genom pooling och konvolution utan vidare klassificering.

D) Att ersätta CNNs genom att använda MLP-modeller för att känna igen bilder.

A

Svar: B

Förklaring: Objektdetektion handlar om att både lokalisera (med bounding boxes) och klassificera objekt, där man även bedömer sannolikheten för att en region innehåller ett objekt (“objectness”).

17
Q

Hur skiljer sig Single Shot Detectors (SSD) från regionbaserade metoder som Faster R-CNN enligt kursmaterialet?

A) SSD utför både lokalisation och klassificering i en enda pipeline, medan Faster R-CNN delar upp processen i separata steg.

B) SSD kräver att indata delas upp i flera regioner medan Faster R-CNN endast arbetar med hela bilden.

C) SSD använder flera backbones för att hantera olika objektstorlekar, medan Faster R-CNN bara använder ett enda nätverk.

D) SSD tillämpar endast pooling utan att utföra konvolutioner, medan Faster R-CNN bygger på rena konvolutionella operationer.

A

Svar: A

Förklaring: SSD integrerar lokalisation och klassificering i ett enda steg (end-to-end), vilket gör den snabbare än Faster R-CNN som använder separata steg för regionförslag och klassificering.

18
Q

Vad är Non-Maximum Suppression (NMS) och vilken roll fyller den?

A) En process som beräknar medelvärdet av överlappande bounding boxes.

B) En teknik för att segmentera indata innan detektering.

C) En algoritm som väljer ut den mest sannolika bounding boxen och undertrycker övriga.

D) En metod för att öka antalet regioner i en bild

A

Svar: C

Förklaring: NMS tar bort överlappande bounding boxes genom att behålla den med högst “objectness” och undertrycka de övriga, vilket minskar dubbletter i detekteringen.

19
Q

Vad menas med Feature Extraction Network (FEN) i samband med objektdetektion?

A) Ett system som genererar bounding boxes utan vidare klassificering.

B) Ett nätverk som direkt producerar klassificeringsresultat utan att extrahera lokala funktioner.

C) En modul som enbart normaliserar indata innan detektering.

D) Ett förtränat CNN som extraherar relevanta funktioner från bilden för vidare uppgiftsspecifik bearbetning.

A

Svar: D

Förklaring: FEN är den del av arkitekturen som, ofta med hjälp av förtränade modeller, extraherar funktioner från bilden som sedan matas in i en uppgiftsspecifik nätverksdel.

20
Q

Vilken utmaning lyfts fram som central för objektdetektion?

A) Att identifiera exakta pixelvärden för varje objekt.

B) Att använda enbart djupt anslutna dense lager för att lösa problemet.

C) Att separera objekt från bakgrund och hantera varierande objektstorlekar samt balansera hastighet med noggrannhet.

D) Att eliminera behovet av feature extraction genom pooling.

A

Svar: C

Förklaring: Utmaningar inom objektdetektion inkluderar att skilja objekt från bakgrund (objectness), lokalisera och klassificera objekt i varierande storlek samt att balansera prestanda och beräkningshastighet.

21
Q

Hur hanterar SSD multiskalig detektering?

A) Genom ett enda lager med fast filterstorlek.

B) Genom att använda återkommande nätverk för att anpassa filterstorleken dynamiskt.

C) Genom att tillämpa NMS före alla konvolutioner.

D) Genom att använda extra feature lager som producerar detekteringsvektorer på olika skala.

A

Svar: D

Förklaring: SSD använder extra feature lager som, genom att arbeta på olika skala, gör det möjligt att detektera objekt med varierande storlek i samma modell.

22
Q

Vilken metod används för att eliminera överlappande bounding boxes?

A) K-means-klustring.

B) Non-Maximum
Suppression (NMS).

C) Global pooling.

D) Random sampling.

A

Svar: B

Förklaring: Non-Maximum Suppression (NMS) används för att filtrera bort överlappande bounding boxes så att endast den mest representativa boxen förblir.

23
Q

Vad är en av YOLO-algoritmernas största fördelar enligt kursmaterialet?

A) Mycket hög precision men med långsam beräkningstid.

B) Real-tidsdetektion med hög hastighet och rimlig noggrannhet.

C) Att den kräver separata steg för regionförslag och klassificering.

D) Att den tränas enbart på små dataset för snabbare processering.

A

Svar: B

Förklaring: YOLO är designad för att utföra både lokalisation och klassificering i ett enda steg, vilket ger hög hastighet och möjliggör realtidsapplikationer.

24
Q

Vad menas med “objectness” inom objektdetektion?

A) Ett mått på hur bra en bounding box segmenterar bilden.

B) Sannolikheten att en viss region innehåller ett objekt snarare än bakgrund.

C) En metod för att bestämma objektets exakta färg.

D) Ett sätt att räkna antalet objekt i en bild.

A

Svar: B

Förklaring: “Objectness” refererar till sannolikheten att en given region, exempelvis en bounding box, faktiskt innehåller ett objekt snarare än bara bakgrund.