AI Deep & Simple NN & RL Flashcards

1
Q

Vad är fördelarna med en Single Layer Perceptron?

A

Enkel och lätt att implementera.
Träningstid är relativt snabb jämfört med andra neurala nätverksarkitekturer.
Bra för binära klassificeringsuppgifter och linjärt separerbara problem.
Kan användas som byggsten för mer komplexa neurala nätverksmodeller.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vad är djupinlärning?

A

Djupinlärning är en delmängd av maskininlärning som fokuserar på användningen av neurala nätverk med många lager för att lära sig och extrahera komplexa mönster från stora mängder data. Det kallas “djup” inlärning eftersom dessa neurala nätverk består av flera lager (därav “deep”) som bidrar till att förbättra modellens kapacitet att lära sig detaljerade och abstrakta representationer av data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vad är nackdelarna med en Single Layer Perceptron?

A

Begränsad till linjärt separerbara problem och kan inte lära sig komplexa beslutsgränser.
Kan endast modellera en enda utgångsvariabel.
Inte lämplig för uppgifter som kräver multi-klassklassificering.
Kan drabbas av vanishing gradient problem vid träning av djupa nätverk.
Benägen att överanpassa på brusig data eller data med hög dimensionalitet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vad visar bilden på slide 4 om Single Layer Perceptron?

A

Bilden illustrerar en Single Layer Perceptron med ingångar, vikter, en aktiveringsfunktion och en utgång. Den visar hur en enkel perceptron tar flera ingångar, multiplicerar dem med vikter, summerar resultaten och skickar summan genom en aktiveringsfunktion för att producera en utgång.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hur kan MLP (Multi-Layer Perceptron) användas för att lösa icke-linjära klassificeringsproblem?

A

MLP kan hantera icke-linjära relationer genom att använda flera lager av neuroner och icke-linjära aktiveringsfunktioner, vilket gör det möjligt att lära sig komplexa mönster och beslutsgränser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vilka är egenskaperna hos MNIST-datasetet för handskrivna siffror?

A

MNIST-datasetet innehåller bilder av handskrivna siffror, där varje bild är 28x28 pixlar i gråskala. Datasetet används ofta för att träna och testa maskininlärningsmodeller för bildigenkänning.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hur hanterar man textklassificering med djupinlärning?

A

Samla och förbehandla data: Samla ett dataset med etiketterad textdata och förbehandla det genom att rensa, normalisera och koda textdata.
Dela upp data: Dela upp data i tränings-, validerings- och testset.
Förbered input: Konvertera den förbehandlade textdata till numeriska representationer med hjälp av tekniker som tokenisering, vektorisering eller ordinbäddningar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Kan pixelbaserad funktionsrepresentation användas för komplexa problem?

A

Deep learning-algoritmer använder stora mängder data för att lära sig mönster och göra förutsägelser. De använder backpropagation för att justera vikterna i det neurala nätverket för att minimera fel. De är också kapabla till unsupervised learning och funktionsutvinning, vilket gör dem mycket flexibla och anpassningsbara till nya data och uppgifter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vad är en Convolutional Neural Network (CNN)?

A

En Convolutional Neural Network (CNN) är en typ av djupinlärningsmodell som är särskilt effektiv för att bearbeta grid-liknande data, som bilder. CNN använder konvolutionella lager för att automatiskt extrahera funktioner från indata, vilket gör den särskilt kraftfull för bildigenkänning och datorsyn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hur fungerar ett Convolutional Neural Network (CNN)?

A

Convolutional Layers: Använder filter (kärnor) för att extrahera funktioner genom att utföra en matematisk operation kallad konvolution.
Pooling Layers: Minskar storleken på funktionskartorna som produceras av konvolutionella lager, vilket gör nätverket mer beräkningsmässigt effektivt. Maxpooling är den vanligaste typen, som väljer maxvärdet från en liten region av funktionskartan.
Fully Connected Layers: Det plattade utdata från konvolutionella och pooling-lager matas till fullt anslutna lager som utför klassificeringsuppgifter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hur fungerar djupinlärning?

A

Djupinlärning fungerar genom att använda djupa neurala nätverk, som består av flera lager av neuroner, för att lära sig mönster och representationer från data. Genom att använda tekniker som backpropagation och optimeringsalgoritmer justerar nätverket sina vikter för att minimera fel och förbättra prestandan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hur används Recurrent Neural Networks (RNN) för att spåra information i sekventiella videoramar?

A

RNN:er har loopar i sin arkitektur vilket gör att de kan bearbeta sekvenser av indata. De behåller ett internt tillstånd eller “minne” som används för att informera framtida förutsägelser eller beslut.
LSTM (Long Short-Term Memory): En vanlig RNN-arkitektur som används för språkmodellering, taligenkänning, maskinöversättning, bildtextning och musikgenerering.
Begränsning: RNN:er kan vara beräkningsmässigt dyra att träna.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vad är Generative Adversarial Networks (GANs) och hur fungerar de?

A

Generator Network: Tar en slumpmässig brusvektor som input och genererar ny data (bilder eller text) som liknar den verkliga datan.
Discriminator Network: Tar emot både verkliga och genererade data och försöker klassificera vilken som är vilken.
De två nätverken tränas tillsammans i ett spel-liknande sätt, där generatorn försöker lura diskriminatorn och diskriminatorn försöker korrekt klassificera datan.
Begränsning: GANs kan vara svåra att träna och kan drabbas av mode collapse, där generatorn producerar begränsade variationer av samma utdata istället för diversifierade utdatan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hur skapas deep fake-videor?

A

Träna ett djupt neuralt nätverk med en stor dataset av verkliga videor och bilder för att generera nya videor som liknar de ursprungliga videorna.
Nätverket lär sig mönster och egenskaper hos ansikts- och kroppsrörelser, tal och andra visuella och ljudfunktioner som finns i de ursprungliga videorna.
För att skapa en deep fake-video, samla ett stort antal bilder och videor av personen som ska imiteras.
Algoritmen genererar en ny video som kombinerar ansikts- och talfunktioner hos personen som imiteras med ljud- och visuellt innehåll från en annan video.
Den nya videon förfinas för att producera mer övertygande och realistiska resultat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Vad är Explainable AI (XAI)?

A

Explainable AI syftar till att göra AI-beslut förståeliga och transparenta för användare. Det hjälper till att bygga förtroende i AI-system genom att ge insikt i hur och varför specifika beslut fattades av modellen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Vad är de grundläggande stegen i att designa en djupinlärningsmodell?

A

Identifiera problemet: Första steget är att identifiera problemet du vill lösa, som kan vara bildigenkänning, naturlig språkbehandling, etc.
Välj rätt arkitektur: Välj den djupinlärningsarkitektur som bäst passar problemet. Vanliga arkitekturer inkluderar CNNs för bildigenkänning, RNNs för sekventiell data, och Transformer-modeller för naturlig språkbehandling.
Förbered data: Förbered data genom att rensa, förbehandla och dela upp det i tränings-, validerings- och testset.
Träna modellen: Träna modellen med träningsdata och övervaka dess prestation på valideringssetet. Justera hyperparametrarna (inlärningshastighet, batchstorlek, etc.) vid behov för att förbättra prestandan.
Utvärdera modellen: Utvärdera modellens prestanda på testsetet för att se hur väl den presterar på osedda data.
Finjustera modellen: Finjustera modellen genom att justera arkitekturen eller hyperparametrarna ytterligare för att förbättra prestandan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hur utvärderas en djupinlärningsmodell?

A

En djupinlärningsmodell utvärderas genom att använda ett testset som modellen inte har sett tidigare under träningen. Vanliga metoder inkluderar att mäta noggrannhet, precision, återkallelse och F1-score. Dessa mått hjälper till att bedöma hur bra modellen presterar på osedda data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Vad är överanpassning (overfitting)?

A

Överanpassning uppstår när en modell presterar mycket bra på träningsdata men dåligt på testdata. Det innebär att modellen har lärt sig detaljer och brus i träningsdata som inte generaliserar till nya data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hur kan överanpassning (overfitting) undvikas?

A

Regularisering: Lägg till en straffterm för stora vikter i förlustfunktionen (t.ex. L1- eller L2-regularisering).
Dropout: Slumpmässigt nollställning av vissa neuroner under träningen för att förhindra att nätverket blir för specialiserat.
Tidigt stopp (Early stopping): Stoppa träningen när prestandan på valideringssetet börjar försämras.
Dataaugmentation: Generera fler träningsdata genom att applicera slumpmässiga transformationer på befintliga data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Training Simple ANNs
Hur hittar vi värdena på vikterna för olika (logiska) funktioner?

A

Biologiska synapser kan modifieras av erfarenhet.

En enkel perceptron (SLP) har en inlärningsregel som gör att den också kan lära sig av erfarenhet (data).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Vilka två alternativ finns för att träna en enkel ANN?

A

Manuellt välja viktvärden själva.
Använda en inlärnings- eller träningsregel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hur kan vi använda en sanningsvärdetabell för att träna en enkel ANN? (Manuellt välja viktvärden själva)

A

Sätt vikterna w1 och w2 till specifika värden (t.ex. 1.0).

Sätt tröskelvärdet θ till ett specifikt värde (t.ex. 0).

Beräkna aktiveringsvärdet
a genom att summera de viktade ingångarna.

Använd aktiveringsfunktionen för att bestämma utgången y

Jämför utgången med målvärdet t för att justera vikterna vid behov.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Vad är perceptron inlärningsregel och hur används den? (Använda en inlärnings- eller träningsregel)

A

Perceptron inlärningsregel används för att uppdatera vikterna baserat på felet mellan förväntad utgång och faktisk utgång. Formeln är
w′ = w + αx (t−y)

α är inlärningshastigheten,
x är ingången,
t är målvärdet
y är den faktiska utgången.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Hur justeras vikterna om de är för svaga eller för starka?

A

Om felet t −y > 0
t−y>0 (t.ex. t=1, y=0), öka w med en liten mängd.

Om felet
t − y ≤ 0 (t.ex. t=0, y=1), minska w med en liten mängd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Hur kan vi använda vektorformulering för att förenkla beräkningarna?

A

Beräkna summan av de viktade ingångarna som en dotprodukt.

Om dotprodukten är större än tröskelvärdet θ, sätt y=1; annars sätt y=0.

Betrakta θ som en vikt och introducera en konstant ingång −1 för att uppdatera tröskelvärdet.

26
Q

Hur uppdateras vikterna och tröskelvärdet?

A

w1new = w1+αx1(t−y)
w2 new =w2+αx2(t−y)

Tröskelvärdet w0 uppdateras också med samma regel.

27
Q

Vad visar tabellen i denna slide? (slide 16)

A

Tabellen visar initiala viktvärden och förändringen i viktvärden ( δw1, δw2, δθ) som påverkas av feltermen (t−y).

28
Q

Vad är uppgiften i denna slide? (slide 17)

A

Uppgiften är att “träna” ett 2-ingångs neuralt nätverk med initiala viktvärden för att producera en AND logikfunktion. Uppdatera
w1, w2 och θ rad för rad och kontrollera om nätverket lär sig den korrekta utgången efter fyra input vektor-presentationer.

29
Q

Hur uppdateras vikterna i detta exempel? (slide 17-18)

A

Vikterna uppdateras efter varje iteration av träning baserat på perceptron inlärningsregel. Om utgången är felaktig justeras vikterna w1, w2 och θ enligt felet (t−y).

30
Q

Vad illustrerar Exempel 1 med Single Layer Perceptrons?

A

Exempel 1 illustrerar klassificering av objekt (Blueberry, Golf ball, Violet, Hot Dog) baserat på binära ingångar. Varje objekt har attribut som representeras med 1 eller 0.

31
Q

Vad är ett artificiellt neuralt nätverk (ANN)?

A

Ett neuralt nätverk implementerar en funktion som beräknar utgången
y baserat på en summa av de viktade ingångsvariablerna.
y=f(∑wi xi)

32
Q

Vilka komponenter ingår i ett neuralt nätverk?

A

Indata (x1, x2): Neuroner som tar emot data.
Vikter (w1, w2): Parametrar som justeras under träningen.
Aktiveringsfunktion (f): Funktion som transformerar summan av de viktade ingångarna.
Utdata (y): Förutsägelse eller resultat av nätverket.

33
Q

Hur aktiveras ett enkelt neuralt nätverk?

A

Genom att summera de viktade ingångarna och applicera en aktiveringsfunktion. Om summan överstiger ett tröskelvärde θ, ger nätverket en utgång på 1, annars 0.

34
Q

Vad är perceptron inlärningsregel?

A

En regel för att uppdatera vikterna baserat på felet mellan förväntad och faktisk utgång. Formeln är
w′ =w+αx(t−y), där α är inlärningshastigheten.

35
Q

Hur tränas ett neuralt nätverk?

A

Jämför utdata: Jämför nätverkets utgång y med det förväntade målvärdet t.

Uppdatera vikter: Justera vikterna baserat på skillnaden mellan t och y.

Om felet är positivt, öka vikterna; om negativt, minska vikterna.

36
Q

Hur används en Single Layer Perceptron (SLP) för klassificering?

A

SLP används för att hitta beslutsgränser som separerar olika klasser av data. Den tränas för att justera vikterna så att data korrekt klassificeras på båda sidor av gränsen.

37
Q

Vad innebär linjärt separerbara problem?

A

Problem där klasserna kan separeras med en rak linje (i två dimensioner) eller ett plan (i högre dimensioner). SLP kan endast lösa sådana problem.

38
Q

Vad innebär icke-linjärt separerbara problem?

A

Problem där klasserna inte kan separeras med en rak linje eller plan. För att lösa dessa problem krävs mer komplexa neurala nätverk med flera lager (djuplärande nätverk).

39
Q

Vad är Reinforcement Learning (RL) i korthet?

A

Reinforcement Learning innebär att en agent lär sig genom interaktion med sin omgivning genom positiva (belöningar) och negativa (bestraffningar/kostnader) feedback. RL är starkt kopplat till mänskligt och djur cognition och beslutsfattande.

40
Q

Vilka komponenter ingår i Reinforcement Learning?

A

States (S): Set av tillstånd.

Actions (A): Set av handlingar som kan utföras i tillstånden.

Rewards (R): En belöningsfunktion.

State transition probability function (p): En sannolikhetsfunktion för tillståndsövergångar som kräver kunskap om omgivningens dynamik.

41
Q

Hur interagerar agenten med omgivningen i Reinforcement Learning?

A

Agenten mottar information från omgivningen i form av ett tillstånd S (state) och en belöning (reward) R vid tidpunkt t.

Agenten utför en handling A (action) vid tidpunkt t.

Handlingen påverkar omgivningen, vilket leder till ett nytt tillstånd S och belöning R vid tidpunkt t + 1.

42
Q

Vad är ett exempel på Reinforcement learning för sekventiellt beslutsfattande (sequential decision making)?

A

Ett exempel är en agent som navigerar genom en enkel labyrint/gridvärld. Agenten måste undvika en eldgrotta (kostnad) medan den navigerar till målet (en semla som belöning).

43
Q

Varför har labyrintuppgiften Markov-egenskapen?

A

Värdet av varje handling (action) agenten väljer beror endast på det nuvarande tillståndet (state) i omgivningen och inte på tidigare tillstånd (state).

44
Q

Vad är en Markov Decision Process (MDP)?

A

En MDP är en beslutsprocess där värdet av varje handling agenten väljer inte beror på tidigare tillstånd, utan endast på den omedelbara belöningen och den förväntade framtida belöningen.

45
Q

Ge exempel på situationer som uppfyller Markov-egenskapen.

A

Ett schackspel – ett tillståndssignal som består av den aktuella brädkonfigurationen har Markov-egenskapen.
Flygbanan för en kanonkula – position och hastighet ger all information som behövs för framtida tillståndsövergångar.

46
Q

Varför är Markov-egenskapen viktig?

A

Premiss 1: Vi vill ta den optimala handlingen baserat på kunskap om världens tillstånd.
Premiss 2: Det är svårt att göra detta om vi måste beakta alla tidigare handlingar som har lett till det nuvarande tillståndet.
Mål: Det är enklare om vi kan sammanfatta värdetillståndet av världen med ett enda värde oberoende av tidigare tillstånd (vägen till det nuvarande tillståndet).

47
Q

Vad innebär olika former av förstärkningsinlärning (RL)?

A

Säkra men suboptimala vägar: Agenten tar en säker väg men når inte målet snabbt.
Optimala men riskfyllda vägar: Agenten tar en snabbare men riskfylld väg för att nå målet.
(Beror hur viktigt det är att nå goal state)

48
Q

Hur skiljer sig Reinforcement Learning från algoritmer som A* när det gäller att navigera från ett starttillstånd till ett måltillstånd?

A

Till skillnad från A* eller andra träsökningsmetoder har Reinforcement Learning ingen förhandskunskap om måltillståndets position. Agenten vet inte var målet är och måste därför lära sig att navigera genom att utforska omgivningen och samla in feedback i form av belöningar och straff.

49
Q

Vad är en av de största utmaningarna för en agent som inte har GPS och inte vet var måltillståndet är?

A

En av de största utmaningarna är att agenten måste lära sig att identifiera och navigera till måltillståndet baserat på belöningar och straff som den får under utforskningen av omgivningen. Agenten måste bygga upp en intern representation av omgivningen och använda detta för att fatta beslut.

50
Q

Hur uppdaterar agenten värdena för tillstånd i Reinforcement Learning?

A

Agenten uppdaterar värdena för tillstånd genom att använda Temporal Difference (TD) Learning. Den beräknar skillnaden mellan den förväntade framtida belöningen och den faktiska belöningen, och justerar sedan värdet av det nuvarande tillståndet baserat på denna skillnad.

51
Q

Hur hanterar agenten omedelbara och framtida förväntade belöningar?

A

Agenten tar hänsyn till både omedelbara belöningar och framtida förväntade belöningar. Värdet av ett tillstånd är högre om en belöning kan erhållas i det, även om belöningen endast finns i ett avlägset framtida tillstånd.

52
Q

Vad är Temporal Difference (TD) Learning?

A

TD Learning är en metod där agenten uppdaterar värdena för tillstånd baserat på skillnaden mellan förväntade och faktiska belöningar över tid. Detta kallas TD-fel och är en viktig del av hur agenten lär sig.

53
Q

Hur uppdateras tillståndsvärden med TD-fel?

A

Formel:
V new (St)=V(St)+α[R+γV(St+1)−V(St)]

Där α är inlärningshastigheten,

R är den omedelbara belöningen, och

γ är diskonteringsfaktorn för framtida belöningar.
(Checka RL pp kan va fel)

54
Q

Vad är temporärt discounted värden och hur påverkar de action selection?

A

Temporärt discounted värden representerar belöningar för varje tillstånd från start till mål. Dessa värden vägleder action selection, där handlingar väljs baserat på de som har högst temporärt diskonterade värden från måltillståndet.

55
Q

Vad är vanliga problem i förstärkningsinlärning (RL)?

A

Vanliga problem inkluderar användning av labyrinter eller gridvärldar där policyn (state-action mappings) uppdateras baserat på feedback vid måltillståndet (belöning). Tillstånd värderas högre ju närmare de är målet, och handlingar som flyttar agenten närmare målet är mer värdefulla.

56
Q

Vad händer om agenten har två mål?

A

Agenten måste välja den bästa vägen baserat på värderingen av varje tillstånd och diskonteringen av framtida belöningar. Exempelvis kan agenten behöva välja mellan att gå söderut eller att nå ett andra mål (G2) som också ger en belöning.

57
Q

Vilka två kända RL-algoritmer används för att hitta de bästa vägarna till målet och hur fungerar de?

A

SARSA: Använder en specifik inlärningsregel för att uppdatera tillståndsvärden baserat på TD-fel.
Q-Learning: Liknar SARSA men tar hänsyn till det maximala förväntade framtida värdet vid uppdatering av tillståndsvärden.

58
Q

Vad är Deep Reinforcement Learning och vad är dess fördelar?

A

Deep Reinforcement Learning kombinerar djupinlärning med förstärkningsinlärning för att hantera komplexa miljöer och dynamiska utmaningar. Den använder djupa neurala nätverk för att lära sig optimala policyer i dynamiska miljöer som spel.

59
Q

Vad är DeepMind och vilka framsteg har de gjort inom Deep Reinforcement Learning?

A

DeepMind är ett forskningsföretag som har utvecklat banbrytande algoritmer som Deep Q Networks (DQN), Advantage Actor-Critics (A2C/A3C), och AlphaGo-algoritmer. Dessa algoritmer har benchmarkats på Atari-spel och brädspel.

60
Q

Vad är simuleringar och federerad förstärkningsinlärning (RL)?

A

Simuleringar: Används för att träna och testa RL-algoritmer i kontrollerade miljöer.
Federerad förstärkningsinlärning: En metod där flera agenter lär sig och delar sin kunskap utan att dela sina rådata, vilket bevarar dataintegriteten och säkerheten.