5. Grunderna i Maskininlärning - AI II Flashcards

Question 1

Q

Vad är den grundläggande frågan inom maskininlärning?

Answer

A

Förståelsen av balansen mellan generalisering och optimering.

Question 2

Q

Vilka utvärderingsmetoder används för maskininlärningsmodeller?

Answer

A

Olika metoder för att mäta modellens prestanda och generalisering.

Question 3

Q

Vad är bästa praxis för att förbättra modellanpassning?

Answer

A

Tekniker och strategier för att göra modellen mer effektiv vid inlärning.

Question 4

Q

Vad är bästa praxis för att uppnå bättre generalisering?

Answer

A

Metoder för att säkerställa att modellen fungerar bra på ny, osedd data.

Question 5

Q

Vad är skillnaden mellan prediktion och hypotestestning?

Answer

A

Prediktion innebär att använda en modell för att förutsäga framtida data.

Hypotestestning handlar om att analysera om en modell fungerar som förväntat och om dess resultat är statistiskt signifikanta.

Question 6

Q

Vad är optimering i maskininlärning?

Answer

A

Optimering innebär att justera en modell så att den presterar bra på träningsdatan.

Question 7

Q

Vad är generalisering i maskininlärning?

Answer

A

Generalisering handlar om hur bra en modell fungerar på ny, osedd data.

Question 8

Q

Varför kan man inte direkt kontrollera generalisering?

Answer

A

För att en modell lär sig från träningsdata. Om den anpassas för mycket till träningsdatan uppstår överanpassning (overfitting), vilket försämrar generaliseringen.

Question 9

Q

Vad är overfitting (överanpassning)?

Answer

A

När en modell lär sig för mycket detaljer från träningsdatan och inte fungerar bra på ny data.

Question 10

Q

Hur kan vi förbättra en modells generaliseringsförmåga?

Answer

A

Använd mer träningsdata
Reguljärisering (L1/L2)
Tidigare stoppning (early stopping)
Dataaugmentation
Dropout (för neurala nätverk)

Question 11

Q

Vad är ett träningsdataset?

Answer

A

Träningsdatan är den data modellen lär sig ifrån. Modellen använder detta dataset för att justera sina parametrar, alltså sina interna regler, så att den blir bättre på att känna igen mönster.

Exempel: Om vi tränar en modell att känna igen katter och hundar används tusentals bilder av katter och hundar tillsammans med rätt etikett (“katt” eller “hund”). Modellen lär sig att koppla vissa mönster i bilderna till rätt etikett.

Question 12

Q

Vad är ett valideringsdataset?

Answer

A

Valideringsdatan används för att finjustera modellen under träningen. Modellen tränas på träningsdatan, men testas samtidigt på valideringsdatan för att se om den fungerar bra.

Varför behövs detta?
Om modellen presterar dåligt på valideringsdatan kan vi justera hyperparametrar som t.ex. hur snabbt den lär sig eller hur komplex den ska vara.
Det hjälper oss att upptäcka överanpassning (när modellen bara memorerar träningsdata istället för att förstå den).

Exempel: Om vi tränar en bildigenkänningsmodell testar vi den efter varje träningssteg på nya bilder (som inte fanns i träningsdatan) för att se om den fortfarande presterar bra.

Question 13

Q

Vad är ett testdataset?

Answer

A

Testdatan används efter att träningen är klar för att mäta hur bra modellen presterar på helt ny data som den aldrig har sett tidigare.

Varför behövs detta?
Det ger en riktig bild av hur modellen kommer att fungera i verkligheten.
Om modellen fungerar bra på träningsdatan men dåligt på testdatan betyder det att den inte generaliserar bra.

Exempel: Om vi har tränat en modell på katt- och hundbilder, ger vi den helt nya bilder som den aldrig sett förut och ser hur bra den kan avgöra om det är en katt eller en hund.

Question 14

Q

Vad är hyperparametrar i maskininlärning?

Answer

A

Hyperparametrar är inställningar vi väljer innan vi tränar modellen och som påverkar hur den lär sig. De justeras inte automatiskt av modellen, utan vi måste välja dem manuellt.

Exempel på hyperparametrar:
Inlärningstakt (learning rate): Hur snabbt modellen förändrar sina regler när den lär sig.
Antal lager i ett neuralt nätverk: Fler lager gör modellen mer kraftfull men kan också leda till överanpassning.
Batch-storlek: Hur många datapunkter som används i varje träningssteg.

Jämförelse: Tänk på hyperparametrar som receptet för att baka ett bröd – vi måste bestämma ingredienserna och mängderna innan vi börjar baka.

Question 15

Q

Vad är en loss function i maskininlärning?

Answer

A

En loss function mäter hur fel en modell är genom att jämföra dess förutsägelser med de faktiska värdena. Modellen försöker minimera detta fel under träningen.

Exempel:
Mean Squared Error (MSE) – används ofta vid regression för att mäta hur långt förutsägelserna är från de faktiska värdena.

Cross-entropy loss – används vid klassificeringsproblem för att mäta hur bra modellen gissar rätt kategori.

Question 16

Q

Vad visar en loss-kurva i maskininlärning?

Answer

A

En loss-kurva visar hur modellens fel minskar under träningen.

Vad vi vill se:
Träningsförlusten (blå linje) och valideringsförlusten (orange linje) ska båda minska över tid.
Om valideringsförlusten slutar minska eller börjar öka, kan det betyda överanpassning (overfitting).

Question 17

Q

Vad är en accuracy-kurva i maskininlärning?

Answer

A

En accuracy-kurva visar hur modellens noggrannhet förbättras under träningen.

Hur tolkar vi den?
Båda linjerna (träning och validering) ska öka och stabiliseras.
Om träningsnoggrannheten är mycket hög men valideringsnoggrannheten är låg → modellen kan ha överanpassat sig.

Question 18

Q

Vad betyder det att en modell “tränas”?

Answer

A

När en modell tränas betyder det att den justerar sina parametrar för att bli bättre på att göra förutsägelser.

Hur går det till?
Modellen gör en förutsägelse.
Loss function beräknar felet.
Modellen justerar sina parametrar (t.ex. vikter) med en algoritm som gradient descent.
Processen upprepas i flera epochs tills modellen blir bra på att förutsäga rätt.

Question 19

Q

Vad är generaliserbarhet i maskininlärning?

Answer

A

Generaliserbarhet är modellens förmåga att prestera bra på ny, osedd data – alltså inte bara på den data den tränades på.

Exempel:
Om vi tränar en modell att känna igen hundar, och den sedan kan känna igen hundar i nya bilder den aldrig sett förut, då har den bra generalisering.

Question 20

Q

När uppnår en modell god generalisering?

Answer

A

När den effektivt lär sig de verkliga mönstren i datan istället för att bara memorera träningsdatan.

Dålig generalisering: Modellen har bara lärt sig specifika detaljer från träningsdatan och fungerar dåligt på ny data.

Bra generalisering: Modellen har förstått de generella reglerna som gäller för problemet.

Question 21

Q

Hur uppnår man bra generalisering?

Answer

A

Genom att hitta en balans mellan modellens komplexitet och hur mycket data den har tränats på.

Sätt att förbättra generalisering:
Undvik överanpassning (overfitting) – gör modellen varken för simpel eller för avancerad.
Använd tillräckligt med träningsdata – mer data hjälper modellen att förstå verkliga mönster.
Reguljärisering – tekniker som gör modellen mer robust, t.ex. L1/L2-regularisering eller dropout.

Question 22

Q

Vad är optimering i maskininlärning?

Answer

A

Optimering är processen där modellen justerar sina parametrar för att minska fel och göra bättre förutsägelser. Den försöker minimera förlustfunktionen så att den blir mer noggrann.

Exempel:
Om en modell försöker förutsäga huspriser men gör stora fel, kommer optimeringen att justera modellen så att den blir bättre på att förutsäga priser.

Question 23

Q

När sker optimering?

Answer

A

Optimering sker under träningen av modellen. Varje gång modellen tränas och ser ny data uppdateras dess parametrar för att förbättra noggrannheten.

Exempel:
En modell tränas på tusentals bilder av hundar och katter. Efter varje omgång justeras dess parametrar för att bli bättre på att känna igen djuren.

Question 24

Q

Hur fungerar optimering i maskininlärning?

Answer

A

Modellen uppdaterar sina parametrar stegvis genom att använda en optimeringsalgoritm. Det sker iterativt tills modellen når en bra balans mellan fel och prestanda.

Vanliga optimeringsmetoder:
Gradient Descent – en algoritm som stegvis minskar felet.
Adam Optimizer – en mer avancerad variant av Gradient Descent som justerar inlärningstakten automatiskt.

Question 25

Q

Vad är overfitting (överanpassning)?

Answer

A

Overfitting sker när en modell lär sig för mycket detaljer och även memoriserar brus och irrelevanta mönster i träningsdatan. Det gör att den presterar bra på träningsdatan men dåligt på ny data.

Exempel:
En bildklassificeringsmodell tränas på hundar, men eftersom träningsdatan råkar ha många bilder av hundar på gräs, lär den sig att gräs betyder “hund”. När den testas på en hund på asfalt misslyckas den.

Question 26

Q

När inträffar overfitting?

Answer

A

När modellen är för komplex jämfört med mängden träningsdata, vilket gör att den börjar memorera istället för att förstå verkliga mönster.

Tecken på overfitting:
Modellens noggrannhet är hög på träningsdatan men låg på testdatan.
Träningsfelet minskar, men valideringsfelet slutar förbättras eller ökar.

Question 27

Q

Varför/hur inträffar overfitting?

Answer

A

Modellen anpassar sig för mycket till träningsdatan och fångar även irrelevanta detaljer som inte hjälper den att förstå verkliga samband.

Orsaker till overfitting:
För komplex modell (för många parametrar/lager).
För lite träningsdata, så modellen lär sig slumpmässiga detaljer istället för generella mönster.
För lång träningstid, så modellen finjusteras för mycket efter träningsdatan.

Question 28

Q

Vad är underfitting (underanpassning)?

Answer

A

Underfitting sker när en modell är för enkel och inte lär sig mönstren i datan ordentligt. Den blir då dålig på att göra förutsägelser både på träningsdata och ny data.

Exempel:
Om vi tränar en bildigenkänningsmodell men den bara använder färg för att identifiera objekt, misslyckas den när bilderna har annan belysning eller färg.

Question 29

Q

När inträffar underfitting?

Answer

A

När modellen inte är tillräckligt komplex eller har få träningssteg, vilket gör att den inte kan hitta viktiga mönster i datan.

Tecken på underfitting:
Låg noggrannhet både på träningsdata och testdata.
Modellen lär sig långsamt eller gör stora fel även på enkla exempel.

Question 30

Q

Varför/hur inträffar underfitting?

Answer

A

Underfitting händer när modellen inte “lärt sig” tillräckligt mycket från träningsdatan. Detta kan bero på:

Orsaker till underfitting:
Modellen är för enkel (exempelvis ett litet neuralt nätverk för ett komplext problem).
För få träningssteg – modellen har inte haft tid att lära sig.
För lite data eller brusig data, vilket gör det svårt att hitta verkliga mönster.

Question 31

Q

Vad är balansen mellan overfitting och underfitting?

Answer

A

Det är den optimala punkten där en modell har lärt sig tillräckligt från träningsdatan utan att bli för specialiserad på den.

Tre möjliga scenarier:

Underfitting – Modellen är för simpel och lär sig inte tillräckligt.
Bra anpassning (Robust fit) – Modellen har en bra balans mellan inlärning och generalisering.
Overfitting – Modellen är för komplex och lär sig även irrelevanta detaljer.

Exempel:
Om en modell förutspår huspriser och är underfitted, tar den knappt hänsyn till viktiga faktorer som storlek och läge. Om den är overfitted, lär den sig slumpmässiga mönster som inte är användbara på nya hus.

Question 32

Q

Hur ser vi balansen mellan underfitting och overfitting i en graf?

Answer

A

Underfitting (vänster på grafen): Både tränings- och valideringsförlusten är hög → modellen har inte lärt sig bra.

Robust fit (mitten på grafen): Valideringsförlusten är låg, och träningsförlusten är inte extremt låg → bra generalisering.

Overfitting (höger på grafen): Träningsförlusten är extremt låg, men valideringsförlusten ökar → modellen har memorerat träningsdatan men fungerar dåligt på ny data.

Question 33

Q

Varför sker overfitting?

Answer

A

Overfitting sker när en modell optimeras för mycket på träningsdatan och börjar memorera unika detaljer istället för att förstå generella mönster.

Tecken på overfitting:
Modellen presterar perfekt på träningsdata, men dåligt på testdata.
Den har lärt sig detaljer som bara finns i träningsdatan, men som inte hjälper den att förstå ny data.

Exempel:
Om en modell ska känna igen katter, men råkar lära sig att alla kattbilder i träningsdatan har blå bakgrund, kommer den ha svårt att känna igen katter på en röd bakgrund.

Question 34

Q

Hur undviker man overfitting?

Answer

A

Använd mer data → modellen lär sig bredare mönster.

Reguljärisering (t.ex. dropout, L1/L2) → förhindrar modellen från att bli för detaljerad.

Tidigare stoppning (early stopping) → stoppa träningen innan modellen börjar memorera detaljer.

Dataaugmentation → skapa fler varianter av träningsdatan för att göra modellen mer robust.

Question 35

Q

Vad visar bilden med de svarta och vita punkterna?

Answer

A

Den visar skillnaden mellan en bra modell (som generaliserar) och en överanpassad modell (som bara fungerar på träningsdata).

En bra modell (grön linje):

Hittar en logisk och enkel gräns mellan klasserna.
Fungerar bra på både tränings- och testdata.

En overfitted modell (röd linje):

Hittar för detaljerade mönster i träningsdatan.
Fungerar dåligt på ny, osedd data eftersom den har memorerat istället för att förstå.

Question 36

Q

Vad är “noise” (brus) i data?

Answer

A

Brus är irrelevanta eller slumpmässiga variationer i data som kan göra det svårare för en modell att hitta de verkliga mönstren.

Exempel på brus i olika typer av data:
Bilddata: Små störningar som ljusförändringar, rotationer eller slumpmässiga pixlar (t.ex. “salt & peppar-brus”).
Ljuddata: Bakgrundsljud som stör röstigenkänning.
Textdata: Stavfel eller slumpmässiga ord som inte påverkar meningen.

Question 37

Q

Är brus i data bra eller dåligt?

Answer

A

Bra om det är representativt:
Kan hjälpa en modell att bli mer robust och bättre på att generalisera.
Exempel: Att lägga till variationer som ljusförändringar i bilddata gör modellen bättre på att känna igen objekt i olika ljusförhållanden.

Dåligt om det inte är relevant:
Kan förvirra modellen och göra det svårt att hitta rätt mönster.
Exempel: Om data innehåller slumpmässiga fel kan modellen lära sig dessa istället för de verkliga sambanden.

Question 38

Q

Hur kan man använda brus för att förbättra en modell?

Answer

A

Att lägga till kontrollerat brus (mer varians) i träningsdata kan hjälpa en modell att bli mer generaliserbar.

Tekniker för att lägga till brus:
Dataaugmentation – lägga till små variationer i träningsdata (t.ex. rotera bilder eller ändra ljusstyrka).
Dropout i neurala nätverk – slumpmässigt ta bort vissa neuroner under träningen för att göra modellen mer robust.
Justering av träningsdata – t.ex. genom att lägga till syntetiskt brus i ljudfiler för att förbättra taligenkänning.

Question 39

Q

Vad är manifold-hypotesen?

Answer

A

Manifold-hypotesen säger att all naturlig data (bilder, text, ljud) finns på en låg-dimensionell yta (manifold) inom det högdimensionella utrymme där den lagras.

Vad betyder det?
Även om data kan lagras i många dimensioner, finns den oftast på en mycket mindre underliggande struktur.
En maskininlärningsmodell behöver bara lära sig den relevanta ytan, inte hela det högdimensionella rummet.

Exempel:
Bilder av ansikten kan lagras i miljontals pixlar, men variationer mellan ansikten följer en enkel underliggande struktur (t.ex. ögonens position, huvudets lutning, ljussättning).

Question 40

Q

Vad innebär manifold-hypotesen för maskininlärning?

Answer

A

Maskininlärningsmodeller behöver inte förstå allt – bara de viktiga mönstren i datan.
Latent manifolds – modeller lär sig en intern representation av data på en enklare yta.
Smidig interpolation – man kan skapa en jämn övergång mellan olika indata, och alla punkter på vägen ligger fortfarande på manifolden.

Exempel:
I bildgenerering (som GANs) kan man röra sig mellan två ansikten i latentutrymmet, och varje mellanbild är fortfarande ett realistiskt ansikte.

Question 41

Q

Vad visar bilden på den andra sliden?

Answer

A

Bilden visar ett exempel på manifold-hypotesen, där data ligger på en lågdimensionell yta i ett högdimensionellt utrymme.

Vad betyder detta?
Data verkar ligga som en böjd yta (manifold) i ett större 3D-utrymme.
Inlärning handlar om att förstå denna underliggande yta, istället för att hantera hela det högdimensionella rummet.

Varför är detta viktigt?
Modeller kan generalisera bättre genom att förstå manifolden istället för att memorera specifika punkter.
Tekniker som autoencoders och GANs bygger på att hitta och använda denna underliggande struktur.

Question 42

Q

Vad är interpolering i maskininlärning?

Answer

A

Interpolering innebär att skapa en jämn övergång mellan två datapunkter i ett latentutrymme, så att varje mellanliggande punkt också tillhör samma datafördelning.

Exempel:
I en bildgenereringsmodell (t.ex. GANs) kan man interpolera mellan två ansikten och skapa nya, realistiska mellanbilder.
I textgenerering kan en modell skapa en jämn övergång mellan två meningar.

Question 43

Q

Vad visar bilden på den första sliden?

Answer

A

Den visar skillnaden mellan gles sampling (sparse sampling) och tät sampling (dense sampling) i latentutrymmet.

Vad betyder det?
Gles sampling (vänster) → Modellen har lärt sig för få punkter och interpoleringen blir felaktig.
Tät sampling (höger) → Modellen har lärt sig en bra approximation av latentutrymmet, vilket leder till bättre interpolering och generalisering.

Varför är detta viktigt?
Om en modell har för få träningspunkter, kan den göra fel när den försöker skapa nya datapunkter mellan dem.
En bra täckning av latentutrymmet gör modellen mer robust och generaliserbar.

Question 44

Q

Vad visar bilden med fjärilar?

Answer

A

Den visar en visualisering av latentutrymmet där liknande datapunkter (fjärilar med samma egenskaper) ligger nära varandra.

Vad betyder detta?
Fjärilarna är grupperade efter liknande färger och former, vilket visar att modellen har förstått mönster i datan.
Det visar hur en modell kan organisera data i ett låg-dimensionellt utrymme (manifold).

Varför är detta viktigt?
En bra representation av data i latentutrymmet gör att modellen kan interpolera och skapa nya, meningsfulla exempel.
Detta används i deep learning för generativa modeller, bildkompression, och klusteranalys.

Question 45

Q

Vad är skillnaden mellan tränings-, validerings- och testdataset?

Answer

A

Träningsdataset → Används för att lära modellen genom att justera dess parametrar.

Valideringsdataset → Används för att justera hyperparametrar och övervaka modellens prestanda under träningen.

Testdataset → Används för att utvärdera modellens förmåga att generalisera på helt ny, osedd data.

Sammanfattning:
Träningsdatan lär modellen.
Valideringsdatan hjälper till att finjustera den.
Testdatan avgör om den faktiskt fungerar på ny data.

Question 46

Q

Vad är holdout validation?

Answer

A

Holdout validation innebär att man delar upp datan i två delar:

Träningsdataset (ofta 80%) – används för att lära modellen.
Validerings-/testdataset (ofta 20%) – används för att utvärdera modellen.

Fördelar:
Enkel att implementera.
Fungerar bra när man har mycket data.

Nackdelar:
Om datasetet är litet kan resultatet variera mycket beroende på hur datan delas upp.

Question 47

Q

Vad är K-fold cross-validation?

Answer

A

K-fold cross-validation innebär att hela datasetet används för både träning och validering genom att dela in det i flera delar (folds).

Hur fungerar det?
Datasetet delas upp i K delar (t.ex. 5 eller 10).
Modellen tränas på K-1 delar och testas på den sista delen.
Processen upprepas K gånger, så att varje del används som validering en gång.
Det slutliga resultatet är medelvärdet av alla valideringsresultat.

Fördelar:
Ger bättre uppskattning av modellens prestanda eftersom den testas på flera olika datasetuppdelningar.
Minskar risken att råka använda en dålig datasetuppdelning.

Nackdelar:
Kräver mer beräkningstid eftersom modellen tränas flera gånger.

Question 48

Q

När ska man använda holdout validation vs. K-fold cross-validation?

Answer

A

Holdout validation → Bra om datasetet är stort och man vill ha en snabb utvärdering.

K-fold cross-validation → Bättre för mindre dataset där varje datapunkt är viktig och man vill undvika slumpmässiga variationer.

Question 49

Q

Vad innebär representerbarhet vid modellutvärdering?

Answer

A

Representerbarhet betyder att träningsdatan måste återspegla verkliga scenarion för att modellen ska fungera korrekt på ny data.

Exempel:
Om en bildigenkänningsmodell bara tränas på röda bilar, kanske den har svårt att känna igen blå eller vita bilar.
En sjukdomsdetekteringsmodell som bara tränas på unga patienter kanske inte fungerar lika bra på äldre patienter.

Varför är detta viktigt?
Om datan inte är representativ riskerar modellen att prestera dåligt på verkliga problem.

Question 50

Q

Varför är tidsaspekter viktiga vid modellutvärdering?

Answer

A

Datan kan förändras över tid, vilket kan göra att en modell blir irrelevant om den tränas på gammal information.

Exempel:
En modell som förutspår bostadspriser tränad på data från 2010 kanske inte fungerar bra 2025, eftersom marknaden har förändrats.
En spamfilter-modell från 2018 kanske inte känner igen de senaste phishing-metoderna som används 2025.

Lösning:
Använd färsk data när det är möjligt.
Periodisk omträning av modellen för att hålla den uppdaterad.

Question 51

Q

Hur påverkar duplicering (överflödlighet) modellutvärdering?

Answer

A

Om datasetet innehåller dubbletter, kan modellen lättare memorera istället för att lära sig generella mönster, vilket ger en falskt hög prestanda.

Exempel:
Om samma bild förekommer flera gånger i träningsdatan, kan modellen verka bättre än den egentligen är.
Om en textklassificeringsmodell har många identiska meningar i träningen, riskerar den att överanpassa sig till dessa.

Lösning:
Använd duplicate removal-tekniker, t.ex. dhash för att hitta liknande bilder.
Filtrera bort identiska eller nästan identiska datapunkter för att förbättra modellens generaliseringsförmåga.

Question 52

Q

Hur påverkar learning rate modellens träning?

Answer

A

Learning rate bestämmer hur stora steg modellen tar när den uppdaterar sina vikter.

Vad händer vid olika learning rates?

För hög learning rate → Modellen hoppar över optimala lösningar och blir instabil.
För låg learning rate → Träningen går långsamt och modellen kan fastna i lokala minima.
Bra learning rate → Snabb och stabil konvergens mot en bra lösning.

Lösning:
Testa olika learning rates med learning rate scheduling (att minska den under träningen).
Använd tekniker som Adam-optimizer, som automatiskt justerar stegen.

Question 53

Q

Vad innebär finjustering av en maskininlärningsmodell?

Answer

A

Finjustering innebär att optimera modellens prestanda genom att justera olika hyperparametrar och använda bättre träningsdata.

Exempel på finjustering:
Använda bättre datapunkter → Fokusera på kvalitetsdata istället för kvantitet.
Öka modellkapaciteten → Lägg till fler lager/neuron om modellen är för enkel.
Justera optimizer → Välja en bättre algoritm för att justera modellens vikter.
Ändra batchstorlek → Större batchar kan ge snabbare träning, men mindre batchar kan ge bättre generalisering.

Question 54

Q

Hur påverkar batchstorlek modellens inlärning?

Answer

A

Batchstorleken bestämmer hur många datapunkter som bearbetas innan modellens vikter uppdateras.

Olika batchstorlekar:
Stor batchstorlek (t.ex. 128+) → Snabbare träning, men risk för dålig generalisering.
Liten batchstorlek (t.ex. 16-32) → Långsammare träning, men modellen blir mer robust och generaliserar bättre.

Lösning:
Testa mini-batch gradient descent (kombination av stora och små batchar).
Anpassa batchstorleken efter datasetets storlek och tillgänglig beräkningskraft.

Question 55

Q

Vad är Gradient Descent (GD) och hur fungerar det?

Answer

A

Gradient Descent är en optimeringsalgoritm som justerar modellens parametrar för att minimera förlusten genom att beräkna gradienten av förlustfunktionen.

Hur fungerar det?
Modellen beräknar gradienten (lutningen) av förlustfunktionen.
Vikterna uppdateras stegvis i riktning mot det globala minimumet.
Processen upprepas tills modellen når en optimal lösning.

Problem:
Kräver hela datasetet för varje uppdatering → långsamt på stora dataset.
Kan fastna i lokala minima.

Question 56

Q

Hur skiljer sig Stochastic Gradient Descent (SGD) från vanlig Gradient Descent?

Answer

A

SGD är en snabbare variant av Gradient Descent som uppdaterar vikterna efter varje datapunkt istället för att använda hela datasetet.

Fördelar:
Snabbare på stora dataset.
Kan hoppa ur lokala minima och hitta bättre lösningar.

Nackdelar:
Kan vara bullrig (osäkra uppdateringar).
Tar ojämna steg mot lösningen.

Lösning:
Mini-batch SGD → Kombination av vanliga GD och SGD för stabilitet och hastighet.
Momentum → Hjälper till att jämna ut stegen.

Question 57

Q

Vad är ADAM (Adaptive Moment Estimation) och varför används den?

Answer

A

ADAM är en avancerad optimeringsalgoritm som kombinerar momentum och anpassad learning rate för att förbättra konvergens och stabilitet.

Varför ADAM?
Snabbare konvergens än GD/SGD.
Anpassar steglängden för varje parameter dynamiskt.
Robust vid träning av djupa nätverk.

Nyckelparametrar:
Momentum (Beta1/Beta2) → Styr hur mycket tidigare gradienter påverkar uppdateringar.
Weight Decay → Förhindrar överfitting genom att straffa stora vikter.
Epsilon → Förhindrar division med noll.

När ska ADAM användas?
För icke-stationära problem där gradienterna förändras snabbt.
När snabb konvergens och stabilitet behövs.

Question 58

Q

Gradient Descent vs Stochastic Gradient Descent?

Answer

A

Gradient Descent (GD): En optimeringsalgoritm som uppdaterar modellens parametrar genom att beräkna gradienten av förlustfunktionen över hela träningsdatan. Det är stabilt men långsamt.

Stochastic Gradient Descent (SGD): En variant av gradientnedstigning som uppdaterar parametrarna baserat på gradienten från enskilda eller små batchar av träningsdata. Det gör träningen snabbare men bullrigare.

Bild: Jämförelse mellan SGD och GD - SGD gör snabba, hoppiga uppdateringar medan GD tar jämna steg mot minimipunkten.

Question 59

Q

Hyperparametrar vid optimering?

Answer

A

Learning Rate – Bestämmer steglängden vid uppdatering av parametrar. För hög riskerar instabilitet, för låg gör inlärningen långsam.
Batch Size – Påverkar stabilitet och hastighet; större batcher ger stabilare gradienter.
Momentum – Bevarar tidigare gradientinformation, typiskt värde mellan 0.8–0.99.
Beta1/Beta2 (ADAM) – Kontrollerar momentum och varians, används för stabilare inlärning.
Weight Decay – Regularisering för att motverka överfitting.
Epsilon (ADAM) – Förhindrar division med noll, vanligtvis satt till 1e−7

Bild: Visar hur gradient descent kan fastna i ett lokalt minimum och hur momentum hjälper modellen att hitta det globala minimumet.

Question 60

Q

Vad är en batch i maskininlärning?

Answer

A

En batch är en mindre uppsättning data från datasetet som används under träningen av en modell.

Question 61

Q

Vad avgör batch size?

Answer

A

Batch size avgör hur många prover som matas in i modellen samtidigt under en enda träningsiteration.

Question 62

Q

Vad är skillnaden mellan en iteration och en epoch?

Answer

A

Iteration: En genomgång av en enda batch genom modellen.
Epoch: En fullständig genomgång av hela datasetet genom modellen.

Question 63

Q

Hur påverkar batch size träningsresultatet?

Answer

A

Liten batch size: Kan orsaka underfitting men förbättra generalisering.
Optimerad batch size: Balanserar inlärning och generalisering.
Stor batch size: Kan leda till overfitting och dålig generalisering.

Question 64

Q

Hur kan learning rate justeras vid förändring av batch size?

Answer

A

NewLearningRate

Om batch size minskas bör även learning rate minskas enligt formeln:

OldLearningRate
×
NewBatchSize
OldBatchSize

Answer 65

A

En liten batch size leder till en mer skakig optimeringsbana, vilket kan hjälpa modellen att undvika lokala minima men också göra träningen långsammare.

Answer 66

A

En stor batch size kan resultera i att modellen fastnar i skarpa minima och generaliserar sämre.

Answer 67

A

En balanserad batch size möjliggör en stabil träningsbana och effektiv konvergens mot ett bra minimum.

Answer 68

A

Samla in och använd mer data.

Answer 69

A

Förenkla modellen (eller testa en mer komplex modell vid behov).

Justera batch size och learning rate.

Answer 70

A

Lägga till mer data.
Generera syntetisk data.
Introducera noise.
Rotera och transformera data.

Answer 71

A

Testdata innehåller ny data som inte använts i träning/optimering av modellen och bör representera samma typ av data som modellen kommer att användas för.

Answer 72

A

För liten batch size kan förbättra generalisering men göra träningen långsammare, medan för stor batch size kan minska generaliseringsförmågan och leda till överträning.

Answer 73

A

Att maskininlärning kräver systematisk experimentering och justering av hyperparametrar för att förbättra modellens prestanda.

Answer 74

A

De illustrerar olika experiment med varierande hyperparametrar, vilket påverkar träningsförlust och valideringsförlust.

Answer 75

A

För att identifiera överträning, underträning och optimala hyperparametrar som ger bäst generalisering.

Answer 76

A

Att modellen överanpassar sig till träningsdata och har låg generaliseringsförmåga.

Answer 77

A

Träningsförlust (blå linje) minskar något men förblir låg.
Valideringsförlust (orange linje) är konstant hög och minskar knappt.

Tolkning:
Underfitting – modellen lär sig inte tillräckligt från datan.
Möjliga orsaker:
Modellen är för enkel och saknar kapacitet.
För låg learning rate, vilket gör inlärningen långsam.
För lite data eller brist på variation i datasetet.
Möjliga lösningar:

Öka modellens komplexitet.
Öka learning rate.
Samla in mer och mer varierad träningsdata.

Answer 78

A

Att analysera inlärningskurvor för att förstå hur en maskininlärningsmodell presterar och identifiera problem som överträning, underträning eller dålig konvergens.

Answer 79

A

Både träningsförlust (blå linje) och valideringsförlust (orange linje) minskar gradvis.
Kurvorna är parallella och närmar sig varandra vid slutet av träningen.

Tolkning:
Modellen tränar stabilt och generaliserar bra.
Ingen tydlig överträning eller underträning.
Möjligtvis kan fler epochs hjälpa till att förbättra modellen ytterligare.

Answer 80

A

Träningsförlust (blå linje) och valideringsförlust (orange linje) minskar snabbt i början.
Efter en viss punkt planar båda ut och blir relativt stabila.
Valideringsförlusten är något högre än träningsförlusten men följer en liknande trend.

Tolkning:
Bra generalisering – modellen tränar effektivt och har en bra balans mellan träning och validering.
Inga tydliga tecken på överträning eller underträning.
Modellen kan eventuellt förbättras ytterligare genom finjustering av hyperparametrar, men den är redan i ett bra läge.

Answer 81

A

Träningsförlust (blå linje) minskar snabbt i början men planar sedan ut.
Valideringsförlust (orange linje) är mycket lägre än träningsförlusten och förblir stabil.

Tolkning:
Överträning (overfitting) – modellen presterar bra på träningsdatan men har svårt att generalisera till ny data.
Valideringsförlusten är låg men kan tyda på att modellen har lärt sig specifika mönster i träningsdatan snarare än att generalisera.
Möjliga lösningar:

Använd regularisering (Dropout, L2) för att minska överträning.
Samla in mer varierad träningsdata.
Tidig stoppning för att förhindra att modellen överanpassar sig.

Answer 82

A

Träningsförlust (blå linje) minskar och stabiliseras.
Valideringsförlust (orange linje) är mycket instabil och fluktuerar kraftigt.
Tolkning:

Instabil träning, vilket kan bero på:
För hög learning rate, vilket gör att modellen hoppar runt och inte konvergerar ordentligt.
För liten batch size, vilket orsakar hög varians i uppdateringarna.
Brist på generaliseringsförmåga i modellen.

Möjliga lösningar:
Minska learning rate för att få stabilare inlärning.
Öka batch size för att jämna ut gradientuppdateringarna.
Använd regularisering (Dropout, L2) för att minska överträning och förbättra stabiliteten.

Answer 83

A

Träningsförlust (blå linje) minskar kontinuerligt och stabiliseras på en låg nivå.
Valideringsförlust (orange linje) minskar i början men börjar sedan öka och stabiliseras på en högre nivå än träningsförlusten.

Tolkning:
Överträning (overfitting) – modellen lär sig träningsdatan väl men presterar sämre på valideringsdata.
Valideringsförlusten ökar efter en viss punkt, vilket indikerar att modellen börjar memorera träningsdata istället för att generalisera.

Möjliga lösningar:
Tidig stoppning (early stopping) för att avbryta träningen innan valideringsförlusten börjar öka.
Använd regulariseringstekniker som Dropout eller L2-norm för att minska överträning.
Öka mängden träningsdata för att förbättra generaliseringsförmågan.

Answer 84

A

Underfitting (vänster sida): Modellen har hög förlust på både tränings- och valideringsdata eftersom den inte har lärt sig tillräckligt.
Robust fit (mitten): Optimal balans där både tränings- och valideringsförlust är låg, vilket betyder att modellen generaliserar bra.
Overfitting (höger sida): Träningsförlusten är mycket låg medan valideringsförlusten ökar, vilket betyder att modellen har överanpassat sig till träningsdata och presterar dåligt på ny data.

Slutsats:
Målet är att hitta en robust fit, där modellen har låg förlust både på tränings- och valideringsdata utan att överanpassa sig.
Detta kan uppnås genom att justera modellens kapacitet, regularisering och träningsstrategier.

Answer 85

A

Overfitting och underfitting – Balansen mellan att överanpassa eller lära sig för lite från data.
Optimering – Justering av modellens parametrar för att minimera förlust.
Generaliserbarhet – Modellens förmåga att prestera bra på ny, osedd data.
Train, test, och validation dataset – Hur data delas upp för att träna och utvärdera modellen.

Answer 86

A

Modellkomplexitet – Hur avancerad en modell är och dess kapacitet att fånga mönster.
Optimeringsmetod – Algoritmer som används för att uppdatera modellens parametrar (ex. SGD, Adam).
Loss function – Funktion som mäter hur bra en modell presterar genom att beräkna fel.

Answer 87

A

Att hitta en balans där modellen lär sig tillräckligt från träningsdatan för att förstå mönster, men inte så mycket att den överanpassar sig och presterar dåligt på ny data.

Answer 88

A

För att modellen ska kunna lära sig rätt mönster och generalisera till ny data. Träningen bör övervakas noggrant genom analys av inlärningskurvor.

Answer 89

A

Train dataset: Används för att träna modellen.
Validation dataset: Används för att finjustera hyperparametrar och upptäcka overfitting.
Test dataset: Används för att utvärdera modellens slutliga prestanda på ny, osedd data.

Answer 90

A

Modellen bör vara tillräckligt stor/djup för att fånga mönster i data.
Den får dock inte vara för stor, då den riskerar att memorera träningsdata och överträna.

Answer 91

A

Enligt manifoldhypotesen kan datapunkter uttryckas längs en relativt enkel, välstrukturerad yta i modellens inre representationsutrymme. Detta innebär att modellen interpolerar mellan kända datapunkter för att göra förutsägelser.