5. Grunderna i Maskininlärning - AI II Flashcards

1
Q

Vad är den grundläggande frågan inom maskininlärning?

A

Förståelsen av balansen mellan generalisering och optimering.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vilka utvärderingsmetoder används för maskininlärningsmodeller?

A

Olika metoder för att mäta modellens prestanda och generalisering.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vad är bästa praxis för att förbättra modellanpassning?

A

Tekniker och strategier för att göra modellen mer effektiv vid inlärning.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vad är bästa praxis för att uppnå bättre generalisering?

A

Metoder för att säkerställa att modellen fungerar bra på ny, osedd data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Vad är skillnaden mellan prediktion och hypotestestning?

A

Prediktion innebär att använda en modell för att förutsäga framtida data.

Hypotestestning handlar om att analysera om en modell fungerar som förväntat och om dess resultat är statistiskt signifikanta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vad är optimering i maskininlärning?

A

Optimering innebär att justera en modell så att den presterar bra på träningsdatan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Vad är generalisering i maskininlärning?

A

Generalisering handlar om hur bra en modell fungerar på ny, osedd data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Varför kan man inte direkt kontrollera generalisering?

A

För att en modell lär sig från träningsdata. Om den anpassas för mycket till träningsdatan uppstår överanpassning (overfitting), vilket försämrar generaliseringen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vad är overfitting (överanpassning)?

A

När en modell lär sig för mycket detaljer från träningsdatan och inte fungerar bra på ny data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hur kan vi förbättra en modells generaliseringsförmåga?

A

Använd mer träningsdata
Reguljärisering (L1/L2)
Tidigare stoppning (early stopping)
Dataaugmentation
Dropout (för neurala nätverk)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Vad är ett träningsdataset?

A

Träningsdatan är den data modellen lär sig ifrån. Modellen använder detta dataset för att justera sina parametrar, alltså sina interna regler, så att den blir bättre på att känna igen mönster.

Exempel: Om vi tränar en modell att känna igen katter och hundar används tusentals bilder av katter och hundar tillsammans med rätt etikett (“katt” eller “hund”). Modellen lär sig att koppla vissa mönster i bilderna till rätt etikett.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vad är ett valideringsdataset?

A

Valideringsdatan används för att finjustera modellen under träningen. Modellen tränas på träningsdatan, men testas samtidigt på valideringsdatan för att se om den fungerar bra.

Varför behövs detta?
Om modellen presterar dåligt på valideringsdatan kan vi justera hyperparametrar som t.ex. hur snabbt den lär sig eller hur komplex den ska vara.
Det hjälper oss att upptäcka överanpassning (när modellen bara memorerar träningsdata istället för att förstå den).

Exempel: Om vi tränar en bildigenkänningsmodell testar vi den efter varje träningssteg på nya bilder (som inte fanns i träningsdatan) för att se om den fortfarande presterar bra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vad är ett testdataset?

A

Testdatan används efter att träningen är klar för att mäta hur bra modellen presterar på helt ny data som den aldrig har sett tidigare.

Varför behövs detta?
Det ger en riktig bild av hur modellen kommer att fungera i verkligheten.
Om modellen fungerar bra på träningsdatan men dåligt på testdatan betyder det att den inte generaliserar bra.

Exempel: Om vi har tränat en modell på katt- och hundbilder, ger vi den helt nya bilder som den aldrig sett förut och ser hur bra den kan avgöra om det är en katt eller en hund.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vad är hyperparametrar i maskininlärning?

A

Hyperparametrar är inställningar vi väljer innan vi tränar modellen och som påverkar hur den lär sig. De justeras inte automatiskt av modellen, utan vi måste välja dem manuellt.

Exempel på hyperparametrar:
Inlärningstakt (learning rate): Hur snabbt modellen förändrar sina regler när den lär sig.
Antal lager i ett neuralt nätverk: Fler lager gör modellen mer kraftfull men kan också leda till överanpassning.
Batch-storlek: Hur många datapunkter som används i varje träningssteg.

Jämförelse: Tänk på hyperparametrar som receptet för att baka ett bröd – vi måste bestämma ingredienserna och mängderna innan vi börjar baka.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Vad är en loss function i maskininlärning?

A

En loss function mäter hur fel en modell är genom att jämföra dess förutsägelser med de faktiska värdena. Modellen försöker minimera detta fel under träningen.

Exempel:
Mean Squared Error (MSE) – används ofta vid regression för att mäta hur långt förutsägelserna är från de faktiska värdena.

Cross-entropy loss – används vid klassificeringsproblem för att mäta hur bra modellen gissar rätt kategori.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Vad visar en loss-kurva i maskininlärning?

A

En loss-kurva visar hur modellens fel minskar under träningen.

Vad vi vill se:
Träningsförlusten (blå linje) och valideringsförlusten (orange linje) ska båda minska över tid.
Om valideringsförlusten slutar minska eller börjar öka, kan det betyda överanpassning (overfitting).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Vad är en accuracy-kurva i maskininlärning?

A

En accuracy-kurva visar hur modellens noggrannhet förbättras under träningen.

Hur tolkar vi den?
Båda linjerna (träning och validering) ska öka och stabiliseras.
Om träningsnoggrannheten är mycket hög men valideringsnoggrannheten är låg → modellen kan ha överanpassat sig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Vad betyder det att en modell “tränas”?

A

När en modell tränas betyder det att den justerar sina parametrar för att bli bättre på att göra förutsägelser.

Hur går det till?
Modellen gör en förutsägelse.
Loss function beräknar felet.
Modellen justerar sina parametrar (t.ex. vikter) med en algoritm som gradient descent.
Processen upprepas i flera epochs tills modellen blir bra på att förutsäga rätt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Vad är generaliserbarhet i maskininlärning?

A

Generaliserbarhet är modellens förmåga att prestera bra på ny, osedd data – alltså inte bara på den data den tränades på.

Exempel:
Om vi tränar en modell att känna igen hundar, och den sedan kan känna igen hundar i nya bilder den aldrig sett förut, då har den bra generalisering.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

När uppnår en modell god generalisering?

A

När den effektivt lär sig de verkliga mönstren i datan istället för att bara memorera träningsdatan.

Dålig generalisering: Modellen har bara lärt sig specifika detaljer från träningsdatan och fungerar dåligt på ny data.

Bra generalisering: Modellen har förstått de generella reglerna som gäller för problemet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hur uppnår man bra generalisering?

A

Genom att hitta en balans mellan modellens komplexitet och hur mycket data den har tränats på.

Sätt att förbättra generalisering:
Undvik överanpassning (overfitting) – gör modellen varken för simpel eller för avancerad.
Använd tillräckligt med träningsdata – mer data hjälper modellen att förstå verkliga mönster.
Reguljärisering – tekniker som gör modellen mer robust, t.ex. L1/L2-regularisering eller dropout.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Vad är optimering i maskininlärning?

A

Optimering är processen där modellen justerar sina parametrar för att minska fel och göra bättre förutsägelser. Den försöker minimera förlustfunktionen så att den blir mer noggrann.

Exempel:
Om en modell försöker förutsäga huspriser men gör stora fel, kommer optimeringen att justera modellen så att den blir bättre på att förutsäga priser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

När sker optimering?

A

Optimering sker under träningen av modellen. Varje gång modellen tränas och ser ny data uppdateras dess parametrar för att förbättra noggrannheten.

Exempel:
En modell tränas på tusentals bilder av hundar och katter. Efter varje omgång justeras dess parametrar för att bli bättre på att känna igen djuren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Hur fungerar optimering i maskininlärning?

A

Modellen uppdaterar sina parametrar stegvis genom att använda en optimeringsalgoritm. Det sker iterativt tills modellen når en bra balans mellan fel och prestanda.

Vanliga optimeringsmetoder:
Gradient Descent – en algoritm som stegvis minskar felet.
Adam Optimizer – en mer avancerad variant av Gradient Descent som justerar inlärningstakten automatiskt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Vad är overfitting (överanpassning)?

A

Overfitting sker när en modell lär sig för mycket detaljer och även memoriserar brus och irrelevanta mönster i träningsdatan. Det gör att den presterar bra på träningsdatan men dåligt på ny data.

Exempel:
En bildklassificeringsmodell tränas på hundar, men eftersom träningsdatan råkar ha många bilder av hundar på gräs, lär den sig att gräs betyder “hund”. När den testas på en hund på asfalt misslyckas den.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

När inträffar overfitting?

A

När modellen är för komplex jämfört med mängden träningsdata, vilket gör att den börjar memorera istället för att förstå verkliga mönster.

Tecken på overfitting:
Modellens noggrannhet är hög på träningsdatan men låg på testdatan.
Träningsfelet minskar, men valideringsfelet slutar förbättras eller ökar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Varför/hur inträffar overfitting?

A

Modellen anpassar sig för mycket till träningsdatan och fångar även irrelevanta detaljer som inte hjälper den att förstå verkliga samband.

Orsaker till overfitting:
För komplex modell (för många parametrar/lager).
För lite träningsdata, så modellen lär sig slumpmässiga detaljer istället för generella mönster.
För lång träningstid, så modellen finjusteras för mycket efter träningsdatan.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Vad är underfitting (underanpassning)?

A

Underfitting sker när en modell är för enkel och inte lär sig mönstren i datan ordentligt. Den blir då dålig på att göra förutsägelser både på träningsdata och ny data.

Exempel:
Om vi tränar en bildigenkänningsmodell men den bara använder färg för att identifiera objekt, misslyckas den när bilderna har annan belysning eller färg.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

När inträffar underfitting?

A

När modellen inte är tillräckligt komplex eller har få träningssteg, vilket gör att den inte kan hitta viktiga mönster i datan.

Tecken på underfitting:
Låg noggrannhet både på träningsdata och testdata.
Modellen lär sig långsamt eller gör stora fel även på enkla exempel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Varför/hur inträffar underfitting?

A

Underfitting händer när modellen inte “lärt sig” tillräckligt mycket från träningsdatan. Detta kan bero på:

Orsaker till underfitting:
Modellen är för enkel (exempelvis ett litet neuralt nätverk för ett komplext problem).
För få träningssteg – modellen har inte haft tid att lära sig.
För lite data eller brusig data, vilket gör det svårt att hitta verkliga mönster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Vad är balansen mellan overfitting och underfitting?

A

Det är den optimala punkten där en modell har lärt sig tillräckligt från träningsdatan utan att bli för specialiserad på den.

Tre möjliga scenarier:

Underfitting – Modellen är för simpel och lär sig inte tillräckligt.
Bra anpassning (Robust fit) – Modellen har en bra balans mellan inlärning och generalisering.
Overfitting – Modellen är för komplex och lär sig även irrelevanta detaljer.

Exempel:
Om en modell förutspår huspriser och är underfitted, tar den knappt hänsyn till viktiga faktorer som storlek och läge. Om den är overfitted, lär den sig slumpmässiga mönster som inte är användbara på nya hus.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Hur ser vi balansen mellan underfitting och overfitting i en graf?

A

Underfitting (vänster på grafen): Både tränings- och valideringsförlusten är hög → modellen har inte lärt sig bra.

Robust fit (mitten på grafen): Valideringsförlusten är låg, och träningsförlusten är inte extremt låg → bra generalisering.

Overfitting (höger på grafen): Träningsförlusten är extremt låg, men valideringsförlusten ökar → modellen har memorerat träningsdatan men fungerar dåligt på ny data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Varför sker overfitting?

A

Overfitting sker när en modell optimeras för mycket på träningsdatan och börjar memorera unika detaljer istället för att förstå generella mönster.

Tecken på overfitting:
Modellen presterar perfekt på träningsdata, men dåligt på testdata.
Den har lärt sig detaljer som bara finns i träningsdatan, men som inte hjälper den att förstå ny data.

Exempel:
Om en modell ska känna igen katter, men råkar lära sig att alla kattbilder i träningsdatan har blå bakgrund, kommer den ha svårt att känna igen katter på en röd bakgrund.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Hur undviker man overfitting?

A

Använd mer data → modellen lär sig bredare mönster.

Reguljärisering (t.ex. dropout, L1/L2) → förhindrar modellen från att bli för detaljerad.

Tidigare stoppning (early stopping) → stoppa träningen innan modellen börjar memorera detaljer.

Dataaugmentation → skapa fler varianter av träningsdatan för att göra modellen mer robust.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Vad visar bilden med de svarta och vita punkterna?

A

Den visar skillnaden mellan en bra modell (som generaliserar) och en överanpassad modell (som bara fungerar på träningsdata).

En bra modell (grön linje):

Hittar en logisk och enkel gräns mellan klasserna.
Fungerar bra på både tränings- och testdata.

En overfitted modell (röd linje):

Hittar för detaljerade mönster i träningsdatan.
Fungerar dåligt på ny, osedd data eftersom den har memorerat istället för att förstå.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Vad är “noise” (brus) i data?

A

Brus är irrelevanta eller slumpmässiga variationer i data som kan göra det svårare för en modell att hitta de verkliga mönstren.

Exempel på brus i olika typer av data:
Bilddata: Små störningar som ljusförändringar, rotationer eller slumpmässiga pixlar (t.ex. “salt & peppar-brus”).
Ljuddata: Bakgrundsljud som stör röstigenkänning.
Textdata: Stavfel eller slumpmässiga ord som inte påverkar meningen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Är brus i data bra eller dåligt?

A

Bra om det är representativt:
Kan hjälpa en modell att bli mer robust och bättre på att generalisera.
Exempel: Att lägga till variationer som ljusförändringar i bilddata gör modellen bättre på att känna igen objekt i olika ljusförhållanden.

Dåligt om det inte är relevant:
Kan förvirra modellen och göra det svårt att hitta rätt mönster.
Exempel: Om data innehåller slumpmässiga fel kan modellen lära sig dessa istället för de verkliga sambanden.

37
Q

Hur kan man använda brus för att förbättra en modell?

A

Att lägga till kontrollerat brus (mer varians) i träningsdata kan hjälpa en modell att bli mer generaliserbar.

Tekniker för att lägga till brus:
Dataaugmentation – lägga till små variationer i träningsdata (t.ex. rotera bilder eller ändra ljusstyrka).
Dropout i neurala nätverk – slumpmässigt ta bort vissa neuroner under träningen för att göra modellen mer robust.
Justering av träningsdata – t.ex. genom att lägga till syntetiskt brus i ljudfiler för att förbättra taligenkänning.

38
Q

Vad är manifold-hypotesen?

A

Manifold-hypotesen säger att all naturlig data (bilder, text, ljud) finns på en låg-dimensionell yta (manifold) inom det högdimensionella utrymme där den lagras.

Vad betyder det?
Även om data kan lagras i många dimensioner, finns den oftast på en mycket mindre underliggande struktur.
En maskininlärningsmodell behöver bara lära sig den relevanta ytan, inte hela det högdimensionella rummet.

Exempel:
Bilder av ansikten kan lagras i miljontals pixlar, men variationer mellan ansikten följer en enkel underliggande struktur (t.ex. ögonens position, huvudets lutning, ljussättning).

39
Q

Vad innebär manifold-hypotesen för maskininlärning?

A

Maskininlärningsmodeller behöver inte förstå allt – bara de viktiga mönstren i datan.
Latent manifolds – modeller lär sig en intern representation av data på en enklare yta.
Smidig interpolation – man kan skapa en jämn övergång mellan olika indata, och alla punkter på vägen ligger fortfarande på manifolden.

Exempel:
I bildgenerering (som GANs) kan man röra sig mellan två ansikten i latentutrymmet, och varje mellanbild är fortfarande ett realistiskt ansikte.

40
Q

Vad visar bilden på den andra sliden?

A

Bilden visar ett exempel på manifold-hypotesen, där data ligger på en lågdimensionell yta i ett högdimensionellt utrymme.

Vad betyder detta?
Data verkar ligga som en böjd yta (manifold) i ett större 3D-utrymme.
Inlärning handlar om att förstå denna underliggande yta, istället för att hantera hela det högdimensionella rummet.

Varför är detta viktigt?
Modeller kan generalisera bättre genom att förstå manifolden istället för att memorera specifika punkter.
Tekniker som autoencoders och GANs bygger på att hitta och använda denna underliggande struktur.

41
Q

Vad är interpolering i maskininlärning?

A

Interpolering innebär att skapa en jämn övergång mellan två datapunkter i ett latentutrymme, så att varje mellanliggande punkt också tillhör samma datafördelning.

Exempel:
I en bildgenereringsmodell (t.ex. GANs) kan man interpolera mellan två ansikten och skapa nya, realistiska mellanbilder.
I textgenerering kan en modell skapa en jämn övergång mellan två meningar.

42
Q

Vad visar bilden på den första sliden?

A

Den visar skillnaden mellan gles sampling (sparse sampling) och tät sampling (dense sampling) i latentutrymmet.

Vad betyder det?
Gles sampling (vänster) → Modellen har lärt sig för få punkter och interpoleringen blir felaktig.
Tät sampling (höger) → Modellen har lärt sig en bra approximation av latentutrymmet, vilket leder till bättre interpolering och generalisering.

Varför är detta viktigt?
Om en modell har för få träningspunkter, kan den göra fel när den försöker skapa nya datapunkter mellan dem.
En bra täckning av latentutrymmet gör modellen mer robust och generaliserbar.

43
Q

Vad visar bilden med fjärilar?

A

Den visar en visualisering av latentutrymmet där liknande datapunkter (fjärilar med samma egenskaper) ligger nära varandra.

Vad betyder detta?
Fjärilarna är grupperade efter liknande färger och former, vilket visar att modellen har förstått mönster i datan.
Det visar hur en modell kan organisera data i ett låg-dimensionellt utrymme (manifold).

Varför är detta viktigt?
En bra representation av data i latentutrymmet gör att modellen kan interpolera och skapa nya, meningsfulla exempel.
Detta används i deep learning för generativa modeller, bildkompression, och klusteranalys.

44
Q

Vad är skillnaden mellan tränings-, validerings- och testdataset?

A

Träningsdataset → Används för att lära modellen genom att justera dess parametrar.

Valideringsdataset → Används för att justera hyperparametrar och övervaka modellens prestanda under träningen.

Testdataset → Används för att utvärdera modellens förmåga att generalisera på helt ny, osedd data.

Sammanfattning:
Träningsdatan lär modellen.
Valideringsdatan hjälper till att finjustera den.
Testdatan avgör om den faktiskt fungerar på ny data.

45
Q

Vad är holdout validation?

A

Holdout validation innebär att man delar upp datan i två delar:

Träningsdataset (ofta 80%) – används för att lära modellen.
Validerings-/testdataset (ofta 20%) – används för att utvärdera modellen.

Fördelar:
Enkel att implementera.
Fungerar bra när man har mycket data.

Nackdelar:
Om datasetet är litet kan resultatet variera mycket beroende på hur datan delas upp.

46
Q

Vad är K-fold cross-validation?

A

K-fold cross-validation innebär att hela datasetet används för både träning och validering genom att dela in det i flera delar (folds).

Hur fungerar det?
Datasetet delas upp i K delar (t.ex. 5 eller 10).
Modellen tränas på K-1 delar och testas på den sista delen.
Processen upprepas K gånger, så att varje del används som validering en gång.
Det slutliga resultatet är medelvärdet av alla valideringsresultat.

Fördelar:
Ger bättre uppskattning av modellens prestanda eftersom den testas på flera olika datasetuppdelningar.
Minskar risken att råka använda en dålig datasetuppdelning.

Nackdelar:
Kräver mer beräkningstid eftersom modellen tränas flera gånger.

47
Q

När ska man använda holdout validation vs. K-fold cross-validation?

A

Holdout validation → Bra om datasetet är stort och man vill ha en snabb utvärdering.

K-fold cross-validation → Bättre för mindre dataset där varje datapunkt är viktig och man vill undvika slumpmässiga variationer.

48
Q

Vad innebär representerbarhet vid modellutvärdering?

A

Representerbarhet betyder att träningsdatan måste återspegla verkliga scenarion för att modellen ska fungera korrekt på ny data.

Exempel:
Om en bildigenkänningsmodell bara tränas på röda bilar, kanske den har svårt att känna igen blå eller vita bilar.
En sjukdomsdetekteringsmodell som bara tränas på unga patienter kanske inte fungerar lika bra på äldre patienter.

Varför är detta viktigt?
Om datan inte är representativ riskerar modellen att prestera dåligt på verkliga problem.

49
Q

Varför är tidsaspekter viktiga vid modellutvärdering?

A

Datan kan förändras över tid, vilket kan göra att en modell blir irrelevant om den tränas på gammal information.

Exempel:
En modell som förutspår bostadspriser tränad på data från 2010 kanske inte fungerar bra 2025, eftersom marknaden har förändrats.
En spamfilter-modell från 2018 kanske inte känner igen de senaste phishing-metoderna som används 2025.

Lösning:
Använd färsk data när det är möjligt.
Periodisk omträning av modellen för att hålla den uppdaterad.

50
Q

Hur påverkar duplicering (överflödlighet) modellutvärdering?

A

Om datasetet innehåller dubbletter, kan modellen lättare memorera istället för att lära sig generella mönster, vilket ger en falskt hög prestanda.

Exempel:
Om samma bild förekommer flera gånger i träningsdatan, kan modellen verka bättre än den egentligen är.
Om en textklassificeringsmodell har många identiska meningar i träningen, riskerar den att överanpassa sig till dessa.

Lösning:
Använd duplicate removal-tekniker, t.ex. dhash för att hitta liknande bilder.
Filtrera bort identiska eller nästan identiska datapunkter för att förbättra modellens generaliseringsförmåga.

51
Q

Hur påverkar learning rate modellens träning?

A

Learning rate bestämmer hur stora steg modellen tar när den uppdaterar sina vikter.

Vad händer vid olika learning rates?

För hög learning rate → Modellen hoppar över optimala lösningar och blir instabil.
För låg learning rate → Träningen går långsamt och modellen kan fastna i lokala minima.
Bra learning rate → Snabb och stabil konvergens mot en bra lösning.

Lösning:
Testa olika learning rates med learning rate scheduling (att minska den under träningen).
Använd tekniker som Adam-optimizer, som automatiskt justerar stegen.

51
Q

Vad innebär finjustering av en maskininlärningsmodell?

A

Finjustering innebär att optimera modellens prestanda genom att justera olika hyperparametrar och använda bättre träningsdata.

Exempel på finjustering:
Använda bättre datapunkter → Fokusera på kvalitetsdata istället för kvantitet.
Öka modellkapaciteten → Lägg till fler lager/neuron om modellen är för enkel.
Justera optimizer → Välja en bättre algoritm för att justera modellens vikter.
Ändra batchstorlek → Större batchar kan ge snabbare träning, men mindre batchar kan ge bättre generalisering.

52
Q

Hur påverkar batchstorlek modellens inlärning?

A

Batchstorleken bestämmer hur många datapunkter som bearbetas innan modellens vikter uppdateras.

Olika batchstorlekar:
Stor batchstorlek (t.ex. 128+) → Snabbare träning, men risk för dålig generalisering.
Liten batchstorlek (t.ex. 16-32) → Långsammare träning, men modellen blir mer robust och generaliserar bättre.

Lösning:
Testa mini-batch gradient descent (kombination av stora och små batchar).
Anpassa batchstorleken efter datasetets storlek och tillgänglig beräkningskraft.

53
Q

Vad är Gradient Descent (GD) och hur fungerar det?

A

Gradient Descent är en optimeringsalgoritm som justerar modellens parametrar för att minimera förlusten genom att beräkna gradienten av förlustfunktionen.

Hur fungerar det?
Modellen beräknar gradienten (lutningen) av förlustfunktionen.
Vikterna uppdateras stegvis i riktning mot det globala minimumet.
Processen upprepas tills modellen når en optimal lösning.

Problem:
Kräver hela datasetet för varje uppdatering → långsamt på stora dataset.
Kan fastna i lokala minima.

54
Q

Hur skiljer sig Stochastic Gradient Descent (SGD) från vanlig Gradient Descent?

A

SGD är en snabbare variant av Gradient Descent som uppdaterar vikterna efter varje datapunkt istället för att använda hela datasetet.

Fördelar:
Snabbare på stora dataset.
Kan hoppa ur lokala minima och hitta bättre lösningar.

Nackdelar:
Kan vara bullrig (osäkra uppdateringar).
Tar ojämna steg mot lösningen.

Lösning:
Mini-batch SGD → Kombination av vanliga GD och SGD för stabilitet och hastighet.
Momentum → Hjälper till att jämna ut stegen.

55
Q

Vad är ADAM (Adaptive Moment Estimation) och varför används den?

A

ADAM är en avancerad optimeringsalgoritm som kombinerar momentum och anpassad learning rate för att förbättra konvergens och stabilitet.

Varför ADAM?
Snabbare konvergens än GD/SGD.
Anpassar steglängden för varje parameter dynamiskt.
Robust vid träning av djupa nätverk.

Nyckelparametrar:
Momentum (Beta1/Beta2) → Styr hur mycket tidigare gradienter påverkar uppdateringar.
Weight Decay → Förhindrar överfitting genom att straffa stora vikter.
Epsilon → Förhindrar division med noll.

När ska ADAM användas?
För icke-stationära problem där gradienterna förändras snabbt.
När snabb konvergens och stabilitet behövs.

56
Q

Gradient Descent vs Stochastic Gradient Descent?

A

Gradient Descent (GD): En optimeringsalgoritm som uppdaterar modellens parametrar genom att beräkna gradienten av förlustfunktionen över hela träningsdatan. Det är stabilt men långsamt.

Stochastic Gradient Descent (SGD): En variant av gradientnedstigning som uppdaterar parametrarna baserat på gradienten från enskilda eller små batchar av träningsdata. Det gör träningen snabbare men bullrigare.

Bild: Jämförelse mellan SGD och GD - SGD gör snabba, hoppiga uppdateringar medan GD tar jämna steg mot minimipunkten.

57
Q

Hyperparametrar vid optimering?

A

Learning Rate – Bestämmer steglängden vid uppdatering av parametrar. För hög riskerar instabilitet, för låg gör inlärningen långsam.
Batch Size – Påverkar stabilitet och hastighet; större batcher ger stabilare gradienter.
Momentum – Bevarar tidigare gradientinformation, typiskt värde mellan 0.8–0.99.
Beta1/Beta2 (ADAM) – Kontrollerar momentum och varians, används för stabilare inlärning.
Weight Decay – Regularisering för att motverka överfitting.
Epsilon (ADAM) – Förhindrar division med noll, vanligtvis satt till 1e−7

Bild: Visar hur gradient descent kan fastna i ett lokalt minimum och hur momentum hjälper modellen att hitta det globala minimumet.

58
Q

Vad är en batch i maskininlärning?

A

En batch är en mindre uppsättning data från datasetet som används under träningen av en modell.

59
Q

Vad avgör batch size?

A

Batch size avgör hur många prover som matas in i modellen samtidigt under en enda träningsiteration.

60
Q

Vad är skillnaden mellan en iteration och en epoch?

A

Iteration: En genomgång av en enda batch genom modellen.
Epoch: En fullständig genomgång av hela datasetet genom modellen.

61
Q

Hur påverkar batch size träningsresultatet?

A

Liten batch size: Kan orsaka underfitting men förbättra generalisering.
Optimerad batch size: Balanserar inlärning och generalisering.
Stor batch size: Kan leda till overfitting och dålig generalisering.

62
Q

Hur kan learning rate justeras vid förändring av batch size?

A

NewLearningRate

Om batch size minskas bör även learning rate minskas enligt formeln:

OldLearningRate
×
NewBatchSize
OldBatchSize

63
Q

Hur påverkar en liten batch size optimeringsbanan?

A

En liten batch size leder till en mer skakig optimeringsbana, vilket kan hjälpa modellen att undvika lokala minima men också göra träningen långsammare.

64
Q

Vad är problemet med en för stor batch size?

A

En stor batch size kan resultera i att modellen fastnar i skarpa minima och generaliserar sämre.

65
Q

Vad är en “good batch size” enligt optimeringsdiagrammet?

A

En balanserad batch size möjliggör en stabil träningsbana och effektiv konvergens mot ett bra minimum.

66
Q

Vilket är det enklaste sättet att förbättra generaliserbarhet i en modell?

A

Samla in och använd mer data.

67
Q

Hur kan man justera en modell för att förbättra generalisering?

A

Förenkla modellen (eller testa en mer komplex modell vid behov).

Justera batch size och learning rate.

68
Q

Vilka tekniker kan användas för att förbättra generalisering genom datahantering?

A

Lägga till mer data.
Generera syntetisk data.
Introducera noise.
Rotera och transformera data.

69
Q

Varför är testdata viktigt för att utvärdera generalisering?

A

Testdata innehåller ny data som inte använts i träning/optimering av modellen och bör representera samma typ av data som modellen kommer att användas för.

70
Q

Hur påverkar batch size generaliserbarheten?

A

För liten batch size kan förbättra generalisering men göra träningen långsammare, medan för stor batch size kan minska generaliseringsförmågan och leda till överträning.

71
Q

Vad är huvudbudskapet i sliden “Var systematisk och försök igen!”?

A

Att maskininlärning kräver systematisk experimentering och justering av hyperparametrar för att förbättra modellens prestanda.

72
Q

Vad visar de många tränings- och valideringskurvorna i sliden?

A

De illustrerar olika experiment med varierande hyperparametrar, vilket påverkar träningsförlust och valideringsförlust.

73
Q

Varför är det viktigt att jämföra tränings- och valideringsförlust?

A

För att identifiera överträning, underträning och optimala hyperparametrar som ger bäst generalisering.

74
Q

Vad kan en stor skillnad mellan träningsförlust och valideringsförlust indikera?

A

Att modellen överanpassar sig till träningsdata och har låg generaliseringsförmåga.

75
Q

Vad visar denna träningsgraf? (Slide 31)

A

Träningsförlust (blå linje) minskar något men förblir låg.
Valideringsförlust (orange linje) är konstant hög och minskar knappt.

Tolkning:
Underfitting – modellen lär sig inte tillräckligt från datan.
Möjliga orsaker:
Modellen är för enkel och saknar kapacitet.
För låg learning rate, vilket gör inlärningen långsam.
För lite data eller brist på variation i datasetet.
Möjliga lösningar:

Öka modellens komplexitet.
Öka learning rate.
Samla in mer och mer varierad träningsdata.

75
Q

Vad är syftet med att diagnostisera träningsgrafer?

A

Att analysera inlärningskurvor för att förstå hur en maskininlärningsmodell presterar och identifiera problem som överträning, underträning eller dålig konvergens.

76
Q

Vad visar denna träningsgraf? (Slide 32)

A

Både träningsförlust (blå linje) och valideringsförlust (orange linje) minskar gradvis.
Kurvorna är parallella och närmar sig varandra vid slutet av träningen.

Tolkning:
Modellen tränar stabilt och generaliserar bra.
Ingen tydlig överträning eller underträning.
Möjligtvis kan fler epochs hjälpa till att förbättra modellen ytterligare.

77
Q

Vad visar denna träningsgraf? (Slide 33)

A

Träningsförlust (blå linje) och valideringsförlust (orange linje) minskar snabbt i början.
Efter en viss punkt planar båda ut och blir relativt stabila.
Valideringsförlusten är något högre än träningsförlusten men följer en liknande trend.

Tolkning:
Bra generalisering – modellen tränar effektivt och har en bra balans mellan träning och validering.
Inga tydliga tecken på överträning eller underträning.
Modellen kan eventuellt förbättras ytterligare genom finjustering av hyperparametrar, men den är redan i ett bra läge.

78
Q

Vad visar denna träningsgraf? (Slide 34)

A

Träningsförlust (blå linje) minskar snabbt i början men planar sedan ut.
Valideringsförlust (orange linje) är mycket lägre än träningsförlusten och förblir stabil.

Tolkning:
Överträning (overfitting) – modellen presterar bra på träningsdatan men har svårt att generalisera till ny data.
Valideringsförlusten är låg men kan tyda på att modellen har lärt sig specifika mönster i träningsdatan snarare än att generalisera.
Möjliga lösningar:

Använd regularisering (Dropout, L2) för att minska överträning.
Samla in mer varierad träningsdata.
Tidig stoppning för att förhindra att modellen överanpassar sig.

79
Q

Vad visar denna träningsgraf? (Slide 35)

A

Träningsförlust (blå linje) minskar och stabiliseras.
Valideringsförlust (orange linje) är mycket instabil och fluktuerar kraftigt.
Tolkning:

Instabil träning, vilket kan bero på:
För hög learning rate, vilket gör att modellen hoppar runt och inte konvergerar ordentligt.
För liten batch size, vilket orsakar hög varians i uppdateringarna.
Brist på generaliseringsförmåga i modellen.

Möjliga lösningar:
Minska learning rate för att få stabilare inlärning.
Öka batch size för att jämna ut gradientuppdateringarna.
Använd regularisering (Dropout, L2) för att minska överträning och förbättra stabiliteten.

80
Q

Vad visar denna träningsgraf? (Slide 36)

A

Träningsförlust (blå linje) minskar kontinuerligt och stabiliseras på en låg nivå.
Valideringsförlust (orange linje) minskar i början men börjar sedan öka och stabiliseras på en högre nivå än träningsförlusten.

Tolkning:
Överträning (overfitting) – modellen lär sig träningsdatan väl men presterar sämre på valideringsdata.
Valideringsförlusten ökar efter en viss punkt, vilket indikerar att modellen börjar memorera träningsdata istället för att generalisera.

Möjliga lösningar:
Tidig stoppning (early stopping) för att avbryta träningen innan valideringsförlusten börjar öka.
Använd regulariseringstekniker som Dropout eller L2-norm för att minska överträning.
Öka mängden träningsdata för att förbättra generaliseringsförmågan.

81
Q

Vad visar denna graf om balansen mellan overfitting och underfitting?

A

Underfitting (vänster sida): Modellen har hög förlust på både tränings- och valideringsdata eftersom den inte har lärt sig tillräckligt.
Robust fit (mitten): Optimal balans där både tränings- och valideringsförlust är låg, vilket betyder att modellen generaliserar bra.
Overfitting (höger sida): Träningsförlusten är mycket låg medan valideringsförlusten ökar, vilket betyder att modellen har överanpassat sig till träningsdata och presterar dåligt på ny data.

Slutsats:
Målet är att hitta en robust fit, där modellen har låg förlust både på tränings- och valideringsdata utan att överanpassa sig.
Detta kan uppnås genom att justera modellens kapacitet, regularisering och träningsstrategier.

82
Q

Vilka viktiga begrepp bör man känna till inom maskininlärning?

A

Overfitting och underfitting – Balansen mellan att överanpassa eller lära sig för lite från data.
Optimering – Justering av modellens parametrar för att minimera förlust.
Generaliserbarhet – Modellens förmåga att prestera bra på ny, osedd data.
Train, test, och validation dataset – Hur data delas upp för att träna och utvärdera modellen.

83
Q

Vilka viktiga begrepp bör man känna till inom maskininlärning?

A

Modellkomplexitet – Hur avancerad en modell är och dess kapacitet att fånga mönster.
Optimeringsmetod – Algoritmer som används för att uppdatera modellens parametrar (ex. SGD, Adam).
Loss function – Funktion som mäter hur bra en modell presterar genom att beräkna fel.

84
Q

Vad är målet med en bra maskininlärningsmodell?

A

Att hitta en balans där modellen lär sig tillräckligt från träningsdatan för att förstå mönster, men inte så mycket att den överanpassar sig och presterar dåligt på ny data.

85
Q

Varför är träningsdata avgörande?

A

För att modellen ska kunna lära sig rätt mönster och generalisera till ny data. Träningen bör övervakas noggrant genom analys av inlärningskurvor.

86
Q

Hur hjälper olika dataset att undvika overfitting?

A

Train dataset: Används för att träna modellen.
Validation dataset: Används för att finjustera hyperparametrar och upptäcka overfitting.
Test dataset: Används för att utvärdera modellens slutliga prestanda på ny, osedd data.

87
Q

Hur bör en modell designas för att hantera datans komplexitet?

A

Modellen bör vara tillräckligt stor/djup för att fånga mönster i data.
Den får dock inte vara för stor, då den riskerar att memorera träningsdata och överträna.

88
Q

Vad säger manifoldhypotesen om datarepresentation i modeller?

A

Enligt manifoldhypotesen kan datapunkter uttryckas längs en relativt enkel, välstrukturerad yta i modellens inre representationsutrymme. Detta innebär att modellen interpolerar mellan kända datapunkter för att göra förutsägelser.