11. Transformers - AI II Flashcards

Question

Multi-headed attention?

Answer 1

Multi-headed attention innebär att flera attention-mekanismer körs parallellt. Varje "head" kan fokusera på olika delar av texten samtidigt, vilket gör modellen bättre på att förstå komplexa mönster.

Answer 2

Används i transformermodellens dekoder. Maskering gör att modellen inte kan titta på framtida ord i sekvensen när den genererar text, vilket är viktigt vid exempelvis textförutsägelse.

Answer 3

Self-attention hjälper modellen förstå ordens betydelse i sin kontext. Cross-attention kopplar ihop indata med output. Multi-headed attention gör processen mer effektiv genom att använda flera attention-mekanismer parallellt. Masked Multi-headed attention ser till att text genereras stegvis utan att modellen "fuskar" och ser framtida ord. Allt detta tillsammans gör att transformers kan förstå och generera naturligt språk på ett smart och effektivt sätt.

Answer 4

1. Attention Exempel: Meningen "Jag såg en vacker fågel i trädet."_ Attention hjälper modellen att fokusera på viktiga ord, t.ex. "vacker" och "fågel", för att förstå att det handlar om en beskrivning av fågeln. 2. Self-Attention Exempel: Meningen "Jag såg en vacker fågel i trädet."_ Self-attention gör att modellen förstår att "vacker" beskriver "fågel", även om det finns andra ord mellan dem. 3. Cross-Attention Exempel: Översättning av "Jag såg en vacker fågel i trädet."_ till engelska. Cross-attention kopplar ihop svenska ord med deras engelska motsvarigheter ("I saw a beautiful bird in the tree."), så att rätt ord hamnar på rätt plats i den översatta meningen. 4. Multi-Headed Attention Exempel: Meningen "Jag såg en vacker fågel i trädet."_ En attention-head fokuserar på "vacker-fågel", en annan fokuserar på "fågel-trädet", och en tredje kanske på "såg-fågel". Detta hjälper modellen att förstå sammanhanget bättre. 5. Masked Multi-Headed Attention Exempel: Autokomplettering av meningen "Jag såg en vacker..." Masked multi-headed attention hindrar modellen från att se att nästa ord är "fågel", så att den förutser det baserat på tidigare ord istället för att "fuska". 6. Samband mellan dem Alla dessa mekanismer handlar om att identifiera och förstå relationer mellan ord: Self-attention analyserar kopplingar inom en mening. Cross-attention hjälper vid översättning eller koppling mellan input och output. Multi-headed attention gör att modellen ser flera relationer samtidigt. Masked multi-headed attention används för textgenerering och förhindrar modellen från att se framtida ord.

Answer 5

Ett transformers block är den grundläggande byggstenen i en transformermodell. Det består av flera komponenter som gör att modellen kan bearbeta sekventiell data (t.ex. text) effektivt. Komponenter i ett Transformers Block: Self-Attention Mechanism – Hjälper modellen att fokusera på viktiga delar av indata. Multi-Headed Attention – Flera attention-huvuden analyserar olika samband i texten. Feed-Forward Neural Network – En fullt ansluten neural nätverksdel som processar data efter attention-steget. Layer Normalization – Hjälper modellen att stabilisera inlärningen. Residual Connections – Gör att information flödar smidigt mellan lager och motverkar att viktig information går förlorad.

Answer 6

Flera transformers-block staplas på varandra i en modell som BERT eller GPT, vilket gör att modellen kan förstå komplexa sammanhang. Varje block bearbetar indata på ett djupare sätt genom att extrahera viktiga relationer mellan ord eller andra element i datan. Varför är det viktigt? Transformers-blocket är grunden för dagens mest avancerade AI-modeller och gör det möjligt för dem att hantera språk, bilder och andra komplexa datamängder med hög precision.

Answer 7

Vad innehåller ett Transformers Block? Ett transformers block består av två huvudkomponenter: Multi-Headed Self-Attention Hjälper modellen att väga olika ords betydelse i relation till varandra. Använder Query (Q), Key (K) och Value (V) för att räkna ut attention-poäng. Gör att modellen kan fokusera på olika aspekter av indata samtidigt. Feed-Forward Network (FFN) Ett enkelt neuronalt nätverk som bearbetar varje tokens representation. Ger modellen kapacitet att lära sig mer komplexa mönster. Andra viktiga delar: - Layer Normalization – Stabiliserar inlärningen genom att hålla distributionen av värden jämn. - Residual Connections (+) – Hjälper information att flöda genom modellen utan att gå förlorad. Varför är det viktigt? Ett transformers-block gör att modellen kan förstå relationer mellan ord och bearbeta text parallellt istället för sekventiellt (som RNNs). Detta gör att modeller som GPT och BERT kan hantera långa texter snabbare och mer exakt.

Answer 8

Det är en del av transformermodellen som hanterar information efter att attention-mekanismen har bearbetat datan. Varje ord i inputsekvensen bearbetas individuellt, utan att påverka andra ord direkt. FFN fungerar som ett litet neuronätverk där informationen först expanderas till 4 gånger sin ursprungliga storlek, bearbetas, och sedan krymper tillbaka. Detta hjälper modellen att förstå mer komplexa samband och förbättrar dess förmåga att generalisera.

Answer 9

När en ordvektor går in i FFN, förstoras dess dimensioner 4 gånger för att skapa fler möjligheter att lära sig detaljer. Efter att modellen bearbetat den expanderade informationen, krymps den tillbaka till sin ursprungliga storlek. Detta görs för att först berika informationen och sedan hålla storleken hanterbar. Exempel: Om en inputvektor har dimensionen 512, förstoras den till 2048, bearbetas, och sedan minskas den tillbaka till 512.

Answer 10

Normalisering ser till att värdena i modellen inte blir för extrema. Det hjälper modellen att träna stabilt, så att den inte fastnar i dåliga lösningar. Normalisering görs genom att: Justera alla värden så att de har en genomsnittlig nivå (standardisering). Skala och skifta värdena så att de anpassas efter datan. x̂ᵢ = (xᵢ - μ) / sqrt(σ² + ε) Här ser vi att varje värde x justeras baserat på medelvärde μ och spridning σ². ε används för att undvika delning med noll.

Answer 11

Gamma (γ) skalar om värdena efter normalisering. Beta (β) skiftar värdena för att anpassa modellen. Modellen tränar dessa värden själv för att hitta den bästa anpassningen. yᵢ = γ * x̂ᵢ + β Efter att datan standardiserats i föregående steg, kan vi skala och skifta värdena för att göra dem mer användbara för modellen.

Answer 12

Attention-mekanismen (Multi-Headed Self-Attention) avgör vilka ord i sekvensen som är viktiga. Feed-Forward Network bearbetar varje ord individuellt, förstorar informationen, bearbetar den och minskar tillbaka. Normalisering ser till att allt stabiliseras och hålls inom rimliga värden, så att träningen fungerar bra. Exempel på hur det fungerar tillsammans: Du skriver en mening: "Jag älskar AI" Attention avgör att "älskar" är det viktigaste ordet. FFN förstorar ordens betydelse, bearbetar och komprimerar igen. Normalisering ser till att värdena är stabila så att träningen fungerar jämnt.

Answer 13

Positional Encoding är en teknik som används i transformers för att ge sekventiell information till modellen. Eftersom transformerarkitekturen inte har någon inbyggd ordningsstruktur (som t.ex. RNNs har), behöver vi Positional Encoding för att modellen ska förstå i vilken ordning orden kommer. Detta görs genom att addera vektorer med s.k. sinus- och cosinus-värden till varje ords embedding.

Answer 14

P(k, 2i) = sin(k / n^(2i/d)) P(k, 2i+1) = cos(k / n^(2i/d)) Där: k = positionen i sekvensen (exempelvis ordens plats i en mening) i = indexet i den dimensionsvektor som används d = den totala dimensionen av vektorn (exempelvis 512 om vi använder en 512-dimensionell embedding) n = en skalningsfaktor (vanligtvis 10 000)

Answer 15

Sinus (sin) och cosinus (cos) är två grundläggande matematiska funktioner som kommer från trigonometri. De används för att beskriva förhållanden i en cirkel. Sinus (sin) – Mäter höjden (Y-värdet) på en punkt på enhetscirkeln. Cosinus (cos) – Mäter bredden (X-värdet) på en punkt på enhetscirkeln. Båda dessa funktioner varierar mellan -1 och 1, vilket gör dem perfekta för att skapa en jämn vågrörelse som kan representera olika positioner i en sekvens.

Answer 16

Eftersom transformers saknar en inbyggd förståelse för ordning, behöver vi Positional Encoding för att ge modellen en uppfattning om var varje ord befinner sig i en sekvens. Sinus används för jämna index (2i) och cosinus används för udda index (2i+1). Detta gör att varje ord får en unik representation beroende på var det befinner sig i sekvensen. Eftersom sinus och cosinus har en periodisk natur (de upprepar sig i ett vågmönster), kan modellen också generalisera positioner för långa sekvenser.

Answer 17

Tänk dig en mening: "Jag älskar att lära mig AI" Varje ord får en embedding, men utan Positional Encoding vet modellen inte ordningsföljden. Efter Positional Encoding: "Jag" får en viss vektor baserat på sin plats (1:a ordet). "älskar" får en annan vektor (2:a ordet). "att" får en annan, och så vidare. Sinus och cosinus gör att dessa vektorer får en regelbunden och unik struktur som hjälper modellen att förstå sekvensens ordning.

Answer 18

BERT (Bidirectional Encoder Representations from Transformers) Tränar på hela meningen samtidigt (bidirektionell) Används för uppgifter som tex. frågesvar, sentimentanalys Maskerar ord i input och förutspår dem GPT (Generative Pre-trained Transformer) Tränar på text från vänster till höger (autoregresseiv) Används för generering av text, dialogsystem Förutspår nästa ord i sekvensen

Answer 19

Exempel på maskerad inlärning: Input: "Jag gick till [MASK] för att köpa mjölk." BERT Output: "[MASK] = affären" BERT kan förstå kontexten genom att analysera hela meningen samtidigt.

Answer 20

Exempel på textgenerering: Input: "Det var en gång en prinsessa som bodde i..." GPT Output: "...ett slott långt bort, där hon väntade på ett äventyr." GPT genererar text baserat på tidigare ord i sekvensen.

Answer 21

GPT är autoregresseiv och genererar text steg för steg baserat på tidigare ord. Om du har en öppen fråga där det inte finns ett direkt svar i en text, då är GPT bättre. Exempel: Fråga: "Vad tycker du om AI:s framtid?" GPT Output: "AI kommer att ha en stor inverkan på samhället, särskilt inom automatisering och forskning." GPT är bäst när vi vill ha sammanhängande svar, argumentation, och kreativt språk. Därför används GPT i chattbotar, kundtjänst, och assistenter (som jag!).

Answer 22

BERT är bidirektionell, vilket betyder att den ser hela frågan och kontexten samtidigt. Om du har en fråga där svaret redan finns i en text, då är BERT bäst! Exempel: Fråga: "Vad är huvudstaden i Frankrike?" Text: "Paris är huvudstaden i Frankrike." BERT Output: "Paris" (tar ut rätt svar ur texten). BERT används i system som Google Sök, där den analyserar hela frågan och texten samtidigt för att hitta det mest relevanta svaret.

11. Transformers - AI II Flashcards

(46 cards)