TRANSFORMERS Flashcards

1
Q

Cosa sono i transformers block?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Che cosa sono i multihead self-attention layers?

A

I singoli blocchi Transformer possono trovare difficile apprendere tutte le diverse relazioni parallele tra i loro input.

Soluzione: Multihead Self-Attention:

Composto daInsiemi di strati di self-attention paralleli, chiamati teste.
Ciascuna testa risiede alla stessa profondità nei livelli del modello, con parametri dedicati.
Ogni testa può apprendere aspetti diversi delle relazioni tra gli input allo stesso livello di astrazione.

Vantaggi:

Affronta la sfida della complessità delle relazioni parallele.
Ogni testa può specializzarsi nell’apprendere specifiche relazioni o pattern nei dati.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

In che modo un trasformer modella la posizione di ciascun token nella sequenza di input?

A

Gestione dell’informazione sulla posizione:

I modelli Transformer non incorporano direttamente l’ordine degli input nella struttura del modello, a differenza delle RNNs.
Positional Embeddings:

Combinate con gli embeddings dei token per catturare l’informazione sulla posizione relativa.
Inizializzate casualmente per ogni possibile posizione di input fino a una lunghezza massima definita.
Apprese durante l’addestramento del modello.
Aggiunta dell’Embedding Posizionale:

Aggiunto al token di input per catturare l’informazione sulla posizione relativa all’interno della sequenza.
Una strategia comune è aggiungere una rappresentazione dell’assoluta posizione agli embeddings dei token per produrre un nuovo embedding che include l’informazione sulla posizione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cos’è BERT?

A

Utilizza il Transformer, un meccanismo di attenzione, per apprendere relazioni contestuali tra parole (o sotto-parole) in un testo.
Comprende un encoder e non un decoder, poiché il suo obiettivo è generare un modello di linguaggio.
Encoder del Transformer:

Legge l’intera sequenza di parole in una volta.
Usato sia nella preformazione che nel fine-tuning.
Preformazione:

Due compiti considerati:
Masked Language Model (MLM): Si maschera un certo percentuale di token di input in modo casuale e si predicono quei token mascherati.
Next Sentence Prediction (NSP): Si comprende la relazione tra due frasi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

BERT MLM

A

Input da Corpus Vasto:

Utilizza testo non annotato da un corpus vasto.
Selezione Casuale dei Token:

Per ogni sequenza di addestramento, viene selezionato un campione casuale di token.
Mascheramento dei Token:

Un certo percentuale (15% in BERT) dei token di input viene mascherato.
I token possono essere sostituiti con [MASK], con un altro token del vocabolario o lasciati inalterati.
Obiettivo di Addestramento MLM:

Prevedere gli input originali per ciascuno dei token mascherati.
Tokenizzazione:

L’input originale viene prima tokenizzato utilizzando un modello subword.
Selezione degli Elementi Campionati:

Gli elementi campionati che guidano il processo di apprendimento vengono scelti.
Recupero delle Rappresentazioni delle Parole:

Le rappresentazioni di parole per tutti i token in input vengono recuperate dalla matrice di embedding delle parole.
Combinazione con Posizionali Embeddings:

Le rappresentazioni delle parole vengono combinate con embedding posizionali per formare l’input al transformer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Bert NSP

A

Obiettivo di Apprendimento NSP:

Catturare la relazione tra coppie di frasi.
Predire se una coppia di frasi è adiacente nel corpus di addestramento o se sono frasi non correlate.

Il 50% delle coppie di addestramento è costituito da coppie positive (adiacenti nel testo).
L’altro 50% ha la seconda frase selezionata casualmente da altrove nel corpus.

Basata sulla capacità del modello di distinguere tra coppie vere e casuali.
Aiuta il modello a comprendere meglio il contesto delle frasi nel testo.

Durante l’addestramento, il vettore di output associato al token CLS rappresenta la predizione della prossima frase.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly