Transformers Flashcards

1
Q

Cite os principais impactos da arquitetura Transformers

A
  1. Mecanismo de atenção
  2. Paralelização
  3. Escalabilidade
  4. Transferência de aprendizado
  5. Aplicações versáteis
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qual a origem da arquitetura Transformers?

A

“Attention is All You Need”, Vaswani et al, 2017

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Explique teoricamente Mecanismo de atenção

A

Permite que o modelo dê importância variável a diferentes partes de uma sequência. Isso facilita a captura de dependências de longo alcance e a compreensão de contextos complexos.

Isso porque nem todas as partes de uma sequência são igualmente relevantes para a tarefa.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Dê o passo-a-passo de Mecanismo de atenção

A
  1. O modelo aprende 3 conjuntos de pesos: chave (key), valor (value) e consulta (query). Primeiro ele calcula as representações de chave, consulta e valor para cada token da sequência de entrada, usando os pesos aprendidos.
  2. Calcula a pontuação de atenção entre cada par de tokens (chave e consulta), geralmente usando o produto escalar seguido de uma normalização.
  3. Aplica a função softmax às pontuações de atenção para obter uma distribuição de probabilidade que some 1, representando a importância relativa de cada token na sequência.
  4. Multiplica as representações de valor (passo 1) pelo pesos de atenção normalizados (passo 3) e soma os resultados para obter a saída ponderada do mecanismo de atenção.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Dê o passo-a-passo matemático de Mecanismo de atenção

A

1.
K_i = W_k * X_i
Q_i = W_q * X_i
V_i = W_v * X_i

sendo W_* as matrizes de pesos e X_i cada token.

2.
score(Q_i, K_i) = (Q_i * K_i ^ T) / sqrt(d_k)

Em que d_k é a dimensão das representações das keys e queries e sua raíz quadrada é usada para normalizar a pontuação de atenção, evitando valores muito grandes ou pequenos.

3.
A_ij = softmax(score(Q_i, K_i)) = exp(score(Q_i, K_i)) / (exp(score(Q_i, K_i)))

A_ij é o peso de atenção do i-ésimo token da query em relação ao j-ésimo token da key

4.
Attention_output_i = (A_ij * V_j)

Resultando em uma representação ponderada para cada token de query com base em sua importância relativa em relação aos tokens de key.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Descreva as principais diferenças entre Multi-head attention para Atenção por produto escalar

A

Ideia principal: permitir que o modelo preste atenção a diferentes tipos de informações contextuais simultaneamente.

Resultados: melhora na capacidade do modelo de entender as dependências e relações entre os tokens na sequência de entrada.

Ele divide as representações de key, query e value em várias “cabeças” menores e aplica o mecanismo de atenção a cada uma delas de forma independente. Em seguida, as saídas ponderadas de cada cabeça são concatenadas e transformadas novamente para obter a saída final da camada de atenção multi-cabeça.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Explique brevemente Paralelização

A

Os Transformers não dependem de cálculos sequenciais, como as redes recorrentes (ex. LSTM e GRU), o que permite uma paralelização mais eficiente e um treinamento mais rápido.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Explique brevemente Escalabilidade

A

Permitem o treinamento com bilhões de parâmetros e a obtenção de um desempenho significativamente melhor em várias tarefas de PLN.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Explique brevemente Transferência de aprendizado

A

Técnica de aprendizado de máquina que aproveita um modelo pré-treinado em uma tarefa para ajudar a resolver outra tarefa relacionada, geralmente com menos dados de treinamento.

Objetivo principal: transferir o conhecimento adquirido pelo modelo durante o treinamento em uma tarefa para acelerar e melhorar o desempenho em outra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Cite algumas de suas aplicações

A

Tradução automática, geração de texto, análise de sentimento, resposta a perguntas, … A arquitetura também foi adaptada para outras áreas como visão computacional e análise de séries temporais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Cite o objetivo principal da arquitetura Transformers

A

Melhorar a eficiência e a capacidade de lidar com problemas em sequência, como PLN e análise de séries temporais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qual sua principal inovação?

A

Atenção auto-regressiva.

Permite que o modelo atribua pesos diferentes a diferentes partes da sequência de entrada dependendo da sua importância para a tarefa específica.

Essa atenção é calculada usando usando uma técnica chamada “Mecanismo de atenção por produto escalar”, que permite ao modelo aprender padrões de longo alcance e interações entre as palavras de uma sequência.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Explique brevemente os dois componentes principais da arquitetura Transformers

A

Codificador: processa a sequência de entrada e gera uma representação vetorial contínua.

Decodificador: usa essa representação para gerar a sequência de saída.
Ambos os componentes são compostos por várias camadas de atenção, cada uma com suas próprias conexões e parâmetros aprendidos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Cite casos em que o Transfer Learning é particularmente útil

A
  • os dados disponíveis são limitados ou insuficientes para treinar um modelo do zero
  • o tempo e os recursos computacionais são limitados
  • a tarefa original e a nova tarefa compartilham características e padrões semelhantes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Descreva o passo-a-passo básico de utilização do Transfer Learning

A
  1. Escolher um modelo pré-treinado adequado
  2. Adaptar o modelo às suas necessidades (ex. substituir ou ajustar camadas, como a de output)
  3. Treinar o modelo com seus dados de treinamento. Pode envolver fine-tuning (modelo é treinado com taxa de aprendizado menor para ajustar os pesos pré-treinados sem causar mudanças drásticas nos parâmetros)
  4. Avaliar o desempenho do modelo e fazer ajustes adicionais, se necessário
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quais submódulos compões as camadas do Encoder e do Decoder?

A

Encoder

  1. Mecanismo de atenção por produto escalar (Self-Attention)
  2. Rede Feed-Forward Posicional (Position-wise Feed-Forward Network)

Decoder

  1. Mecanismo de Atenção por Produto Escalar (Self-Attention)
  2. Atenção entre Codificador-Decodificador (Encoder-Decoder Attention)
  3. Rede Feed-Forward Posicional (Position-wise Feed-Forward Network)

Cada submódulo é seguido por uma conexão residual, que adiciona a saída do submódulo à entrada original, e por uma normalização da camada

17
Q

Explique positional encoding

A

Incorpora informações sobre a posição dos tokens na sequência. Isso é necessário pois os mecanismos de atenção não têm noção de ordem inerente e precisamos que o modelo entenda e represente as dependências e relações entre os tokens considerando suas posições na sequência.

É adicionada à representação inicial de cada token antes que ele passe pelas camadas do Encoder e do Decoder.

Existem várias formas de implementação, mas no artigo original do Transformer é baseada em funções seno e cosseno com diferentes frequências.

18
Q

Explique o que é BERT

A

Bidirectional Encoder Representations from Transformers

Modelo de aprendizado profundo desenvolvido pela Google AI Language em 2018

É baseado na arquitetura Transformer e utiliza uma técnica de treinamento bidirecional para aprender representações de linguagem de alta qualidade.

Ao contrário dos modelos anteriores de PLN, o BERT considera os contextos à esquerda e à direita das palavras simultaneamente. Isso permite que o modelo entenda melhor o significado das palavras com base em seus contextos de uso.

Existem diversas versões e variantes do modelo BERT.