PLN Flashcards

1
Q

O que são os thought vectors (vetores de pensamentos)?

A

Estados finais (hk e ck), do último time-step k, do encoder LSTM.

Esses são usados como estados iniciais no decoder LSTM e as saídas são descartadas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Explique a arquitetura de um seq2seq usada com máquina de tradução?

A

Essa é composta por um encoder e decoder ambos com arquiteturas dinâmicas como LSTM e GRU.
Dado uma sequência de tamanho k

Assim o encoder-LSTM lê essa sequência em k time-steps. Os estados finais (hk e ck) são chamados de código da sequência de entrada porque ele sumariza (codifica) a entrada inteira em um vetor chamado vetor de pensamentos (Thought Vector). As saídas são descartadas.

No decoder-LSTM o seu estado inicial é setado como o estado final do encoder-LSTM. É usado a técnica Teacher Forcing para treinar o decoder na qual a entrada de cada time-step é a saída do time-step anterior. A entrada do time-step inicial é START_ e a sáida do último time-step é _END.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qual o conceito de mecanismo de atenção (attention learning or mechanism)?

A

r

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quais as diferenças entre um modelo seq2seq ao modelo LSTM mecanismo de atenção?

A

r

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que é word embedding ou codificação densa?

A

É uma forma de representação de palavras (vocabulários) em um espaço denso, ou seja, não esparso usada em PLN. Esses são capazes de capturar contexto de um palavra no documento, semântica e similaridade sintática em relação como outras palavras.

Nesse espaço denso palavras semanticamente similares tendem a ser mapeadas próximas entre si.

word embedding é um método distribucional de texto em um espaço n-dimensional geralmente implementado em Deep Learning como uso de modelos encoder-decoder. Esses são as soluções estado da arte tendo superado soluções mais antigas como LSA (Lantent Semantic Analysis) que utilizava SVD.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que é a representação one-hot?

A

É uma forma de representação de palavras (vocabulários) em um espaço esparsa usada em PLN. Essa apresenta dificuldade de codificação de relações semânticas e sintáticas.
Ela torna todas as palavras de uma linguagem equidistantes entre si e independentes.

Cada palavra ou simbolo da linguagem é representada por um vetor de zeros com apenas 1 elemento unitário.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quais os aspectos positivos e negativos da representação one-hot?

A

r

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quais as vantagens da codificação densa em relação a one-hot?

A

r

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Como funciona a arquitetura CBOW (Continuous Bag of Words)?

A

Esse método toma o contexto de cada palavra como entrada e tenta predizer a palavra correspondente ao contexto.

Sendo N o número de neurônios e V número de palavras do vocabulário e C o número de palavras de entrada.

O neurônios da camada escondida (matrix de pesos W com dimensão V*N) apenas copiam a soma ponderada das entradas para a próxima camada. A saída é composta por uma softmax

Sendo C

h = 1/CWsum_{i=1}^{C}xi

uj = v^{,}_{wj}*h

yj = exp(uj)/(sum_{j=1}^{V}exp(uj))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Como funciona a arquitetura Skip-Gram ?

A

Nessa é usada a palavra alvo, na qual a representação queremos gerar, para predizer o contexto e no processo nós produzimos as representações.

Esse modelo recebe a palavra alvo como entrada. A saída é uma distribuição de probabilidade de tamanho C.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Aponte desvantagens e vantagens de usar CBOW e Skip-Gram.

A

Skip-Gram trabalha melhor com poucas palavras e representa palavras raras melhor.

CBOW é mais rápido e melhor para representação de palavras mais comuns e frequentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Explique como a codificação densa pode incorporar semântica em sua representação

A

r

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Procure justificar por que a proposta codificador-decodificador da figura a seguir é denominada de máquina de tradução estatística

A

Essa busca maximizar a probabilidade de cada frase desejada para a saída, associada a cada frase de entrada apresentada durante o treinamento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly