PLN Flashcards
O que são os thought vectors (vetores de pensamentos)?
Estados finais (hk e ck), do último time-step k, do encoder LSTM.
Esses são usados como estados iniciais no decoder LSTM e as saídas são descartadas.
Explique a arquitetura de um seq2seq usada com máquina de tradução?
Essa é composta por um encoder e decoder ambos com arquiteturas dinâmicas como LSTM e GRU.
Dado uma sequência de tamanho k
Assim o encoder-LSTM lê essa sequência em k time-steps. Os estados finais (hk e ck) são chamados de código da sequência de entrada porque ele sumariza (codifica) a entrada inteira em um vetor chamado vetor de pensamentos (Thought Vector). As saídas são descartadas.
No decoder-LSTM o seu estado inicial é setado como o estado final do encoder-LSTM. É usado a técnica Teacher Forcing para treinar o decoder na qual a entrada de cada time-step é a saída do time-step anterior. A entrada do time-step inicial é START_ e a sáida do último time-step é _END.
Qual o conceito de mecanismo de atenção (attention learning or mechanism)?
r
Quais as diferenças entre um modelo seq2seq ao modelo LSTM mecanismo de atenção?
r
O que é word embedding ou codificação densa?
É uma forma de representação de palavras (vocabulários) em um espaço denso, ou seja, não esparso usada em PLN. Esses são capazes de capturar contexto de um palavra no documento, semântica e similaridade sintática em relação como outras palavras.
Nesse espaço denso palavras semanticamente similares tendem a ser mapeadas próximas entre si.
word embedding é um método distribucional de texto em um espaço n-dimensional geralmente implementado em Deep Learning como uso de modelos encoder-decoder. Esses são as soluções estado da arte tendo superado soluções mais antigas como LSA (Lantent Semantic Analysis) que utilizava SVD.
O que é a representação one-hot?
É uma forma de representação de palavras (vocabulários) em um espaço esparsa usada em PLN. Essa apresenta dificuldade de codificação de relações semânticas e sintáticas.
Ela torna todas as palavras de uma linguagem equidistantes entre si e independentes.
Cada palavra ou simbolo da linguagem é representada por um vetor de zeros com apenas 1 elemento unitário.
Quais os aspectos positivos e negativos da representação one-hot?
r
Quais as vantagens da codificação densa em relação a one-hot?
r
Como funciona a arquitetura CBOW (Continuous Bag of Words)?
Esse método toma o contexto de cada palavra como entrada e tenta predizer a palavra correspondente ao contexto.
Sendo N o número de neurônios e V número de palavras do vocabulário e C o número de palavras de entrada.
O neurônios da camada escondida (matrix de pesos W com dimensão V*N) apenas copiam a soma ponderada das entradas para a próxima camada. A saída é composta por uma softmax
Sendo C
h = 1/CWsum_{i=1}^{C}xi
uj = v^{,}_{wj}*h
yj = exp(uj)/(sum_{j=1}^{V}exp(uj))
Como funciona a arquitetura Skip-Gram ?
Nessa é usada a palavra alvo, na qual a representação queremos gerar, para predizer o contexto e no processo nós produzimos as representações.
Esse modelo recebe a palavra alvo como entrada. A saída é uma distribuição de probabilidade de tamanho C.
Aponte desvantagens e vantagens de usar CBOW e Skip-Gram.
Skip-Gram trabalha melhor com poucas palavras e representa palavras raras melhor.
CBOW é mais rápido e melhor para representação de palavras mais comuns e frequentes.
Explique como a codificação densa pode incorporar semântica em sua representação
r
Procure justificar por que a proposta codificador-decodificador da figura a seguir é denominada de máquina de tradução estatística
Essa busca maximizar a probabilidade de cada frase desejada para a saída, associada a cada frase de entrada apresentada durante o treinamento.