10. Processamento De Linguagem Natural Flashcards

1
Q

O que é a etapa de pré-processamento em PLN?

A

Prepara o texto para análise, retirando as informações que possam causar confusão

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O que é a tokenização?

A

É a segmentação de palavras.
Localiza seu início e fim (normalmente através da localização dos espaços)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O que é o stemming?

A

É o processo de PLN que reduz uma palavra ao seu radical, eliminando seus afixos, para reduzir o ruído

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

O que é a lematização em PLN?

A

É reduzir uma palavra à sua forma base, primitiva
(Normalmente coloca o verbo no infinitivo)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que é o POS Tagging em PLN?

A

Part-of-speech tagging é o processo de identificar a classe gramatical das palavras

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que é o processo de stopwords removal?

A

Remoção de stopwords remove palavras de “pouco valor” e que geram ruídos (normalmente artigos, preposições, pronomes e conjunções)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

O que é a etapa de representação de texto?

A

É transformar texto em alguma representação numérica que pode ser usada por algoritmos de aprendizado de máquina para processar e analisar o texto

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que a representação vetorial BOW (bag of words) faz? Ela considera gramática e ordem das palavras?,

A

Conta as palavras e cria uma matriz de ocorrência

Não considera gramática nem ordem das palavras

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

O que a representação vetorial TF-IDF mede? Como mede?

A

Mede a relevância de uma palavra para um texto, através de:

TF = term frequency = quanto maior a frequência do termo no texto, mais provável que ele seja relevante no texto.

IDF = inverse document frequency = quanto mais a palavra aparece em documentos diferentes, menos relevante ela provavelmente é.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que a representação n-gramas mede em PLN?

A

Mede a probabilidade da palavra ser realmente a correta (num corretor ortográfico) ou a probabilidade da próxima palavra ser x para dar sugestões de autofill

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Numa representação n-gramas, qual a relação entre a quantidade de gramas e a probabilidade de encontrar uma correspondência?

A

Quanto mais gramas numa frase (“eu certamente vou me tornar um servidor público” -> 7-grama), menor a chance de encontrar correspondência (a frase acima não tem resultados encontrados no google)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Sobre n-gramas, o que diz a propriedade de Markov?

A

Que a probabilidade de se prever algo com base num 7-grama é próxima de um 2-grama.

Ou seja, para prever a próxima palavra, não é preciso ir muito longe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

O que faz a análise de sentimentos num processo de PLN?

A

Busca classificar o texto em sentimento positivo, negativo ou neutro, para detectar opiniões

Ou seja, é um caso particular de classificação de texto, mas com “apenas” duas ou três classificações.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qual a diferença entre classificação de tópicos e modelagem de tópicos latentes?

A

Classificação de tópicos = faz Classificação (aprendizado supervisionado) do texto, “rotula” um texto

Modelagem de tópicos = faz a distribuição de probabilidades de possíveis tópicos do texto, para agrupar textos que contém tópicos semelhantes (agrupamento = não supervisionado)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Em qual hipótese se baseia a semântica vetorial?

A

Na hipótese distributiva = palavras que aparecem em contextos semelhantes tendem a ter significados semelhantes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Em word2vec, qual a diferença entre o CBoW (continuou bag of words) e o Skip-gram?

A

CBoW = prevê uma palavra a partir de um contexto
(O cachorro ________ atrás do gato = prevê “corre”)

Lembrar de C bo W (Context to Word)

Skip-gram busca prever um contexto através de uma palavra central
(_________ nave________ = prevê que o contexto é “espacial”)

17
Q

Análises morfológica, sintática e pragmática são que tipos de análise em PLN?
(fonética, estrutural ou de significado)

A

Morfológica e sintática = estrutural

Pragmática = De significado