10. Processamento De Linguagem Natural Flashcards
O que é a etapa de pré-processamento em PLN?
Prepara o texto para análise, retirando as informações que possam causar confusão
O que é a tokenização?
É a segmentação de palavras.
Localiza seu início e fim (normalmente através da localização dos espaços)
O que é o stemming?
É o processo de PLN que reduz uma palavra ao seu radical, eliminando seus afixos, para reduzir o ruído
O que é a lematização em PLN?
É reduzir uma palavra à sua forma base, primitiva
(Normalmente coloca o verbo no infinitivo)
O que é o POS Tagging em PLN?
Part-of-speech tagging é o processo de identificar a classe gramatical das palavras
O que é o processo de stopwords removal?
Remoção de stopwords remove palavras de “pouco valor” e que geram ruídos (normalmente artigos, preposições, pronomes e conjunções)
O que é a etapa de representação de texto?
É transformar texto em alguma representação numérica que pode ser usada por algoritmos de aprendizado de máquina para processar e analisar o texto
O que a representação vetorial BOW (bag of words) faz? Ela considera gramática e ordem das palavras?,
Conta as palavras e cria uma matriz de ocorrência
Não considera gramática nem ordem das palavras
O que a representação vetorial TF-IDF mede? Como mede?
Mede a relevância de uma palavra para um texto, através de:
TF = term frequency = quanto maior a frequência do termo no texto, mais provável que ele seja relevante no texto.
IDF = inverse document frequency = quanto mais a palavra aparece em documentos diferentes, menos relevante ela provavelmente é.
O que a representação n-gramas mede em PLN?
Mede a probabilidade da palavra ser realmente a correta (num corretor ortográfico) ou a probabilidade da próxima palavra ser x para dar sugestões de autofill
Numa representação n-gramas, qual a relação entre a quantidade de gramas e a probabilidade de encontrar uma correspondência?
Quanto mais gramas numa frase (“eu certamente vou me tornar um servidor público” -> 7-grama), menor a chance de encontrar correspondência (a frase acima não tem resultados encontrados no google)
Sobre n-gramas, o que diz a propriedade de Markov?
Que a probabilidade de se prever algo com base num 7-grama é próxima de um 2-grama.
Ou seja, para prever a próxima palavra, não é preciso ir muito longe
O que faz a análise de sentimentos num processo de PLN?
Busca classificar o texto em sentimento positivo, negativo ou neutro, para detectar opiniões
Ou seja, é um caso particular de classificação de texto, mas com “apenas” duas ou três classificações.
Qual a diferença entre classificação de tópicos e modelagem de tópicos latentes?
Classificação de tópicos = faz Classificação (aprendizado supervisionado) do texto, “rotula” um texto
Modelagem de tópicos = faz a distribuição de probabilidades de possíveis tópicos do texto, para agrupar textos que contém tópicos semelhantes (agrupamento = não supervisionado)
Em qual hipótese se baseia a semântica vetorial?
Na hipótese distributiva = palavras que aparecem em contextos semelhantes tendem a ter significados semelhantes
Em word2vec, qual a diferença entre o CBoW (continuou bag of words) e o Skip-gram?
CBoW = prevê uma palavra a partir de um contexto
(O cachorro ________ atrás do gato = prevê “corre”)
Lembrar de C bo W (Context to Word)
Skip-gram busca prever um contexto através de uma palavra central
(_________ nave________ = prevê que o contexto é “espacial”)
Análises morfológica, sintática e pragmática são que tipos de análise em PLN?
(fonética, estrutural ou de significado)
Morfológica e sintática = estrutural
Pragmática = De significado