Técnicas de Processamento de Linguagem Natural Flashcards

1
Q

O que é Linguagem Natural?

A

Refere-se ao mundo como nós humanos nos comunicamos uns com os outros, ou seja, fala e texto.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O que é Processamento de Linguagem Natural?

A

O processamento de linguagem natural ou PLN é um campo da Inteligência Artificial que dá as máquinas a capacidade de ler, entender e extrair significado das linguagens humanas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Em que consiste o PLN?

A

Consiste no desenvolvimento de modelos computacionais para a realização de tarefas que dependem de informações expressas em alguma língua natural:

  • Tradução e Interpretação de Textos;
  • Busca de Informações em documentos;
  • Interface Homem-Máquina.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Como um sistema computacional interpreta uma sentença em linguagem natural?

A

Através da análise de informações morfológicas (léxicas), sintáticas (regras gramaticais) e semânticas (significados), armazenadas em um dicionário, juntamente com as palavras que o sistema compreende.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Análise Morfológica?

A
  • O analisador morfológico identifica as palavras ou expressões isoladas em uma sentença, sendo este processo auxiliado por delimitadores (pontuação e espaços em branco).
  • As palavras identificadas são classificadas de acordo com seu tipo de uso ou, em linguagem natural, categoria gramatical.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Análise Sintática?

A
  • Enquanto o analisador léxico-morfológico lida com a estrutura das palavras e com a classificação das mesmas em diferentes categorias, o analisador sintático trabalha em nível de agrupamento de palavras, analisando a constituição das frases.
  • A análise sintática (parsing) é o procedimento que avalia vários modos de como combinar regras gramaticais, com a finalidade de gerar uma estrutura de árvore que represente a estrutura sintática da sentença analisada.
  • Se a sentença for ambígua, o analisador sintático (parser) irá obter todas as possíveis estruturas sintáticas que a representam.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Análise Semântica?

A
  • Enquanto a sintaxe corresponde ao estudo de como as palavras agrupam-se para formar estruturas em nível de sentença, a semântica está relacionada ao significado, não só de cada palavra, mas também do conjunto resultante delas.
  • O processamento semântico é considerado um dos maiores desafios do Processamento de Linguagem Natural, pois se vincula, de um lado, com a morfologia e a estrutura sintática e, de outro lado em alguns casos, com informações da pragmática.
  • O analisador semântico analisa o sentido das estruturas das palavras que foram reagrupadas pelo analisador sintático, uma vez que o analisar morfológico permitiu identificar estas palavras individualmente.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Pragmática?

A

À medida que se avança no processamento da Linguagem Natural é necessário fazer uma interpretação do todo e não mais analisar o significado de suas partes, como ocorre na análise das informações morfológicas (léxicas), sintáticas (regras gramaticais) e semânticas (significados).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

As palavras podem se associar através de dois tipos de relações, quais são?

A
  • Paradigmáticas;

- Sintagmáticas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Como se associam as relações paradigmáticas?

A

Associam-se através do significado, como “nadar” e “água”.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Como se associam as relações sintagmáticas?

A

As relações sintagmáticas conectam palavras que são frequentemente encontradas no mesmo discurso, como “água” e “poça”.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qual é o principal problema enfrentado pelo PLN?

A

Está relacionado com o fato de que a linguagem natural é muito complicada.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quais são as linguagens de programação altamente usadas para executar técnicas do PLN?

A
  • Python;

- R.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Técnica Bag of Words (Saco de palavras)?

A
  • É um modelo comumente usado que permite contar todas as palavras em um trecho de texto.
  • Basicamente cria uma matriz de ocorrências para a sentença ou documento, desconsiderando a gramática e a ordem das palavras.
  • Essas ocorrências de palavras são usadas como recursos para treinar um classificador.
  • Essa abordagem possui várias desvantagens como a ausência de significado e contexto semântico, e artigos e conectivos (“o”, “as”) adicionam ruídos à análise além de algumas palavras não são ponderadas de acordo.
  • Para resolver este problema, uma abordagem é redimensionar a frequência das palavras pela frequência com que aparecem em todos os textos (não apenas aquele que estamos analisando), de modo que as pontuações para palavras frequentes em outros textos, seja penalizada.
  • Essa abordagem de pontuação é chamada de “Term Frequency Inverse Document Frequency” TFIDF e melhora a análise por meio de pesos.
  • Por meio do TFIDF, termos frequentes no texto são “recompensados”, mas também são “punidos” se esses termos forem frequentes em outros textos que incluímos no algoritmo.
  • Este método destaca e “recompensa” termos únicos ou raros, considerando todos os textos.
  • No entanto, esta abordagem não considera contexto ou semântica.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Técnica Tokenização?

A
  • É o processo de segmentar o texto em análise em sentenças e palavras.
  • Em essência, é a tarefa de cortar um texto em pedaços chamados de tokens e, ao mesmo tempo, jogar fora alguns caracteres, como pontuação.
  • A tokenização também pode remover a pontuação, facilitando o caminho para uma segmentação de palavras adequada, mas também provocando possíveis complicações. No caso de pontos que sigam abreviação (por ex, DR.), o período após essa abreviação deve ser considerado como parte do mesmo token e não ser removido.
  • O processo de tokenização pode ser particularmente problemático quando se trata de domínios de texto que contêm muitos hífens, parênteses e outros sinais de pontuação.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Técnica Remoção de Stop Words?

A
  • Inclui a remoção de artigos, pronomes e preposições como “e”, “o” ou “para”.
  • Nesse processo, algumas palavras muito comuns que parecem fornecer pouco ou nenhum valor ao objetivo no PLN são filtradas e excluídas do texto a ser processado, removendo, portanto, termos comuns e frequentes que não são tão informativos sobre o texto correspondente.
  • As “stop words” podem ser ignoradas com segurança, realizando uma pesquisa em uma lista predefinida de palavras-chave, liberando espaço no banco de dados e melhorando o tempo de processamento.
  • Não há lista universal de “stop words”. Elas podem ser pré-selecionadas ou construídas a partir do zero. Uma abordagem potencial é começar adotando palavras pré-definidas e adicionar palavras à lista mais tarde.
  • A remoção de palavras irrelevantes pode eliminar informações relevantes e modificar o contexto em uma determinada frase. Por exemplo, se estivermos realizando uma análise de sentimentos, poderemos descaracterizar o algoritmo se removermos uma “stop word” como “não”.
  • Sob essas condições, pode-se selecionar uma lista mínima de palavras e adicionar termos adicionais, dependendo do objetivo específico.
17
Q

Técnica Stemming?

A
  • Refere-se ao processo de fatiar o final ou o início das palavras com a intenção de remover os afixos (adições lexicais à raiz da palavra).
  • Os afixos que são anexados no início da palavra são chamados de prefixos (por exemplo, “astro” na palavra “astrobiologia”) e os anexos no final da palavra são chamados de sufixos (por exemplo, “ada” na palavra “caminhada”).
  • O problema é que os afixos podem criar ou expandir novas formas da mesma palavra (chamados afixos flexionais), ou até mesmo criar novas palavras (chamados afixos derivativos).
  • O Stemming pode ser usado para corrigir erros de ortografia dos tokens.
  • Stemmers são simples de usar e rodam muito rápido (eles executam operações simples em uma string), e se a velocidade e o desempenho são importantes no modelo de PLN, então o Stemming é certamente o caminho a percorrer.
  • O objetivo é melhorar o desempenho, não como um exercício de gramática. Ex: Caminhada/Caminhando-> Caminha porém Caminhão não pode ser alterado para Caminha.
18
Q

Técnica de Lematização?

A
  • Tem o objetivo de reduzir uma palavra à sua forma básica e agrupar diferentes formas da mesma palavra.
  • Por exemplo, os verbos no passado são alterados para presente (por exemplo, “passou” é alterado para “passar”) e os sinônimos são unificados (por ex, “melhor” é alterado para “bom”), padronizando palavras com significado semelhante à raiz.
  • Embora pareça estreitamente relacionada com o processo se Stemming, a Lematização usa uma abordagem diferente para alcançar as formas de raiz das palavras.
  • A Lematização resolve palavras para a sua forma de dicionário (conhecida como lema) para a qual ela requer dicionários detalhados nos quais o algoritmo pode examinar e vincular palavras aos seus respectivos lemas.
  • Por exemplo, as palavras “correndo”, “corre” e “correu” são todas formas da palavra “correr”, então “correr” é o lema de todas as palavras anteriores.
  • A Lematização também leva em consideração o contexto da palavra para resolver outros problemas como a desambiguação, o que significa que ela pode discriminar entre palavras idênticas que têm diferentes significados dependendo do contexto específico.
  • Pense em palavras como “sede” (vontade de beber) e “sede” (matriz).
  • Ao fornecer um parâmetro de parte da fala a uma palavra (seja um substantivo, um verbo e assim por diante) é possível definir um papel para essa palavra na sentença e remover a desambiguação.
  • A Lematização é uma tarefa muito mais intensiva em recursos do que realizar um processo de Stemming. Ao mesmo tempo, uma vez que requer mais conhecimento sobre a estrutura da linguagem do que uma abordagem de Stemming, ela exige mais poder computacional do que configurar ou adaptar um algoritmo stemming.
19
Q

Técnica Modelagem de Tópicos?

A
  • É um método para descobrir estruturas ocultas em conjuntos de textos ou documentos.
  • Essencialmente, agrupa textos para descobrir tópicos latentes com base em seus conteúdos, processando palavras individuais e atribuindo-lhe valores com base em sua distribuição.
  • Essa técnica é baseada nas suposições de que cada documento consiste em uma mistura de tópicos e que cada tópico consiste em um conjunto de palavras, o que significa que, se conseguirmos identificar esses tópicos ocultos, poderemos desvendar o significado dos textos.
  • A partir do universo das técnicas de modelagem tópica, a Latent Dirichlet Allocation (LDA) é provavelmente a mais utilizada.
  • Esse algoritmo relativamente novo (inventado há menos de 20 anos) funciona como um método de aprendizado não supervisionado que descobre diferentes tópicos implícitos em uma coleção de documentos.
  • Em métodos de aprendizado não supervisionados como este, não há variável de saída para guiar o processo de aprendizado e os dados são explorados por algoritmos para encontrar padrões.
  • O LDA encontra grupos de palavras relacionadas.
  • Atribuindo cada palavra a um tópico aleatório, onde o usuário define o número de tópicos que deseja descobrir. Não se define os tópicos em si, define-se apenas o número de tópicos, e o algoritmo mapeará todos os documentos para os tópicos de forma que as palavras em cada documento sejam capturadas principalmente por esses tópicos imaginários.
  • O algoritmo passa por cada palavra de forma iterativa e reatribui a palavra a um tópico levando em consideração a probabilidade de que a palavra pertença a um tópico e a probabilidade de que o documento seja gerado por um tópico. Essas probabilidades são calculadas várias vezes, até a convergência do algoritmo.
  • Ao contrário de outros algoritmos de clustering como K-means que realizam clusters complexos (onde os tópicos são discretos), o LDA atribui cada documento a uma mistura de tópicos, o que significa que cada documento pode ser descrito por um ou mais tópicos (por exemplo, Documento 1 é descrito por 70% do tópico A, 20% do tópico B e 10% do tópico C) e reflete resultados mais realistas. EX: Gosto de bananas no café da manhã -> 100% Tópico A. O melhor lugar para se ver um panda é na China -> 100% Tópico B. Eu vi um panda comendo bananas no zoológico -> 50% Tópico A e 50% Tópico B.
  • A modelagem de tópicos é extremamente útil para classificar textos, criar sistemas de recomendação (por exemplo, recomendar livros baseados nas leituras anteriores) ou até mesmo detectar tendências em publicações on-line.