Técnicas de Processamento de Linguagem Natural Flashcards
O que é Linguagem Natural?
Refere-se ao mundo como nós humanos nos comunicamos uns com os outros, ou seja, fala e texto.
O que é Processamento de Linguagem Natural?
O processamento de linguagem natural ou PLN é um campo da Inteligência Artificial que dá as máquinas a capacidade de ler, entender e extrair significado das linguagens humanas.
Em que consiste o PLN?
Consiste no desenvolvimento de modelos computacionais para a realização de tarefas que dependem de informações expressas em alguma língua natural:
- Tradução e Interpretação de Textos;
- Busca de Informações em documentos;
- Interface Homem-Máquina.
Como um sistema computacional interpreta uma sentença em linguagem natural?
Através da análise de informações morfológicas (léxicas), sintáticas (regras gramaticais) e semânticas (significados), armazenadas em um dicionário, juntamente com as palavras que o sistema compreende.
Análise Morfológica?
- O analisador morfológico identifica as palavras ou expressões isoladas em uma sentença, sendo este processo auxiliado por delimitadores (pontuação e espaços em branco).
- As palavras identificadas são classificadas de acordo com seu tipo de uso ou, em linguagem natural, categoria gramatical.
Análise Sintática?
- Enquanto o analisador léxico-morfológico lida com a estrutura das palavras e com a classificação das mesmas em diferentes categorias, o analisador sintático trabalha em nível de agrupamento de palavras, analisando a constituição das frases.
- A análise sintática (parsing) é o procedimento que avalia vários modos de como combinar regras gramaticais, com a finalidade de gerar uma estrutura de árvore que represente a estrutura sintática da sentença analisada.
- Se a sentença for ambígua, o analisador sintático (parser) irá obter todas as possíveis estruturas sintáticas que a representam.
Análise Semântica?
- Enquanto a sintaxe corresponde ao estudo de como as palavras agrupam-se para formar estruturas em nível de sentença, a semântica está relacionada ao significado, não só de cada palavra, mas também do conjunto resultante delas.
- O processamento semântico é considerado um dos maiores desafios do Processamento de Linguagem Natural, pois se vincula, de um lado, com a morfologia e a estrutura sintática e, de outro lado em alguns casos, com informações da pragmática.
- O analisador semântico analisa o sentido das estruturas das palavras que foram reagrupadas pelo analisador sintático, uma vez que o analisar morfológico permitiu identificar estas palavras individualmente.
Pragmática?
À medida que se avança no processamento da Linguagem Natural é necessário fazer uma interpretação do todo e não mais analisar o significado de suas partes, como ocorre na análise das informações morfológicas (léxicas), sintáticas (regras gramaticais) e semânticas (significados).
As palavras podem se associar através de dois tipos de relações, quais são?
- Paradigmáticas;
- Sintagmáticas.
Como se associam as relações paradigmáticas?
Associam-se através do significado, como “nadar” e “água”.
Como se associam as relações sintagmáticas?
As relações sintagmáticas conectam palavras que são frequentemente encontradas no mesmo discurso, como “água” e “poça”.
Qual é o principal problema enfrentado pelo PLN?
Está relacionado com o fato de que a linguagem natural é muito complicada.
Quais são as linguagens de programação altamente usadas para executar técnicas do PLN?
- Python;
- R.
Técnica Bag of Words (Saco de palavras)?
- É um modelo comumente usado que permite contar todas as palavras em um trecho de texto.
- Basicamente cria uma matriz de ocorrências para a sentença ou documento, desconsiderando a gramática e a ordem das palavras.
- Essas ocorrências de palavras são usadas como recursos para treinar um classificador.
- Essa abordagem possui várias desvantagens como a ausência de significado e contexto semântico, e artigos e conectivos (“o”, “as”) adicionam ruídos à análise além de algumas palavras não são ponderadas de acordo.
- Para resolver este problema, uma abordagem é redimensionar a frequência das palavras pela frequência com que aparecem em todos os textos (não apenas aquele que estamos analisando), de modo que as pontuações para palavras frequentes em outros textos, seja penalizada.
- Essa abordagem de pontuação é chamada de “Term Frequency Inverse Document Frequency” TFIDF e melhora a análise por meio de pesos.
- Por meio do TFIDF, termos frequentes no texto são “recompensados”, mas também são “punidos” se esses termos forem frequentes em outros textos que incluímos no algoritmo.
- Este método destaca e “recompensa” termos únicos ou raros, considerando todos os textos.
- No entanto, esta abordagem não considera contexto ou semântica.
Técnica Tokenização?
- É o processo de segmentar o texto em análise em sentenças e palavras.
- Em essência, é a tarefa de cortar um texto em pedaços chamados de tokens e, ao mesmo tempo, jogar fora alguns caracteres, como pontuação.
- A tokenização também pode remover a pontuação, facilitando o caminho para uma segmentação de palavras adequada, mas também provocando possíveis complicações. No caso de pontos que sigam abreviação (por ex, DR.), o período após essa abreviação deve ser considerado como parte do mesmo token e não ser removido.
- O processo de tokenização pode ser particularmente problemático quando se trata de domínios de texto que contêm muitos hífens, parênteses e outros sinais de pontuação.