Python - NLTK Flashcards
O que significa NLTK?
Natural Language Toolkit
O que é o NLTK?
É uma biblioteca Python para processamento de Linguagem Natural.
O NLTK é bom para trabalhar com que tipo de dados?
Strings.
Como utilizar o NLTK?
É necessário instalar a biblioteca através do seguinte comando:
pip install nltk
Após isso, é necessário fazer o download de todos (“all”) pacotes:
import nltk
nltk.download(info_or_id=’all’)
O que é Tokenização?
Separar as palavras de um texto.
Semelhante à função split().
Como fazer uma Tokenização simples/básica de um texto com NLTK?
import nltk
nltk.word_tokenize(text) -> list
Como fazer uma Tokenização de um texto por Regular Expression?
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(pattern) tokens = tokenizer.tokenize(text) -> list
Qual o componente do NLTK que permite verificar a Frequência/Contagem de palavras tokenizadas?
É a classe: FreqDist(token) -> class
Qual o comando que permite ver as palavras tokenizadas e a quantidade de vezes que se repetem no texto?
import nltk
tokens = nltk.word_tokenize(text) frequency = nltk.FreqDist(tokens)
frequency.most_common()
Qual o comando que permite ver as N primeiras palavras tokenizadas e a quantidade de vezes que se repetem no texto?
Exemplo: as 15 primeiras palavras
import nltk
tokens = nltk.word_tokenize(text) frequency = nltk.FreqDist(tokens)
frequency.most_common(15)
O que são Stopwords?
São palavras palavras consideradas irrelevantes para a busca.
Como obter a lista de Stopwords da língua portguesa?
import nltk
nltk.corpus.stopwords.words(‘portuguese’) -> list
O que são N-gramas?
É tokenizar um determinado número de palavras como um grupo, invés de palavras isoladas.
Por exemplo: Nomes Completos
Leandro Mana
New York
New England Patriots
Quantos tipos de agrupamento de palavras podemos tokenizar?
Podemos agrupar em:
▪ bi-gramas - grupos de 2 palavras
▪ tri-gramas - grupos de 3 palavras
▪ n-gramas - grupos de N (4 ou mais) palavras
O que é Stemming?
É a redução da palavra até o seu radical.
Por exemplo:
▪ amig → amigo, amiga
▪ gat → gato, gata
▪ prop → propõem, propondo