8. Mineração De Dados Flashcards
Mineração de dados tem como objetivo encontrar a maior quantidade possível de dados?
Não.
O objetivo é encontrar PADRÕES.
O objetivo da mineração de dados é explicar padrões?
Não.
O objetivo é identificar os padrões (e avaliar as correlações entre eles) e não explicá-los.
Data mining pode ocorrer de forma automática, manual ou semiautomática?
Manual não.
Automática ou semiautomática sim.
A mineração de dados é uma etapa de um ecossistema. Como isso se chama?
É uma das fases da EXTRAÇÃO DE CONHECIMENTO ou KDD (knowledge Discovery in databases)
O que quer dizer o mnemônico PICO?
São os objetivos da data mining:
- Previsão (de comportamentos futuros)
- Identificação (de padrões)
- Classificação (dos dados em categorias)
- Otimização (do uso)
dos dados
A mineração de dados ocorre necessariamente aliada ao uso de data warehouses ou bancos de dados grandes?
Não. Apesar de comum, não é obrigatório fazer data mining em data warehouse.
Quais são as cinco etapas do KDD?
- Seleção
- Pre-processamento
- Transformação
- Data mining
- Interpretação/avaliação
O processo de KDD é interativo ou iterativo?
É ambos: interativo e iterativo
O que é a etapa de seleção dos dados no KDD?
É pegar os dados que são RELEVANTES para a descoberta
O que ocorre na etapa de pré-processamento do KDD?
Limpeza, eliminação de redundâncias, decidir o que fazer com campos de dados ausentes, remoção de erros
A previsão de comportamentos futuros, objetivo da data mining, usa somente dados históricos passados para prever comportamentos futuros?
Usa dados passados, mas também suposições controladas a respeito das condições futuras.
A mineração de texto usa técnicas diferentes da data mining?
Não.
Usa as mesmas técnicas
O que muda é o formato do dado (texto, no caso)
Quais são os dois tipos de tarefas da data mining?
- Preditivas
(Classificação e regressão) - Descritivas
(Agrupamento e associação)
Quais tipos de tarefas de data mining são aprendizados supervisionados e quais são não supervisionados?
Supervisionados = as preditivas: classificação e regressão
Não supervisionados = as desxritivas: Associação e Agrupamento
O que o case da target diz sobre a classificação de dados?
Mostrou que a classificação é uma técnica PREDITIVA (previu as grávidas) e SUPERVISIONADA (as grávidas da base inicial, ao dizerem que estava grávidas, “supervisionaram” a máquina no aprendizado até que ela conseguisse rotular mulheres como grávidas)
O algoritmo k-NN é para que tipo de tarefa de data mining? Como funciona?
É para tarefas de classificação. Classifica um item como igual aos seus vizinhos mais próximos (ou à maioria deles)
Que tipo de técnica é a árvore de decisão? Como funciona?
É uma técnica de classificação. Estratifica as regras em uma árvore para classificar um item entre várias categorias diferentes
O que são ID3, C4.5 e CART? São usados para tarefas supervisionadas ou não supervisionadas?
São algoritmos de árvore de decisão, para tarefas de classificação.
Ou seja, tarefas supervisionadas.
Qual algoritmo é usado para classificar as palavras de um e-mail para dizer se é spam ou não?
Naive-bayes
Qual a diferença entre a previsão por classificação e a previsão por regressão?
A classificação prevê uma categoria.
A regressão prevê um número ou uma função.
Que problema a floresta aleatória conserta em relação à árvore de decisão?
Os problemas de overfitting com o conjunto de dados que serviu de base.
Clusterização é o mesmo que qual técnica de data mining? É que tipo de tarefa?
Clusterização = agrupamento
Então é uma tarefa descritiva, não-supervisionada.
Qual a diferença entre o que o k-NN faz e o que o k-Means faz?
K-NN: classifica - preditivo
K-Means: agrupa (clusteriza) - descritivo
O que é uma regra de associação?
É a que relaciona um evento com outro acontecendo junto. Ex: quem compra uma casa, também compra uma geladeira