8. Mineração De Dados Flashcards

1
Q

Mineração de dados tem como objetivo encontrar a maior quantidade possível de dados?

A

Não.
O objetivo é encontrar PADRÕES.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O objetivo da mineração de dados é explicar padrões?

A

Não.
O objetivo é identificar os padrões (e avaliar as correlações entre eles) e não explicá-los.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Data mining pode ocorrer de forma automática, manual ou semiautomática?

A

Manual não.
Automática ou semiautomática sim.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

A mineração de dados é uma etapa de um ecossistema. Como isso se chama?

A

É uma das fases da EXTRAÇÃO DE CONHECIMENTO ou KDD (knowledge Discovery in databases)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que quer dizer o mnemônico PICO?

A

São os objetivos da data mining:
- Previsão (de comportamentos futuros)
- Identificação (de padrões)
- Classificação (dos dados em categorias)
- Otimização (do uso)
dos dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

A mineração de dados ocorre necessariamente aliada ao uso de data warehouses ou bancos de dados grandes?

A

Não. Apesar de comum, não é obrigatório fazer data mining em data warehouse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quais são as cinco etapas do KDD?

A
  1. Seleção
  2. Pre-processamento
  3. Transformação
  4. Data mining
  5. Interpretação/avaliação
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O processo de KDD é interativo ou iterativo?

A

É ambos: interativo e iterativo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

O que é a etapa de seleção dos dados no KDD?

A

É pegar os dados que são RELEVANTES para a descoberta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que ocorre na etapa de pré-processamento do KDD?

A

Limpeza, eliminação de redundâncias, decidir o que fazer com campos de dados ausentes, remoção de erros

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

A previsão de comportamentos futuros, objetivo da data mining, usa somente dados históricos passados para prever comportamentos futuros?

A

Usa dados passados, mas também suposições controladas a respeito das condições futuras.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

A mineração de texto usa técnicas diferentes da data mining?

A

Não.
Usa as mesmas técnicas
O que muda é o formato do dado (texto, no caso)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quais são os dois tipos de tarefas da data mining?

A
  1. Preditivas
    (Classificação e regressão)
  2. Descritivas
    (Agrupamento e associação)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quais tipos de tarefas de data mining são aprendizados supervisionados e quais são não supervisionados?

A

Supervisionados = as preditivas: classificação e regressão

Não supervisionados = as desxritivas: Associação e Agrupamento

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

O que o case da target diz sobre a classificação de dados?

A

Mostrou que a classificação é uma técnica PREDITIVA (previu as grávidas) e SUPERVISIONADA (as grávidas da base inicial, ao dizerem que estava grávidas, “supervisionaram” a máquina no aprendizado até que ela conseguisse rotular mulheres como grávidas)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

O algoritmo k-NN é para que tipo de tarefa de data mining? Como funciona?

A

É para tarefas de classificação. Classifica um item como igual aos seus vizinhos mais próximos (ou à maioria deles)

17
Q

Que tipo de técnica é a árvore de decisão? Como funciona?

A

É uma técnica de classificação. Estratifica as regras em uma árvore para classificar um item entre várias categorias diferentes

18
Q

O que são ID3, C4.5 e CART? São usados para tarefas supervisionadas ou não supervisionadas?

A

São algoritmos de árvore de decisão, para tarefas de classificação.

Ou seja, tarefas supervisionadas.

19
Q

Qual algoritmo é usado para classificar as palavras de um e-mail para dizer se é spam ou não?

A

Naive-bayes

20
Q

Qual a diferença entre a previsão por classificação e a previsão por regressão?

A

A classificação prevê uma categoria.

A regressão prevê um número ou uma função.

21
Q

Que problema a floresta aleatória conserta em relação à árvore de decisão?

A

Os problemas de overfitting com o conjunto de dados que serviu de base.

22
Q

Clusterização é o mesmo que qual técnica de data mining? É que tipo de tarefa?

A

Clusterização = agrupamento

Então é uma tarefa descritiva, não-supervisionada.

23
Q

Qual a diferença entre o que o k-NN faz e o que o k-Means faz?

A

K-NN: classifica - preditivo
K-Means: agrupa (clusteriza) - descritivo

24
Q

O que é uma regra de associação?

A

É a que relaciona um evento com outro acontecendo junto. Ex: quem compra uma casa, também compra uma geladeira

25
Qual o algoritmo mais usado para criar regras de associação?
O APRIORI
26
O que é o CRISP-DM?
É um modelo de referência para processos de data mining
27
Correlação e regressão em data mining: são quais tipos de tarefas?
Regressão = tarefa preditiva, sipervisionada Correlação = associação = tarefa descritiva, não-supervisionada
28
Para se agrupar algo usa do k-Means, qual o valor mínimo para k?
1
29
A classificação naive Bayes supõe que as varia eis envolvidas em machine learning são independentes entre si?
Sim. (Naive = ingênuo = admite que uma não depende da outra)
30
Técnica da árvore de decisão ajuda a não propagar erros?
Pelo contrário. Se fizer uma ramificação errada, ela segue errada até o fim.
31
Quais são as seis fases do CRISP-DM?
1. Entendimento do negócio 2. Entendimento dos dados 3. Preparação dos dados 4. Construção do modelo 5. Teste e avaliação 6. Implementação
32
Fator de suporte e fator de confiança estão relacionadas a que tipo de tarefa de data mining?
Associação.
33
Qual a diferença entre a árvore ID3 e a C4.5?
ID3 = só dados qualitativos C4.5 = árvore pode também ter dados quantitativos (números)