Mineração De Dados Flashcards

Question 1

Q

O que é um Data Mining?

Answer

A

• Data Mining é o processo de descoberta de novas correlações, padrões e tendências entre as informações de uma empresa, por meio da análise de grandes quantidades de dados armazenados em bancos de dados usando técnicas de reconhecimento de padrões, estatísticas e matemáticas.

• Data Mining é o conjunto de ferramentas que permitem ao usuário avaliar tendências e padrões não conhecidos entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como redes neurais, algoritmos genéticos e lógica nebulosa (fuzzy), dentre outras.

• Palavras Chave: exploração; informação implícita desconhecida, teorias; métodos; processos; tecnologias; organizar dados brutos; padrões de comportamentos; tendências; padrões; redes neurais; algoritmos genéticos; lógica nebulosa; análise de conglomerados; agrupamento.

Question 2

Q

Quais os objetivos do Data mining, dentro do processo de KDD(Knowledge Discovery in Databases – Descoberta de Conhecimento em Bancos de Dados)?

Answer

A

PICO
Previsão: por prognóstico, por meio da mi ereção é possível mostrar como certos atributos se comportarão no futuro.

Identificação: identificar a existência de um item ou uma atividade.

Classificação: por meio da combinação de parâmetros é possível classificar os dados em classes ou categorias.

Otimização: otimizar o uso de recursos limitados, como tempo espaço, dinheiro ou materiais.

Question 3

Q

O processo de extração de cinheci ento efetuado pelo KDD (Knowledge Discovery in Databases – Descoberta de Conhecimento e Bancos de Dados), é realizado em etapas, quais são elas?

Answer

A

• Seleção
• Pré-processamento (Limpeza dos dados*)
• Transformação
• Data Mining (Mineração)
• Interpretação

Question 4

Q

Quais são as técnicas utilizadas no Data Mining(mineração de dados)?

Answer

A

• Predição
- Classificação: Hierarquia de classes com base em um conjunto existente de eventos ou transações.
- Regressão: Regra de classificação que é uma função sobre variáveis.

• Clusterização
- Detecção de Anomalias: Particiona dados em segmentos previamente desconhecidos com características semelhantes

• Associação
- Padrões Sequências e Padrões Temporais: Busca descobrir relacionamentos entre variáveis correlacionando a presença de um item com uma faixa de valores para outro conjunto de variáveis

Question 5

Q

O que são as medidas de interesse na etapa de mineração de dados?

Answer

A

• Suporte/Prevalência: Trata-se da frequência com que um conjunto de itens específico ocorre no banco de dados, isto é, o percentual de transações que contém todos os itens em um conjunto (Ex: 50% das compras realizadas em um mercado contém arroz e refrigerante).

•Confiança/Força: Trata-se da probabilidade de que exista uma relação entre itens (Ex: 70% dos clientes
que compram fraldas também compram cerveja).

Question 6

Q

O que é o aprendizado de máquina (learning machine)?

Answer

A

Trata-se de uma ferramenta poderosa para a aquisição automática de conhecimento por meio da imitação do comportamento de aprendizagem humano com foco em aprender a reconhecer padrões complexos e tomar decisões.

Question 7

Q

O que é a mineração de texto?

Answer

A

Trata-se de um meio para encontrar padrões interessantes/úteis em um contexto de informações textuais não estruturadas, combinado com alguma tecnologia de extração e de recuperação da informação, processo de linguagem natural e de sumarização ou indexação de documentos.

Question 8

Q

O que é a técnica de pre- processamento de dados “Agregação”?

Answer

A

A agregação combina dois ou mais atributos (ou objetos) em um único atributo (ou objeto) com a finalidade de reduzir o número de atributos ou objetos, alterar escalas e tornar os dados mais estáveis.

Question 9

Q

O que é a técnica de pre- processamento de dados “Amostragem”?

Answer

A

O princípio básico da amostragem é: usar uma amostra funciona tão bem quanto usar o conjunto
completo de dados, se a amostra for representativa. Ela é representativa se tiver
aproximadamente as mesmas propriedades de interesse do conjunto inicial.

Question 10

Q

O que é a técnica de pre- processamento de dados “Redução de Dimensionalidade”?

Answer

A

Essa técnica reduz a quantidade de tempo e memória necessárias pelos
algoritmos de mineração de dados, permitindo que os dados sejam mais facilmente visualizados e ajudando a eliminar características irrelevantes.

Question 11

Q

O que é a técnica de pre- processamento de dados “Seleção de Subconjuntos de recursos”?

Answer

A

Trata-se de outra forma de reduzir a dimensionalidade dos dados, buscando
eliminar características redundantes ou irrelevantes por meio de diversas
abordagens diferentes.

Question 12

Q

O que é a técnica de pre- processamento de dados “Criação de Recursos”?

Answer

A

Essa técnica busca criar novos atributos que podem capturar informação
importante em um conjunto de dados muito mais eficientemente que os
atributos originais.

Question 13

Q

O que é a técnica de pre-processamento de dados “Binarização e Discretização”?

Answer

A

Técnica que busca transformar dados para um formato de atributos binários ou discretos.

Question 14

Q

O que é a técnica de pre- processamento de dados “Transformaçãode variaveis”?

Answer

A

Essa técnica busca melhorar a eficiência de algoritmos de classificação envolvendo redes neurais e auxiliar técnicas estatísticas que se baseiam na suposição da normalidade dos dados.

Question 15

Q

O que é o CRISP- DM?

Answer

A

É um processo padrão inter indústrias para mineração de dados, formada por etapas.

1° - Entendimento do Negócio: Busca compreender das necessidades gerenciais e dos objetivos e requisitos de negócio que devem ser atendidos pela mineração de dados.

2° - Entendimento dos Dados: Busca identificar os dados relevantes das diferentes fontes de dados.

3° Preparação dos Dados: Busca carregar os dados identificados no passo anterior e prepará-los para análise por métodos de mineração de dados.

4° Construção do Modelo: Busca selecionar e aplicar técnicas de modelagem a um conjunto de dados previamente preparado.

5° Teste de Avaliação: Busca testar e avaliar os modelos desenvolvidos.

6° Implantação: Busca organizar o conhecimento adquirido com a exploração dos dados de forma que o
usuário possa compreendê-lo.

Question 16

Q

O aprendizado pode ser supervisionado ou NÃO supervisionado, quais são supervisionados e quais não são?
- Associação, Agrupamento
- Classificação e Regressão

Answer

A

Apredizado Supervisionado: • Classificação e Regressão

Aprendizado NÃO Supervisionado:
• Associação, Agrupamento

Dica pra gravar: os dois não supervisionados começam com “A”

Question 17

Q

O que são algoritmos agrupados - Hard, Soft, Fuzzy?

Answer

A

Rígidos (hard) - Em agrupamentos rígidos, cada objeto pertence a um único grupo.

Suaves (soft) - Em agrupamentos suaves, cada objeto pertence completamente a mais de um grupo.

Difusos (fuzzy) - Em agrupamentos difusos, cada objeto pertence parcialmente a mais de um grupo.

Question 18

Q

O que é K-Means?

Answer

A

Também conhecido como K- Médias, é um método de agrupamento que agrupa dados em - Kgrupos -.
Ele busca minimizar a soma de todos os quadrados das distâncias entre os pontos dos dados, unindo todos em um ponto chamado centroide.

os pontos desses centroides são escolhidos de forma aleatória.
Associa cada indivíduo
ao centroide mais próximo, obtivo pelo cálculo da menor distância euclidiana
ele recalcula
os centroides com base nos indivíduos classificados, somando as coordenadas dos pontos de cada
grupo e dividindo pela quantidade de pontos (por isso é uma média).

Question 19

Q

O que é Overfitting?

Answer

A

Overfitting é um fenômeno em que um modelo aprendeu padrões dos dados de treinamento que
não generalizam bem para novos dados. Isso significa que o modelo é muito complexo e memorizou
os dados de treinamento, levando a um desempenho ruim em dados inéditos.

Question 20

Q

O tipo de aprendizado máquina, que consiste em treinar um sistema
a partir de dados que não estão rotulados e/ou classificados e utilizar algoritmos que buscam
descobrir padrões ocultos que agrupam as informações de acordo com semelhanças ou diferenças, é denominado:

Answer

A

não estão rotulados e/ou classificados é chamado de aprendizado não supervisionado. Ora, se os dados não são previamente rotulados, então o aprendizado é não-supervisionado.