Mineração De Dados Flashcards

1
Q

O que é um Data Mining?

A

• Data Mining é o processo de descoberta de novas correlações, padrões e tendências entre as informações de uma empresa, por meio da análise de grandes quantidades de dados armazenados em bancos de dados usando técnicas de reconhecimento de padrões, estatísticas e matemáticas.

• Data Mining é o conjunto de ferramentas que permitem ao usuário avaliar tendências e padrões não conhecidos entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como redes neurais, algoritmos genéticos e lógica nebulosa (fuzzy), dentre outras.

• Palavras Chave: exploração; informação implícita desconhecida, teorias; métodos; processos; tecnologias; organizar dados brutos; padrões de comportamentos; tendências; padrões; redes neurais; algoritmos genéticos; lógica nebulosa; análise de conglomerados; agrupamento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quais os objetivos do Data mining, dentro do processo de KDD(Knowledge Discovery in Databases – Descoberta de Conhecimento em Bancos de Dados)?

A

PICO
Previsão: por prognóstico, por meio da mi ereção é possível mostrar como certos atributos se comportarão no futuro.

Identificação: identificar a existência de um item ou uma atividade.

Classificação: por meio da combinação de parâmetros é possível classificar os dados em classes ou categorias.

Otimização: otimizar o uso de recursos limitados, como tempo espaço, dinheiro ou materiais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O processo de extração de cinheci ento efetuado pelo KDD (Knowledge Discovery in Databases – Descoberta de Conhecimento e Bancos de Dados), é realizado em etapas, quais são elas?

A

• Seleção
• Pré-processamento (Limpeza dos dados*)
• Transformação
• Data Mining (Mineração)
• Interpretação

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quais são as técnicas utilizadas no Data Mining(mineração de dados)?

A

• Predição
- Classificação: Hierarquia de classes com base em um conjunto existente de eventos ou transações.
- Regressão: Regra de classificação que é uma função sobre variáveis.

• Clusterização
- Detecção de Anomalias: Particiona dados em segmentos previamente desconhecidos com características semelhantes

• Associação
- Padrões Sequências e Padrões Temporais: Busca descobrir relacionamentos entre variáveis correlacionando a presença de um item com uma faixa de valores para outro conjunto de variáveis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que são as medidas de interesse na etapa de mineração de dados?

A

• Suporte/Prevalência: Trata-se da frequência com que um conjunto de itens específico ocorre no banco de dados, isto é, o percentual de transações que contém todos os itens em um conjunto (Ex: 50% das compras realizadas em um mercado contém arroz e refrigerante).

•Confiança/Força: Trata-se da probabilidade de que exista uma relação entre itens (Ex: 70% dos clientes
que compram fraldas também compram cerveja).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que é o aprendizado de máquina (learning machine)?

A

Trata-se de uma ferramenta poderosa para a aquisição automática de conhecimento por meio da imitação do comportamento de aprendizagem humano com foco em aprender a reconhecer padrões complexos e tomar decisões.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

O que é a mineração de texto?

A

Trata-se de um meio para encontrar padrões interessantes/úteis em um contexto de informações textuais não estruturadas, combinado com alguma tecnologia de extração e de recuperação da informação, processo de linguagem natural e de sumarização ou indexação de documentos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que é a técnica de pre- processamento de dados “Agregação”?

A

A agregação combina dois ou mais atributos (ou objetos) em um único atributo (ou objeto) com a finalidade de reduzir o número de atributos ou objetos, alterar escalas e tornar os dados mais estáveis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

O que é a técnica de pre- processamento de dados “Amostragem”?

A

O princípio básico da amostragem é: usar uma amostra funciona tão bem quanto usar o conjunto
completo de dados, se a amostra for representativa. Ela é representativa se tiver
aproximadamente as mesmas propriedades de interesse do conjunto inicial.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que é a técnica de pre- processamento de dados “Redução de Dimensionalidade”?

A

Essa técnica reduz a quantidade de tempo e memória necessárias pelos
algoritmos de mineração de dados, permitindo que os dados sejam mais facilmente visualizados e ajudando a eliminar características irrelevantes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

O que é a técnica de pre- processamento de dados “Seleção de Subconjuntos de recursos”?

A

Trata-se de outra forma de reduzir a dimensionalidade dos dados, buscando
eliminar características redundantes ou irrelevantes por meio de diversas
abordagens diferentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

O que é a técnica de pre- processamento de dados “Criação de Recursos”?

A

Essa técnica busca criar novos atributos que podem capturar informação
importante em um conjunto de dados muito mais eficientemente que os
atributos originais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

O que é a técnica de pre-processamento de dados “Binarização e Discretização”?

A

Técnica que busca transformar dados para um formato de atributos binários ou discretos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

O que é a técnica de pre- processamento de dados “Transformaçãode variaveis”?

A

Essa técnica busca melhorar a eficiência de algoritmos de classificação envolvendo redes neurais e auxiliar técnicas estatísticas que se baseiam na suposição da normalidade dos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

O que é o CRISP- DM?

A

É um processo padrão inter indústrias para mineração de dados, formada por etapas.

1° - Entendimento do Negócio: Busca compreender das necessidades gerenciais e dos objetivos e requisitos de negócio que devem ser atendidos pela mineração de dados.

2° - Entendimento dos Dados: Busca identificar os dados relevantes das diferentes fontes de dados.

3° Preparação dos Dados: Busca carregar os dados identificados no passo anterior e prepará-los para análise por métodos de mineração de dados.

4° Construção do Modelo: Busca selecionar e aplicar técnicas de modelagem a um conjunto de dados previamente preparado.

5° Teste de Avaliação: Busca testar e avaliar os modelos desenvolvidos.

6° Implantação: Busca organizar o conhecimento adquirido com a exploração dos dados de forma que o
usuário possa compreendê-lo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

O aprendizado pode ser supervisionado ou NÃO supervisionado, quais são supervisionados e quais não são?
- Associação, Agrupamento
- Classificação e Regressão

A

Apredizado Supervisionado: • Classificação e Regressão

Aprendizado NÃO Supervisionado:
• Associação, Agrupamento

Dica pra gravar: os dois não supervisionados começam com “A”

17
Q

O que são algoritmos agrupados - Hard, Soft, Fuzzy?

A

Rígidos (hard) - Em agrupamentos rígidos, cada objeto pertence a um único grupo.

Suaves (soft) - Em agrupamentos suaves, cada objeto pertence completamente a mais de um grupo.

Difusos (fuzzy) - Em agrupamentos difusos, cada objeto pertence parcialmente a mais de um grupo.

18
Q

O que é K-Means?

A

Também conhecido como K- Médias, é um método de agrupamento que agrupa dados em - Kgrupos -.
Ele busca minimizar a soma de todos os quadrados das distâncias entre os pontos dos dados, unindo todos em um ponto chamado centroide.

  • os pontos desses centroides são escolhidos de forma aleatória.
  • Associa cada indivíduo
    ao centroide mais próximo, obtivo pelo cálculo da menor distância euclidiana
  • ele recalcula
    os centroides com base nos indivíduos classificados, somando as coordenadas dos pontos de cada
    grupo e dividindo pela quantidade de pontos (por isso é uma média).
19
Q

O que é Overfitting?

A

Overfitting é um fenômeno em que um modelo aprendeu padrões dos dados de treinamento que
não generalizam bem para novos dados. Isso significa que o modelo é muito complexo e memorizou
os dados de treinamento, levando a um desempenho ruim em dados inéditos.

20
Q

O tipo de aprendizado máquina, que consiste em treinar um sistema
a partir de dados que não estão rotulados e/ou classificados e utilizar algoritmos que buscam
descobrir padrões ocultos que agrupam as informações de acordo com semelhanças ou diferenças, é denominado:

A

não estão rotulados e/ou classificados é chamado de aprendizado não supervisionado. Ora, se os dados não são previamente rotulados, então o aprendizado é não-supervisionado.