Mineração de Dados Flashcards
O que é Data Mining?
É a exploração de grandes quantidades de dados para identificação de padrões e tendências.
Data Mining também pode ser conceituado como técnica de exploração e análise de dados, de forma automática ou semi-automática, de grandes bases de dados DIGITAIS, com o fito de descobrir padrões e regras.
Quais são as classificações do Atributo?
Quanto à dependência:
- Dependente (y)
- Independente (x)
(y = ax + b)
Quanto ao seu valor:
- Numérico: Discreto e Contínuo
- Categórico: Nominal e Ordinal
Quais os principais objetivos da Mineração de Dados?
P: Previsão de comportamento (futuro)
I: Identificação de padrões (em regra, ocultos)
C: Classificação das saídas, conforme padrões identificados
O: Otimização de recursos (redução de custos, aumento de clientela etc.)
Quais são as Fases do Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases)?
1- Seleção de dados
2- Pré-processamento
3- Transformação
4- Data Mining
5- Interpretação e Avaliação
Quais são as Técnicas de Pré-Processamento?
1- Agregação
2- Amostragem
3- Redução de Dimensionalidade
4- Seleção de subconjuntos de recursos
5- Criação de recursos
6- Binarização e Discretização
7- Transformação de Variáveis
Quais as formas mais comuns de Mineração de Dados?
- Classificação
- Regressão
- Clusterização ou Agrupamento
- Associação (associação negativa)
Padrões de sequência
Padrões temporais
Quais os métodos para identificação de padrões de dados?
- Modelos simples (consultas SQL, consultas OLAP e julgamento humano)
- Modelos intermediários (regressão, árvores de decisão e clusterização)
- Modelos complexos (redes neurais, outras regras de indução)
Quais os aspectos motivadores da Mineração de Dados?
- Escalabilidade
- Alta dimensionalidade
- Dados complexos e heterogêneos
- Propriedade e distribuição de dados
Quais as Fases do ciclo de vida de projetos de Mineração de Dados segundo o CRISP-DM (Cross Industry Standard Process for Data Mining)?
1- Entendimento do negócio
2- Compreensão dos dados
3- Preparação dos dados
4- Modelagem ou Construção do Modelo
5- Teste e Avaliação
6- Implantação
Quais são as Técnicas/Tarefas da Mineração de Dados?
Preditivas
- Classificação
- Regressão
Descritivas
- Agrupamento
- Regras de associação
Quais são as classificações de Aprendizado? Classifique as principais Técnicas de Mineração de Dados em cada uma delas.
Aprendizado Supervisionado
- Classificação
- Regressão
Aprendizado Não Supervisionado
- Associação
- Agrupamento
Quais são os principais problemas e soluções do Pré-Processamento de Dados?
- Valores ausentes;
- Dados inconsistentes;
- Redução de dimensionalidade;
- Normalização numérica;
- Discretização;
- Anomalias (outliers);
- Dados categóricos;
- Classes desbalanceadas.
Defina a técnica de mineração de dados Classificação e cite os seus principais algoritmos.
A técnica de classificação utiliza um algoritmo de aprendizado supervisionado a fim de distribuir um conjunto de dados de entrada em categorias ou classes pré-definidas de saída para realizar a análise de dados.
Principais algoritmos classificadores:
- k-NN (k-Nearest Neighbours) – também chamado de k-Vizinhos Mais Próximos
- Árvores de decisão
- Florestas aleatórias
- Classificador Naive Bayes
- Support Vector Machine (SVM)
Defina a técnica de mineração de dados Regressão e cite os seus principais algoritmos.
Na regressão, em vez de prever
uma categoria, o objetivo é prever um número.
A Regressão depende muitas vezes de dezenas ou mesmo milhares de variáveis ou
características que descrevam cada exemplo e encontra uma equação ou curva para ajustar os
pontos de dados.
- Regressão linear
y = a + bx
em que a e b são coeficientes de regressão (pesos) e especificam o intercepto do eixo y e a inclinação
da reta, respectivamente.
A regressão linear é um tipo de algoritmo de aprendizado de máquina supervisionado utilizado na
mineração de dados. Ela é usada para prever uma variável de destino contínua ajustando uma
equação linear aos pontos de dados. Baseia-se na relação entre as variáveis independentes
(preditoras) e a variável dependente (alvo). O algoritmo de regressão linear encontra a melhor linha
de ajuste que minimiza a soma dos erros quadrados. - Regressão logística
Na mineração de dados, a regressão logística é uma técnica de modelagem preditiva utilizada para
problemas de classificação.
vistos.
A regressão logística é usada para identificar padrões
em grandes conjuntos de dados e para estimar a probabilidade de um determinado evento ocorrer.
Variável Dependente: Na regressão linear, a variável dependente é contínua, enquanto na regressão logística é categórica ou binária (0 ou 1; sim ou não).
Relação: Na regressão linear, busca-se uma relação linear entre a variável dependente e as variáveis independentes, enquanto na regressão logística a relação é não-linear.
Algoritmos:
- Florestas aleatórias
- SVM (Support Vector Machine)
Defina a técnica de mineração de dados Análise de Agrupamentos e cite os seus principais algoritmos.
Análise de agrupamentos (também chamados de clusters, grupos, aglomerados, segmentos,
partições ou agregações) é uma técnica que visa fazer agrupamentos automáticos de dados
segundo o seu grau de semelhança, permitindo a descoberta por faixa de valores e pelo exame de
atributos das entidades envolvidas. Como o nome sugere, o objetivo é descobrir diferentes
clusters em uma massa de dados e agrupá-los de uma forma que ajude com sua análise.
Esta tarefa difere da classificação uma vez não necessita que
os registros sejam previamente categorizados – trata-se de um aprendizado não-supervisionado.
Além disso, ela não tem a pretensão de classificar, estimar ou predizer o valor de uma variável, ela
apenas identifica os grupos de dados similares.
Algoritmos:
- K-Médias ou K-Means
O K-Means é um algoritmo de agrupamento que basicamente agrupa dados em k grupos, em que
k é um valor arbitrário definido pelo usuário. Logo, é necessário ter ao menos uma variável para
realizar o agrupamento.
- K-Medoides
- Fuzzy K-Médias
- Árvore Geradora Mínima (Minimal Spanning Tree – MST)
- DBSCAN (Density Based Spatial Clustering of Applications With Noise)
- Misturas Gaussianas
- Single/Complete-Linkage