Mineração de Dados Flashcards
O que é Data Mining?
É a exploração de grandes quantidades de dados para identificação de padrões e tendências.
Data Mining também pode ser conceituado como técnica de exploração e análise de dados, de forma automática ou semi-automática, de grandes bases de dados DIGITAIS, com o fito de descobrir padrões e regras.
Quais são as classificações do Atributo?
Quanto à dependência:
- Dependente (y)
- Independente (x)
(y = ax + b)
Quanto ao seu valor:
- Numérico: Discreto e Contínuo
- Categórico: Nominal e Ordinal
Quais os principais objetivos da Mineração de Dados?
P: Previsão de comportamento (futuro)
I: Identificação de padrões (em regra, ocultos)
C: Classificação das saídas, conforme padrões identificados
O: Otimização de recursos (redução de custos, aumento de clientela etc.)
Quais são as Fases do Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases)?
1- Seleção de dados
2- Pré-processamento
3- Transformação
4- Data Mining
5- Interpretação e Avaliação
Quais são as Técnicas de Pré-Processamento?
1- Agregação
2- Amostragem
3- Redução de Dimensionalidade
4- Seleção de subconjuntos de recursos
5- Criação de recursos
6- Binarização e Discretização
7- Transformação de Variáveis
Quais as formas mais comuns de Mineração de Dados?
- Classificação
- Regressão
- Clusterização ou Agrupamento
- Associação (associação negativa)
Padrões de sequência
Padrões temporais
Quais os métodos para identificação de padrões de dados?
- Modelos simples (consultas SQL, consultas OLAP e julgamento humano)
- Modelos intermediários (regressão, árvores de decisão e clusterização)
- Modelos complexos (redes neurais, outras regras de indução)
Quais os aspectos motivadores da Mineração de Dados?
- Escalabilidade
- Alta dimensionalidade
- Dados complexos e heterogêneos
- Propriedade e distribuição de dados
Quais as Fases do ciclo de vida de projetos de Mineração de Dados segundo o CRISP-DM (Cross Industry Standard Process for Data Mining)?
1- Entendimento do negócio
2- Compreensão dos dados
3- Preparação dos dados
4- Modelagem ou Construção do Modelo
5- Teste e Avaliação
6- Implantação
Quais são as Técnicas/Tarefas da Mineração de Dados?
Preditivas
- Classificação
- Regressão
Descritivas
- Agrupamento
- Regras de associação
Quais são as classificações de Aprendizado? Classifique as principais Técnicas de Mineração de Dados em cada uma delas.
Aprendizado Supervisionado
- Classificação
- Regressão
Aprendizado Não Supervisionado
- Associação
- Agrupamento
Quais são os principais problemas e soluções do Pré-Processamento de Dados?
- Valores ausentes;
- Dados inconsistentes;
- Redução de dimensionalidade;
- Normalização numérica;
- Discretização;
- Anomalias (outliers);
- Dados categóricos;
- Classes desbalanceadas.
Defina a técnica de mineração de dados Classificação e cite os seus principais algoritmos.
A técnica de classificação utiliza um algoritmo de aprendizado supervisionado a fim de distribuir um conjunto de dados de entrada em categorias ou classes pré-definidas de saída para realizar a análise de dados.
Principais algoritmos classificadores:
- k-NN (k-Nearest Neighbours) – também chamado de k-Vizinhos Mais Próximos
- Árvores de decisão
- Florestas aleatórias
- Classificador Naive Bayes
- Support Vector Machine (SVM)
Defina a técnica de mineração de dados Regressão e cite os seus principais algoritmos.
Na regressão, em vez de prever
uma categoria, o objetivo é prever um número.
A Regressão depende muitas vezes de dezenas ou mesmo milhares de variáveis ou
características que descrevam cada exemplo e encontra uma equação ou curva para ajustar os
pontos de dados.
- Regressão linear
y = a + bx
em que a e b são coeficientes de regressão (pesos) e especificam o intercepto do eixo y e a inclinação
da reta, respectivamente.
A regressão linear é um tipo de algoritmo de aprendizado de máquina supervisionado utilizado na
mineração de dados. Ela é usada para prever uma variável de destino contínua ajustando uma
equação linear aos pontos de dados. Baseia-se na relação entre as variáveis independentes
(preditoras) e a variável dependente (alvo). O algoritmo de regressão linear encontra a melhor linha
de ajuste que minimiza a soma dos erros quadrados. - Regressão logística
Na mineração de dados, a regressão logística é uma técnica de modelagem preditiva utilizada para
problemas de classificação.
vistos.
A regressão logística é usada para identificar padrões
em grandes conjuntos de dados e para estimar a probabilidade de um determinado evento ocorrer.
Variável Dependente: Na regressão linear, a variável dependente é contínua, enquanto na regressão logística é categórica ou binária (0 ou 1; sim ou não).
Relação: Na regressão linear, busca-se uma relação linear entre a variável dependente e as variáveis independentes, enquanto na regressão logística a relação é não-linear.
Algoritmos:
- Florestas aleatórias
- SVM (Support Vector Machine)
Defina a técnica de mineração de dados Análise de Agrupamentos e cite os seus principais algoritmos.
Análise de agrupamentos (também chamados de clusters, grupos, aglomerados, segmentos,
partições ou agregações) é uma técnica que visa fazer agrupamentos automáticos de dados
segundo o seu grau de semelhança, permitindo a descoberta por faixa de valores e pelo exame de
atributos das entidades envolvidas. Como o nome sugere, o objetivo é descobrir diferentes
clusters em uma massa de dados e agrupá-los de uma forma que ajude com sua análise.
Esta tarefa difere da classificação uma vez não necessita que
os registros sejam previamente categorizados – trata-se de um aprendizado não-supervisionado.
Além disso, ela não tem a pretensão de classificar, estimar ou predizer o valor de uma variável, ela
apenas identifica os grupos de dados similares.
Algoritmos:
- K-Médias ou K-Means
O K-Means é um algoritmo de agrupamento que basicamente agrupa dados em k grupos, em que
k é um valor arbitrário definido pelo usuário. Logo, é necessário ter ao menos uma variável para
realizar o agrupamento.
- K-Medoides
- Fuzzy K-Médias
- Árvore Geradora Mínima (Minimal Spanning Tree – MST)
- DBSCAN (Density Based Spatial Clustering of Applications With Noise)
- Misturas Gaussianas
- Single/Complete-Linkage
Defina a técnica de mineração de dados Associação e cite os seus principais algoritmos.
No data mining, uma das formas de se obter conhecimento é por meio das Regras de Associação, que buscam eventuais associações entre 2 determinados produtos, um denominado antecedente e o outro, consequente. Uma medida utilizada nesse tipo de regra é denominada ‘suporte’, que representa a fração da população-alvo que satisfaz o antecedente e o consequente.
O suporte de uma regra denota-se por X ⇒ Y, onde X (antecedente) e Y (consequente) são conjuntos de itens cuja fórmula é:
suporte = Frequência de antecedente(X) e consequente(Y) / Total de transações(T)
Uma das principais tecnologias de mineração de dados envolve a descoberta de regras de
associação.
Geralmente as regras de associação são escritas em um formato como: se [algo acontecer], então [algo acontecerá] ou se [evento], então [ações].
Na mineração de dados, uma regra de associação é um evento que relaciona a presença de um
conjunto de itens com outra faixa de valores de um outro conjunto de variáveis.
Uma regra de associação pode ser vista como uma expressão da forma X → Y, onde há a relação dos valores
de X e Y em um certo conjunto de valores (Ex: {fralda} → {cerveja}).
Existem duas variações comuns de regras de associação: padrões sequenciais e os padrões
temporais.
Existem duas medidas capazes de indicar a qualidade ou grau de certeza de uma regra de
associação. São elas: suporte e confiança.
Dada uma regra A Þ B, a sua medida de suporte (Sup) representa a porcentagem de transações da base de dados que contêm os itens de A e B, indicando a relevância da mesma. Já a sua medida de confiança (Conf) representa, dentre as transações que possuem os itens de A, a porcentagem de transações que possuem também os itens de B, indicando a validade da regra.
conf (X → Y) = sup ( X ∪
Y) / sup (X)
- suporte: compara em relação a todo o banco de dados
- confiança: compara somente no universo do que se está usando a regra de associação
Algoritmos:
- Apriori
O algoritmo apriori é um método de mineração de dados não supervisionado utilizado para minerar
conjuntos de dados frequentes e regras de associação relevantes.
- FP-Growth (Frequent Pattern – Growth)
Explique a Técnica de Detecção de Anomalias?
A detecção de anomalias pode ser vista como o outro lado do cluster — ou seja, encontrar instâncias
de dados que são incomuns e não se enquadram em nenhum padrão estabelecido. A detecção de fraude
é um exemplo de detecção de anomalias.
A detecção de anomalias em bases de dados é essencialmente um problema de classificação
binária, no qual se deseja determinar se um ou mais objetos pertencem à classe normal ou à classe
anômala.
A tarefa de detecção de anomalias é um caso particular de problema de classificação binária onde
a quantidade de objetos da classe alvo (anomalia) é muito inferior à quantidade de objetos da classe
normal e, adicionalmente, o custo da não detecção de uma anomalia (falso negativo) é normalmente muito maior do que identificar um objeto normal como uma anomalia (falso
positivo).