Mineração de Dados Flashcards

1
Q

O que é Data Mining?

A

É a exploração de grandes quantidades de dados para identificação de padrões e tendências.
Data Mining também pode ser conceituado como técnica de exploração e análise de dados, de forma automática ou semi-automática, de grandes bases de dados DIGITAIS, com o fito de descobrir padrões e regras.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quais são as classificações do Atributo?

A

Quanto à dependência:
- Dependente (y)
- Independente (x)
(y = ax + b)

Quanto ao seu valor:
- Numérico: Discreto e Contínuo
- Categórico: Nominal e Ordinal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quais os principais objetivos da Mineração de Dados?

A

P: Previsão de comportamento (futuro)
I: Identificação de padrões (em regra, ocultos)
C: Classificação das saídas, conforme padrões identificados
O: Otimização de recursos (redução de custos, aumento de clientela etc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quais são as Fases do Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases)?

A

1- Seleção de dados
2- Pré-processamento
3- Transformação
4- Data Mining
5- Interpretação e Avaliação

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quais são as Técnicas de Pré-Processamento?

A

1- Agregação
2- Amostragem
3- Redução de Dimensionalidade
4- Seleção de subconjuntos de recursos
5- Criação de recursos
6- Binarização e Discretização
7- Transformação de Variáveis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quais as formas mais comuns de Mineração de Dados?

A
  • Classificação
  • Regressão
  • Clusterização ou Agrupamento
  • Associação (associação negativa)
    Padrões de sequência
    Padrões temporais
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quais os métodos para identificação de padrões de dados?

A
  • Modelos simples (consultas SQL, consultas OLAP e julgamento humano)
  • Modelos intermediários (regressão, árvores de decisão e clusterização)
  • Modelos complexos (redes neurais, outras regras de indução)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quais os aspectos motivadores da Mineração de Dados?

A
  • Escalabilidade
  • Alta dimensionalidade
  • Dados complexos e heterogêneos
  • Propriedade e distribuição de dados
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais as Fases do ciclo de vida de projetos de Mineração de Dados segundo o CRISP-DM (Cross Industry Standard Process for Data Mining)?

A

1- Entendimento do negócio
2- Compreensão dos dados
3- Preparação dos dados
4- Modelagem ou Construção do Modelo
5- Teste e Avaliação
6- Implantação

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quais são as Técnicas/Tarefas da Mineração de Dados?

A

Preditivas
- Classificação
- Regressão
Descritivas
- Agrupamento
- Regras de associação

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quais são as classificações de Aprendizado? Classifique as principais Técnicas de Mineração de Dados em cada uma delas.

A

Aprendizado Supervisionado
- Classificação
- Regressão
Aprendizado Não Supervisionado
- Associação
- Agrupamento

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quais são os principais problemas e soluções do Pré-Processamento de Dados?

A
  • Valores ausentes;
  • Dados inconsistentes;
  • Redução de dimensionalidade;
  • Normalização numérica;
  • Discretização;
  • Anomalias (outliers);
  • Dados categóricos;
  • Classes desbalanceadas.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Defina a técnica de mineração de dados Classificação e cite os seus principais algoritmos.

A

A técnica de classificação utiliza um algoritmo de aprendizado supervisionado a fim de distribuir um conjunto de dados de entrada em categorias ou classes pré-definidas de saída para realizar a análise de dados.
Principais algoritmos classificadores:
- k-NN (k-Nearest Neighbours) – também chamado de k-Vizinhos Mais Próximos
- Árvores de decisão
- Florestas aleatórias
- Classificador Naive Bayes
- Support Vector Machine (SVM)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Defina a técnica de mineração de dados Regressão e cite os seus principais algoritmos.

A

Na regressão, em vez de prever
uma categoria, o objetivo é prever um número.
A Regressão depende muitas vezes de dezenas ou mesmo milhares de variáveis ou
características que descrevam cada exemplo e encontra uma equação ou curva para ajustar os
pontos de dados.

  • Regressão linear
    y = a + bx
    em que a e b são coeficientes de regressão (pesos) e especificam o intercepto do eixo y e a inclinação
    da reta, respectivamente.
    A regressão linear é um tipo de algoritmo de aprendizado de máquina supervisionado utilizado na
    mineração de dados. Ela é usada para prever uma variável de destino contínua ajustando uma
    equação linear aos pontos de dados. Baseia-se na relação entre as variáveis independentes
    (preditoras) e a variável dependente (alvo). O algoritmo de regressão linear encontra a melhor linha
    de ajuste que minimiza a soma dos erros quadrados.
  • Regressão logística
    Na mineração de dados, a regressão logística é uma técnica de modelagem preditiva utilizada para
    problemas de classificação.
    vistos.
    A regressão logística é usada para identificar padrões
    em grandes conjuntos de dados e para estimar a probabilidade de um determinado evento ocorrer.

Variável Dependente: Na regressão linear, a variável dependente é contínua, enquanto na regressão logística é categórica ou binária (0 ou 1; sim ou não).
Relação: Na regressão linear, busca-se uma relação linear entre a variável dependente e as variáveis independentes, enquanto na regressão logística a relação é não-linear.

Algoritmos:
- Florestas aleatórias
- SVM (Support Vector Machine)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Defina a técnica de mineração de dados Análise de Agrupamentos e cite os seus principais algoritmos.

A

Análise de agrupamentos (também chamados de clusters, grupos, aglomerados, segmentos,
partições ou agregações) é uma técnica que visa fazer agrupamentos automáticos de dados
segundo o seu grau de semelhança, permitindo a descoberta por faixa de valores e pelo exame de
atributos das entidades envolvidas. Como o nome sugere, o objetivo é descobrir diferentes
clusters em uma massa de dados e agrupá-los de uma forma que ajude com sua análise.
Esta tarefa difere da classificação uma vez não necessita que
os registros sejam previamente categorizados – trata-se de um aprendizado não-supervisionado.
Além disso, ela não tem a pretensão de classificar, estimar ou predizer o valor de uma variável, ela
apenas identifica os grupos de dados similares.

Algoritmos:
- K-Médias ou K-Means
O K-Means é um algoritmo de agrupamento que basicamente agrupa dados em k grupos, em que
k é um valor arbitrário definido pelo usuário. Logo, é necessário ter ao menos uma variável para
realizar o agrupamento.
- K-Medoides
- Fuzzy K-Médias
- Árvore Geradora Mínima (Minimal Spanning Tree – MST)
- DBSCAN (Density Based Spatial Clustering of Applications With Noise)
- Misturas Gaussianas
- Single/Complete-Linkage

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Defina a técnica de mineração de dados Associação e cite os seus principais algoritmos.

A

No data mining, uma das formas de se obter conhecimento é por meio das Regras de Associação, que buscam eventuais associações entre 2 determinados produtos, um denominado antecedente e o outro, consequente. Uma medida utilizada nesse tipo de regra é denominada ‘suporte’, que representa a fração da população-alvo que satisfaz o antecedente e o consequente.

O suporte de uma regra denota-se por X ⇒ Y, onde X (antecedente) e Y (consequente) são conjuntos de itens cuja fórmula é:

suporte = Frequência de antecedente(X) e consequente(Y) / Total de transações(T)

Uma das principais tecnologias de mineração de dados envolve a descoberta de regras de
associação.
Geralmente as regras de associação são escritas em um formato como: se [algo acontecer], então [algo acontecerá] ou se [evento], então [ações].
Na mineração de dados, uma regra de associação é um evento que relaciona a presença de um
conjunto de itens com outra faixa de valores de um outro conjunto de variáveis.
Uma regra de associação pode ser vista como uma expressão da forma X → Y, onde há a relação dos valores
de X e Y em um certo conjunto de valores (Ex: {fralda} → {cerveja}).

Existem duas variações comuns de regras de associação: padrões sequenciais e os padrões
temporais.

Existem duas medidas capazes de indicar a qualidade ou grau de certeza de uma regra de
associação. São elas: suporte e confiança.

Dada uma regra A Þ B, a sua medida de suporte (Sup) representa a porcentagem de transações da base de dados que contêm os itens de A e B, indicando a relevância da mesma. Já a sua medida de confiança (Conf) representa, dentre as transações que possuem os itens de A, a porcentagem de transações que possuem também os itens de B, indicando a validade da regra.

conf (X → Y) = sup ( X ∪
Y) / sup (X)

  • suporte: compara em relação a todo o banco de dados
  • confiança: compara somente no universo do que se está usando a regra de associação

Algoritmos:
- Apriori
O algoritmo apriori é um método de mineração de dados não supervisionado utilizado para minerar
conjuntos de dados frequentes e regras de associação relevantes.
- FP-Growth (Frequent Pattern – Growth)

17
Q

Explique a Técnica de Detecção de Anomalias?

A

A detecção de anomalias pode ser vista como o outro lado do cluster — ou seja, encontrar instâncias
de dados que são incomuns e não se enquadram em nenhum padrão estabelecido. A detecção de fraude
é um exemplo de detecção de anomalias.
A detecção de anomalias em bases de dados é essencialmente um problema de classificação
binária, no qual se deseja determinar se um ou mais objetos pertencem à classe normal ou à classe
anômala.
A tarefa de detecção de anomalias é um caso particular de problema de classificação binária onde
a quantidade de objetos da classe alvo (anomalia) é muito inferior à quantidade de objetos da classe
normal e, adicionalmente, o custo da não detecção de uma anomalia (falso negativo) é normalmente muito maior do que identificar um objeto normal como uma anomalia (falso
positivo).