Data Mining Flashcards

Question 1

Q

O fator de suporte e o fator de confiança são dois índices utilizados para definir o grau de certeza de uma regra de associação.

Answer

A

Correto.

As regras de associação buscam descobrir padrões de ocorrência entre diferentes elementos em um grande conjunto de dados. O exemplo mais comum é o de dados de cesta de mercado. Uma cesta de mercado é um conjunto de itens que um cliente comprou em um mercado. Uma regra de associação tem o seguinte formato:

X → Y

Onde X e Y são conjunto de itens que um cliente comprou, sendo todos os itens distintos. Essa regra nos diz que se um cliente compra X, então ele muito provavelmente irá comprar Y. O conjunto X U Y é chamado de itemset, que é o conjunto de todos os itens comprados pelo cliente.

Duas medidas nos informam a qualidade da regra de associação (ou grau de certeza): suporte e confiança. Vamos ver cada uma delas:

O suporte para uma regra X → Y é a frequência em que o itemset (ou seja, X U Y) aparece nas transações do banco. Um suporte baixo nos leva a crer que os itens do conjunto X e Y não costumam ser comprados juntos, pois ocorrem com pouca frequência no banco.

A confiança para uma regra X → Y é a força com que a regra funciona. Ela é calculada pelo suporte (X U Y)/suporte (X). Em outras palavras, é a frequência dos itens Y serem comprados dado que os itens X foram comprados.

Question 2

Q

Os principais métodos de análise de agrupamentos em mineração de dados incluem redes neurais, lógica difusa, métodos estatísticos e algoritmos genéticos.

Answer

A

Correto.

Agrupamento/Aglomeração/Clustering é nada mais que encontrar o padrão que existe entre grupo de dados!

Vamos supor que o grupo de dados são a respeito de pessoas, então um agrupamento disso seria separar as pessoas por grupos dependendo das suas característica.

Essas características são automaticamente (não há grupos pré-definidos como na classificação) encontradas para detectar padrões e relações em um conjunto de dados e isso se chama aprendizado não-supervisionado.

As principais técnicas de análise de agrupamento (clustering) incluem:
Rede Neurais
Árvore de Decisão
Algoritmos Genéticos
Lógica Fuzzy (Difusa)
Estatística

Portanto, os principais métodos de análise de agrupamentos em mineração de dados incluem redes neurais, lógica difusa, métodos estatísticos e algoritmos genéticos.

Question 3

Q

A técnica de associação é utilizada para indicar um grau de afinidade entre registros de eventos diferentes, para permitir o processo de data mining.

Answer

A

As principais tarefas usadas no Data Mining são:
Associações;
Sequências;
Classificação e
Aglomeração (clustering).

A tarefa de associação consiste em identificar quais atributos estão relacionados (grau de afinidade entre registros).
Apresentam a forma: SE atributo X ENTÃO atributo Y.

É uma das tarefas mais conhecidas devido aos bons resultados obtidos, principalmente nas análises da “Cestas de Compras”(Market Basket), onde identificamos quais produtos são levados juntos pelos consumidores.
Alguns exemplos:
Determinar os casos onde um novo medicamento pode apresentar efeitos colaterais;
Identificar os usuários de planos que respondem bem a oferta de novos serviços.

Enxergando visualmente para facilitar, vemos que um exemplo de um mercado, onde se uma pessoa compra leite (Note que temos 2 eventos diferentes, a compra do leite e a compra do pão):
71% de chance de levar pão; SE leite ENTÃO pão = 71%.
43% de chance de levar ovo; SE leite ENTÃO ovo = 43%.
29% de chance de levar papel higiénico. SE leite ENTÃO papel_higiênico = 29%.

Portanto, a técnica de associação é utilizada para indicar um grau de afinidade entre registros de eventos diferentes, para permitir o processo de data mining.

Data Mining Flashcards

(3 cards)