Data Mining Flashcards
O fator de suporte e o fator de confiança são dois índices utilizados para definir o grau de certeza de uma regra de associação.
Correto.
As regras de associação buscam descobrir padrões de ocorrência entre diferentes elementos em um grande conjunto de dados. O exemplo mais comum é o de dados de cesta de mercado. Uma cesta de mercado é um conjunto de itens que um cliente comprou em um mercado. Uma regra de associação tem o seguinte formato:
X → Y
Onde X e Y são conjunto de itens que um cliente comprou, sendo todos os itens distintos. Essa regra nos diz que se um cliente compra X, então ele muito provavelmente irá comprar Y. O conjunto X U Y é chamado de itemset, que é o conjunto de todos os itens comprados pelo cliente.
Duas medidas nos informam a qualidade da regra de associação (ou grau de certeza): suporte e confiança. Vamos ver cada uma delas:
O suporte para uma regra X → Y é a frequência em que o itemset (ou seja, X U Y) aparece nas transações do banco. Um suporte baixo nos leva a crer que os itens do conjunto X e Y não costumam ser comprados juntos, pois ocorrem com pouca frequência no banco.
A confiança para uma regra X → Y é a força com que a regra funciona. Ela é calculada pelo suporte (X U Y)/suporte (X). Em outras palavras, é a frequência dos itens Y serem comprados dado que os itens X foram comprados.
Os principais métodos de análise de agrupamentos em mineração de dados incluem redes neurais, lógica difusa, métodos estatísticos e algoritmos genéticos.
Correto.
Agrupamento/Aglomeração/Clustering é nada mais que encontrar o padrão que existe entre grupo de dados!
Vamos supor que o grupo de dados são a respeito de pessoas, então um agrupamento disso seria separar as pessoas por grupos dependendo das suas característica.
Essas características são automaticamente (não há grupos pré-definidos como na classificação) encontradas para detectar padrões e relações em um conjunto de dados e isso se chama aprendizado não-supervisionado.
As principais técnicas de análise de agrupamento (clustering) incluem:
Rede Neurais
Árvore de Decisão
Algoritmos Genéticos
Lógica Fuzzy (Difusa)
Estatística
Portanto, os principais métodos de análise de agrupamentos em mineração de dados incluem redes neurais, lógica difusa, métodos estatísticos e algoritmos genéticos.
A técnica de associação é utilizada para indicar um grau de afinidade entre registros de eventos diferentes, para permitir o processo de data mining.
As principais tarefas usadas no Data Mining são:
Associações;
Sequências;
Classificação e
Aglomeração (clustering).
A tarefa de associação consiste em identificar quais atributos estão relacionados (grau de afinidade entre registros).
Apresentam a forma: SE atributo X ENTÃO atributo Y.
É uma das tarefas mais conhecidas devido aos bons resultados obtidos, principalmente nas análises da “Cestas de Compras”(Market Basket), onde identificamos quais produtos são levados juntos pelos consumidores.
Alguns exemplos:
Determinar os casos onde um novo medicamento pode apresentar efeitos colaterais;
Identificar os usuários de planos que respondem bem a oferta de novos serviços.
Enxergando visualmente para facilitar, vemos que um exemplo de um mercado, onde se uma pessoa compra leite (Note que temos 2 eventos diferentes, a compra do leite e a compra do pão):
71% de chance de levar pão; SE leite ENTÃO pão = 71%.
43% de chance de levar ovo; SE leite ENTÃO ovo = 43%.
29% de chance de levar papel higiénico. SE leite ENTÃO papel_higiênico = 29%.
Portanto, a técnica de associação é utilizada para indicar um grau de afinidade entre registros de eventos diferentes, para permitir o processo de data mining.