Aula 16 - Data Mining Flashcards
Data Mining (Mineração de Dados) - Conceito
- IDENTIFICAR PADRÕES e TENDÊNCIAS
- A mineração de dados é um processo de negócio para explorar grandes quantidades de dados para descobrir padrões e regras significativas (2011).
- Data Mining é um processo de análise de dados, que busca a DESCOBERTA de PADRÕES interessantes, que possam ser ÚTEIS ao negócio. Perceba que a palavra “descoberta” implica que tais padrões eram, a priori, desconhecidos antes da aplicação dos métodos de Data Mining.
- Não se trata propriamente de uma nova disciplina, mas uma INTERSEÇÃO de várias outras (especialmente Matemática, Estatística e Ciência da Computação).
- Data Mining é considerado uma das técnicas de um processo mais geral conhecido como KDD (Knowledge Discovery in Databases – Descoberta de Conhecimento em Bases de Dados). Muitas vezes DM também é referenciado como uma das FASES do processo de KDD.
- Data Mining é uma técnica INDUTIVA de obtenção de conhecimento, já que ela se utiliza de exemplos para chegar ao conhecimento. Já técnicas DEDUTIVAS usam um processo de argumentação lógica para obter o conhecimento.
- Mineração de texto (text Mining): é a aplicação de data mining em arquivos de texto não estruturados ou menos estruturados.
Data Warehouse x Data Mart x Data Mining
- Um Data Warehouse é um repositório de dados construído para apoio à tomada de decisão numa organização, e pode ser constituído a partir de vários Data Marts.
- Data Mining é um processo de descoberta de conhecimento, radicalmente diferente dos outros dois.
OBJETIVOS mais comuns do Data Mining:
OBJETIVOS do Data Mining:
- Previsão
- Identificação
- Classificação/Clusterização
(Diferença entre as elas)
= Classificar um novo objeto é determinar com que grupo (ou classe) de objetos, já classificados anteriormente, esse novo objeto apresenta mais semelhança.
= Clusterização é AGRUPAR baseado em medidas de semelhança, definir quantas e quais classes existem em um conjunto de entidades. - Otimização
Aspectos Motivadores da Mineração de Dados:
- Escalabilidade: devido aos avanços na geração e coleta, conjuntos de dados com tamanhos em giga, tera e mesmo petabytes estão se tornando comuns;
- Alta Dimensionalidade: é comum encontrarmos conjuntos de dados com centenas ou milhares de atributos ao invés do punhado comum de uma década atrás;
- Dados Complexos e Heterogêneos: diversificação de tipos de atributos e relacionamentos entre eles;
- Propriedade e Distribuição dos dados: os dados utilizados para análise nem sempre estão mais num mesmo local e pertencem a múltiplas instâncias organizacionais;
- Análises Não Tradicionais: novas técnicas para validação de hipóteses têm surgido atualmente.
Processo de Descoberta de Conhecimento em Base de Dados (KDD - Knowledge Discovery in Databases)
[DATA MINING faz parte das etapas desse processo]
- KDD é pluridisciplinar, pois envolve banco de dados, técnicas de estatísticas, redes neurais, de aprendizado de máquinas, de reconhecimento de padrões e de visualização de dados.
=> Processo de KDD proposto por Usama Fayyad (1996)
O processo de KDD é interativo (pois o usuário pode intervir e controlar o curso das atividades) e iterativo (por ser uma sequência finita de operações em que o resultado de cada uma é dependente dos resultados das que a precedem), com os passos listados a seguir:
- Seleção
- Pré Processamento e Limpeza
- Transformação
- Data Mining
- Interpretação e Avaliação
- Agir a partir do conhecimento descoberto.
Fayyad et al. (1996) destaca o processo de descoberta de conhecimento de forma mais simplificada, baseada em três etapas: Preparação, Data Mining e Análise de Dados.
Algumas técnicas de pré-processamento:
Algumas técnicas de pré-processamento:
• análise de Outliers (registros que apresentam grande discrepância em relação à maioria dos registros). A figura seguinte identifica visualmente a presença de outliers, em que os pontos externos aos polígonos são valores fora dos padrões da população observada.
• remoção de ruídos ou dados espúrios (dados medidos errados);
• estimativa de dados faltantes por modelagem;
• formatação dos dados para a ferramenta específica;
• criação de atributos derivados e de novos registros;
• integração de tabelas;
• discretização de dados numéricos;
Abordagens do Pré-processamento de Dados:
Abordagens do Pré-processamento de Dados
• Agregação: combinar dois ou mais objetos em um único.
• Amostragem: selecionar um subconjunto dos objetos de dados a serem analisados.
• Redução de dimensionalidade: diminuir o número de atributos para facilitar a análise (uso de técnicas de álgebra linear).
• Seleção de subconjuntos de recursos: eliminar características irrelevantes ou redundantes (senso comum).
• Criação de recursos (características): criar, a partir dos originais, um novo conjunto de atributos que capture as informações importantes em um conjunto de dados muito mais eficazmente (extrair faces de uma foto).
• Discretização e binarização: categorizar atributos para facilitar o uso de algoritmos de classificação.
• Transformação de variáveis: transformar atributos ou variáveis, por exemplo, uso do valor absoluto.
Projeto CRISP-DM (CRoss Industry Standard Process for Data Mining - Processo Padrão Inter-Indústrias para Mineração de Dados)
- Modelo de processos genéricos, com o intuito de padronizar as etapas do processo de mineração de dados
A metodologia CRISP-DM é descrita como um modelo de processo hierárquico constituído por um conjunto de tarefas descritas em QUATRO NÍVEIS de ABSTRAÇÃO.
• No seu nível mais elevado são definidas 6 fases.
(1) Entendimento do Negócio (Business Understanding)
- entendimento do negócio
(2) Seleção dos Dados (Data Understanding)
- entendimento dos dados
(3) Limpeza dos Dados ou Preparação dos Dados (Data Preparation)
(4) Modelagem dos Dados (Modeling)
- Técnicas são baseadas em conceitos de: aprendizagem de máquina; reconhecimento de padrões; estatística; clusterização, …
(5) Avaliação do processo (Evaluation)
- Visa garantir que o modelo gerado atenda às expectativas da organização.
(6) Execução (Deployment)
- Cada fase é composta por um número de TAREFAS GENÉRICAS concebidas com a finalidade de cobrir todas as possíveis situações de Data Mining.
- Cada tarefa genérica é subdividida em TAREFAS ESPECIALIZADAS que serão ou não executadas de acordo com o tipo do problema que se pretende resolver. Neste nível, pretende-se descrever de que forma terão lugar as ações que fazem parte de uma tarefa genérica numa determinada situação.
- O último nível diz respeito ao INSTANCIAMENTO do PROCESSO, através do registo das ações, decisões e resultados de um trabalho de Data Mining.