Mineração De Dados Flashcards
O que é um Data Mining?
• Data Mining é o processo de descoberta de novas correlações, padrões e tendências entre as informações de uma empresa, por meio da análise de grandes quantidades de dados armazenados em bancos de dados usando técnicas de reconhecimento de padrões, estatísticas e matemáticas.
• Data Mining é o conjunto de ferramentas que permitem ao usuário avaliar tendências e padrões não conhecidos entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como redes neurais, algoritmos genéticos e lógica nebulosa (fuzzy), dentre outras.
• Palavras Chave: exploração; informação implícita desconhecida, teorias; métodos; processos; tecnologias; organizar dados brutos; padrões de comportamentos; tendências; padrões; redes neurais; algoritmos genéticos; lógica nebulosa; análise de conglomerados; agrupamento.
Quais os objetivos do Data mining, dentro do processo de KDD(Knowledge Discovery in Databases – Descoberta de Conhecimento em Bancos de Dados)?
PICO
Previsão: por prognóstico, por meio da mi ereção é possível mostrar como certos atributos se comportarão no futuro.
Identificação: identificar a existência de um item ou uma atividade.
Classificação: por meio da combinação de parâmetros é possível classificar os dados em classes ou categorias.
Otimização: otimizar o uso de recursos limitados, como tempo espaço, dinheiro ou materiais.
O processo de extração de cinheci ento efetuado pelo KDD (Knowledge Discovery in Databases – Descoberta de Conhecimento e Bancos de Dados), é realizado em etapas, quais são elas?
• Seleção
• Pré-processamento (Limpeza dos dados*)
• Transformação
• Data Mining (Mineração)
• Interpretação
Quais são as técnicas utilizadas no Data Mining(mineração de dados)?
• Predição
- Classificação: Hierarquia de classes com base em um conjunto existente de eventos ou transações.
- Regressão: Regra de classificação que é uma função sobre variáveis.
• Clusterização
- Detecção de Anomalias: Particiona dados em segmentos previamente desconhecidos com características semelhantes
• Associação
- Padrões Sequências e Padrões Temporais: Busca descobrir relacionamentos entre variáveis correlacionando a presença de um item com uma faixa de valores para outro conjunto de variáveis
O que são as medidas de interesse na etapa de mineração de dados?
• Suporte/Prevalência: Trata-se da frequência com que um conjunto de itens específico ocorre no banco de dados, isto é, o percentual de transações que contém todos os itens em um conjunto (Ex: 50% das compras realizadas em um mercado contém arroz e refrigerante).
•Confiança/Força: Trata-se da probabilidade de que exista uma relação entre itens (Ex: 70% dos clientes
que compram fraldas também compram cerveja).
O que é o aprendizado de máquina (learning machine)?
Trata-se de uma ferramenta poderosa para a aquisição automática de conhecimento por meio da imitação do comportamento de aprendizagem humano com foco em aprender a reconhecer padrões complexos e tomar decisões.
O que é a mineração de texto?
Trata-se de um meio para encontrar padrões interessantes/úteis em um contexto de informações textuais não estruturadas, combinado com alguma tecnologia de extração e de recuperação da informação, processo de linguagem natural e de sumarização ou indexação de documentos.
O que é a técnica de pre- processamento de dados “Agregação”?
A agregação combina dois ou mais atributos (ou objetos) em um único atributo (ou objeto) com a finalidade de reduzir o número de atributos ou objetos, alterar escalas e tornar os dados mais estáveis.
O que é a técnica de pre- processamento de dados “Amostragem”?
O princípio básico da amostragem é: usar uma amostra funciona tão bem quanto usar o conjunto
completo de dados, se a amostra for representativa. Ela é representativa se tiver
aproximadamente as mesmas propriedades de interesse do conjunto inicial.
O que é a técnica de pre- processamento de dados “Redução de Dimensionalidade”?
Essa técnica reduz a quantidade de tempo e memória necessárias pelos
algoritmos de mineração de dados, permitindo que os dados sejam mais facilmente visualizados e ajudando a eliminar características irrelevantes.
O que é a técnica de pre- processamento de dados “Seleção de Subconjuntos de recursos”?
Trata-se de outra forma de reduzir a dimensionalidade dos dados, buscando
eliminar características redundantes ou irrelevantes por meio de diversas
abordagens diferentes.
O que é a técnica de pre- processamento de dados “Criação de Recursos”?
Essa técnica busca criar novos atributos que podem capturar informação
importante em um conjunto de dados muito mais eficientemente que os
atributos originais.
O que é a técnica de pre-processamento de dados “Binarização e Discretização”?
Técnica que busca transformar dados para um formato de atributos binários ou discretos.
O que é a técnica de pre- processamento de dados “Transformaçãode variaveis”?
Essa técnica busca melhorar a eficiência de algoritmos de classificação envolvendo redes neurais e auxiliar técnicas estatísticas que se baseiam na suposição da normalidade dos dados.
O que é o CRISP- DM?
É um processo padrão inter indústrias para mineração de dados, formada por etapas.
1° - Entendimento do Negócio: Busca compreender das necessidades gerenciais e dos objetivos e requisitos de negócio que devem ser atendidos pela mineração de dados.
2° - Entendimento dos Dados: Busca identificar os dados relevantes das diferentes fontes de dados.
3° Preparação dos Dados: Busca carregar os dados identificados no passo anterior e prepará-los para análise por métodos de mineração de dados.
4° Construção do Modelo: Busca selecionar e aplicar técnicas de modelagem a um conjunto de dados previamente preparado.
5° Teste de Avaliação: Busca testar e avaliar os modelos desenvolvidos.
6° Implantação: Busca organizar o conhecimento adquirido com a exploração dos dados de forma que o
usuário possa compreendê-lo.