2.3 Data Mining Flashcards
Em Matéria de Tecnologia da Informação, quanto à Mineração de Dados, Agrupamentos e Tópicos Relacionados,
O que é Data Mining?
Data Mining (Mineração de Dados) é o processo de exploração e análise de grandes volumes de dados com o objetivo de descobrir padrões ocultos, tendências e relações que não são imediatamente visíveis. Utilizando técnicas como classificação, clusterização, regressão e associação, o Data Mining permite identificar comportamentos futuros, apoiar a tomada de decisões e melhorar o entendimento de dados complexos. Esse processo envolve etapas como coleta, pré-processamento, análise e interpretação dos dados, sendo amplamente aplicado em setores como varejo, saúde e finanças para previsões de mercado, detecção de fraudes e análise de comportamento de clientes.
Em Matéria de Tecnologia da Informação, quanto à Mineração de Dados, Agrupamentos e Tópicos Relacionados,
O que é KDD? Quais suas três etapas?
KDD = Knowledge Discovery in Databases, que se traduz em “Processo de Descoberta de Conhecimento em Base de Dados”.
É a maneira pela qual se consegue obter conhecimento através de descobertas em banco de dados.
Ele é composto por três etapas:
1) Preparação: os dados são preparados - selecionados, limpos, organizados etc
2) Data Mining: através das tecnologias existentes, busca-se encontrar as relações existentes
3) Análise de Dados: usuários vão avaliar se aquelas tendências encontradas trazem algum conhecimento útil que pode ser empregado para a tomada de decisão
Em Matéria de Tecnologia da Informação, quanto à Mineração de Dados, Agrupamentos e Tópicos Relacionados,
Algumas etapas precisam ser realizadas antes do Data Mining de modo que esta etapa (do Data Mining) seja mais assertiva em localizar os padrões importantes.
Relacione as técnicas de PréProcessamento a seguir com suas definições: (1) Amostragem; (2) Redução de Dimensionalidade; (3) Seleção de subconjuntos de recursos; (4) Criação de Recursos (características); (5) Discretização e binarização; (6) Transformação de variáveis.
( ) Categorizar atributos para facilitar o uso de algoritmos de classificação.
( ) Eliminar características irrelevantes ou redundantes (senso comum).
( ) Transformar atributos ou variáveis, por exemplo, uso do valor absoluto.
( ) Selecionar um subconjunto dos objetos de dados a
serem analisados.
( ) Diminuir o número de atributos para facilitar a análise (uso de técnicas de álgebra linear).
( ) Criar, a partir dos originais, um novo conjunto de atributos que capture as informações importantes em um conjunto de dados muito mais eficazmente (extrair faces de uma foto).
5 - 3 - 6 - 1 - 2 - 4
Em Matéria de Tecnologia da Informação, quanto à Mineração de Dados, Agrupamentos e Tópicos Relacionados,
O Modelo CRISP-DM, modelo de processo de Mineração de Dados, não proprietário, com o objetivo de guiar os esforços de Data Mining nas organizações, é organizado em um conjunto de 6 etapas (fases): (1) Entendimento do Negócio; (2) Seleção dos Dados; (3) Preparação dos Dados; (4) Modelagem; (5) Avaliação do Processo e (6) Execução.
Relacione as etapas acima com as definições abaixo.
( ) modelagem dos dados, a qual visa à aplicação de técnicas de modelagem sobre o conjunto de dados preparado na etapa anterior.
( ) definição das fases de implantação do projeto de Mineração de Dados
( ) foco no entendimento do negócio que visa obter conhecimento sobre os objetivos do negócio e seus requisitos
( ) entendimento dos dados, que visa à familiarização com o banco de dados pelo grupo de projeto, utilizando-se de conjuntos de dados “modelo”
( ) visa garantir que o modelo gerado atenda às expectativas da organização
( ) fase de preparação de dados, buscando a limpeza, a transformação, a integração e a formatação dos dados da etapa anterior.
4 - 6 - 1 - 2 - 5 - 3
Em Matéria de Tecnologia da Informação, quanto à Mineração de Dados, Agrupamentos e Tópicos Relacionados,
Relacione os processos de Data Mining adiante com suas respectivas definições: (1) Hierarquização; (2) Partição; (3) Amostragem; (4) Árvore de Padrão Frequente; (5) Séries Temporais; (6) Stemming; (7) Redes Neurais; (8) Árvore de Decisão
( ) É a técnica de selecionar um subconjunto representativo de dados de um conjunto de dados maior. A ideia é usar uma amostra para realizar análises, pois em muitos casos é impraticável ou desnecessário processar todo o conjunto de dados. Pode ser aleatória ou baseada em critérios específicos.
( ) São utilizadas com mais frequência nos estágios iniciais do processo de Data Mining que servem para modelar relações entre os dados que entram e saem do processo de mineração. Por meio do uso de algoritmos, podem reconhecer padrões escondidos e correlações em dados brutos, agrupá-los e classificá-los e, com o tempo, aprender e melhorar continuamente.
( ) Envolvem a análise de dados sequenciais ao longo do tempo, com o objetivo de identificar padrões e tendências. É usada para prever valores futuros com base no comportamento passado e é comum em previsões financeiras, climáticas e de estoque.
( ) É uma ferramenta para ajudar uma pessoa, ou um grupo de pessoas, a tomarem uma decisão ao visualizar as suas ramificações e consequências. É uma ferramenta de suporte bastante útil para orientar discussões e guiar um grupo na resolução de um problema ou, até mesmo, na elaboração de um plano de ação. É de fácil interpretação dos dados e mostra o caminho a ser percorrido para alcançar determinado objetivo.
( ) Reduz palavras à sua forma raiz, removendo sufixos e prefixos. Isso é feito para simplificar o processo de análise, tornando mais fácil a identificação de padrões e relações entre as palavras. Tem como objetivo melhorar o armazenamento ao reduzir as variações de uma palavra para sua forma raiz.
( ) É uma estrutura compacta usada para armazenar padrões frequentes em grandes bases de dados de transações. Ela é utilizada em algoritmos de mineração de regras de associação, como o algoritmo FP-Growth, para descobrir itens que aparecem frequentemente juntos, sem gerar candidatos como no Apriori. Essa técnica reduz o tempo de processamento ao evitar múltiplas varreduras do banco de dados. Exemplo: Descobrir que “pão” e “leite” são frequentemente comprados juntos em um supermercado.
( ) É uma técnica de clusterização que divide o conjunto de dados em subconjuntos ou clusters, de forma que cada ponto de dado pertença a exatamente um cluster. O algoritmo mais comum aqui é o K-means, onde os dados são divididos em k grupos com base em suas características. Não envolve níveis, e os clusters não se sobrepõem.
( ) É o processo de agrupar dados em diferentes níveis de granularidade, criando uma estrutura hierárquica de categorias. É utilizado em técnicas de clusterização hierárquica, onde os dados são agrupados de forma recursiva em níveis superiores e inferiores, formando uma árvore de clusters. Esses clusters podem ser analisados em diferentes níveis de detalhe, tais como clientes que compram muito → clientes que compram eletrodomésticos → clientes que compram TVs.
(3) É a técnica de selecionar um subconjunto representativo de dados de um conjunto de dados maior. A ideia é usar uma amostra para realizar análises, pois em muitos casos é impraticável ou desnecessário processar todo o conjunto de dados. Pode ser aleatória ou baseada em critérios específicos.
(7) São utilizadas com mais frequência nos estágios iniciais do processo de Data Mining que servem para modelar relações entre os dados que entram e saem do processo de mineração. Por meio do uso de algoritmos, podem reconhecer padrões escondidos e correlações em dados brutos, agrupá-los e classificá-los e, com o tempo, aprender e melhorar continuamente.
(5) Envolvem a análise de dados sequenciais ao longo do tempo, com o objetivo de identificar padrões e tendências. É usada para prever valores futuros com base no comportamento passado e é comum em previsões financeiras, climáticas e de estoque.
(8) É uma ferramenta para ajudar uma pessoa, ou um grupo de pessoas, a tomarem uma decisão ao visualizar as suas ramificações e consequências. É uma ferramenta de suporte bastante útil para orientar discussões e guiar um grupo na resolução de um problema ou, até mesmo, na elaboração de um plano de ação. É de fácil interpretação dos dados e mostra o caminho a ser percorrido para alcançar determinado objetivo.
(6) Reduz palavras à sua forma raiz, removendo sufixos e prefixos. Isso é feito para simplificar o processo de análise, tornando mais fácil a identificação de padrões e relações entre as palavras. Tem como objetivo melhorar o armazenamento ao reduzir as variações de uma palavra para sua forma raiz.
(4) É uma estrutura compacta usada para armazenar padrões frequentes em grandes bases de dados de transações. Ela é utilizada em algoritmos de mineração de regras de associação, como o algoritmo FP-Growth, para descobrir itens que aparecem frequentemente juntos, sem gerar candidatos como no Apriori. Essa técnica reduz o tempo de processamento ao evitar múltiplas varreduras do banco de dados. Exemplo: Descobrir que “pão” e “leite” são frequentemente comprados juntos em um supermercado.
(2) É uma técnica de clusterização que divide o conjunto de dados em subconjuntos ou clusters, de forma que cada ponto de dado pertença a exatamente um cluster. O algoritmo mais comum aqui é o K-means, onde os dados são divididos em k grupos com base em suas características. Não envolve níveis, e os clusters não se sobrepõem.
(1) É o processo de agrupar dados em diferentes níveis de granularidade, criando uma estrutura hierárquica de categorias. É utilizado em técnicas de clusterização hierárquica, onde os dados são agrupados de forma recursiva em níveis superiores e inferiores, formando uma árvore de clusters. Esses clusters podem ser analisados em diferentes níveis de detalhe, tais como clientes que compram muito → clientes que compram eletrodomésticos → clientes que compram TVs.