Data Mining Flashcards
No modelo CRISP-DM, a fase de preparação dos dados é caracterizada por atividades como análise da qualidade dos dados, exploração dos dados, geração dos primeiros insights e formulação de hipóteses.
Errado. CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases:
Compreensão do Negócio (Business Understanding)
Compreensão dos Dados (Data Understanding)
Preparação dos Dados (Data Preparation)
Modelagem (Modeling)
Avaliação (Evaluation)
Implantação (Deployment)
Preparação dos Dados (Data Preparation): Os dados brutos raramente estão prontos para a análise. Nesta fase, realizamos a limpeza dos dados, tratamos valores ausentes ou inconsistentes e integramos diferentes fontes de dados. O objetivo é criar um conjunto de dados preparado para as etapas subsequentes.
Análise de qualidade dos dados é: Compreensão dos Dados (Data Understanding).
Considerando os conceitos principais de ciência de dados, analise as afirmativas a seguir e assinale (V) para a verdadeira e (F) para a falsa.
( ) Em um sistema BigData, o pipeline de dados implementa as etapas necessárias para mover dados de sistemas de origem, transformar esses dados com base nos requisitos e armazenar os dados em um sistema de destino, incluindo todos os processos necessários para transformar dados brutos em dados preparados que os usuários podem consumir.
( ) Dentre os métodos de manipulação de valores ausentes, em processamento massivo e paralelo, consta a normalização numérica, que se refere ao processo de ajustar os dados para que estejam em uma escala comparável, geralmente entre 0 e 1.
( ) A demanda crescente por medidas de criptografia ponta a ponta (da produção ao backup) tornam menos eficazes e relevantes tecnologias legadas, como a deduplicação de dados (data deduplication), que busca ajudar a otimizar o armazenamento e melhorar o desempenho de um sistema ao estabelecer processo de identificar e eliminar dados duplicados em um sistema.
VFV. A normalização numérica é uma técnica utilizada no tratamento de dados que visa transformar as variáveis em uma escala comum, de forma a torná-las comparáveis. No entanto, ela não é um método para lidar com valores ausentes. Os métodos para lidar com valores ausentes incluem a imputação de dados, onde os valores ausentes são preenchidos com um valor estimado, ou a exclusão de registros que contêm valores ausentes.
Identificar o tipo de dados ausentes é crucial para se encontrar soluções que os resolvam.
Avalie se os dados ausentes são categorizados como
I. MCAR. Valores ausentes completamente aleatórios.
II. Valores ausentes aleatórios.
III. MICE. Valores ausentes usando imputação múltipla usando equações encadeadas.
Está correto o que se apresenta em
I e II. Os dados ausentes podem ser definidos pelo mecanismo que leva à falta deles. Três principais tipos de dados ausentes (“Statistical analysis with missing data”, D. Rubin, R. Little):
- Falta completamente ao acaso (Missing completely at random - MCAR) - como “jogar uma moeda” para responder a uma questão; dados ausentes não dependem dos dados observados ou ausentes.
- Faltando aleatoriamente (Missing at random - MAR) - algo conhecido (dos dados ou de outra fonte) faz com que uma pessoa com menor probabilidade de responder a uma pergunta; dados ausentes depende dos dados observados e não não depende de dados não observados.
- Falta não-aleatória (Missing not at random - MNAR) (falta não ignorável) - algo (não conhecido/medido) diminui a probabilidade de uma pessoa responder a uma pergunta; os dados ausentes depende de algo não observado.
No caso do MICE se trata de uma estretégia para completar os dados ausentes e não classificação.
Julgue o item a seguir que tratam de extração e representação de conhecimento.
Em mineração de dados, interpretação e explanação consiste em filtrar o conjunto de dados por meio de mecanismo que varia de acordo com a técnica de mineração utilizada.
Errado.A interpretação e explanação em mineração de dados não se referem ao processo de filtrar o conjunto de dados, mas sim à análise e compreensão dos resultados obtidos após a aplicação de técnicas de mineração de dados. Esse processo visa transformar os padrões, correlações ou conhecimentos extraídos dos dados em informações compreensíveis e úteis para os tomadores de decisão. Embora o mecanismo de interpretação e explanação possa variar conforme a técnica de mineração utilizada (como classificação, regressão, clustering, etc.), o objetivo principal é fornecer insights significativos e acionáveis a partir dos resultados da mineração de dados, e não filtrar os dados em si.
No contexto de mineração de dados, o atributo da veracidade está associado ao grau de confiabilidade dos dados utilizados na solução.
Certo.
Em data mining, um mesmo processo de análise de dados pode utilizar bancos de dados relacionais ou NoSQL, mas não simultaneamente.
Errado. Em data mining, é possível utilizar diferentes tipos de bancos de dados, como relacionais e NoSQL, em um mesmo processo de análise de dados. Isso pode ocorrer quando os dados necessários para a análise estão distribuídos em diferentes fontes ou quando se deseja explorar as vantagens de cada tipo de banco de dados para diferentes aspectos da análise. Portanto, não é necessário limitar-se a apenas um tipo de banco de dados durante o processo de mineração de dados.
NoSQL significa “Not Only SQL” (Não Somente SQL) e se refere a um tipo de banco de dados não relacional. Ao contrário dos bancos de dados relacionais tradicionais, que organizam dados em tabelas estruturadas, os bancos de dados NoSQL oferecem maior flexibilidade para armazenar dados diversos.
Data mining e NoSQL podem ser usados de forma complementar para extrair insights valiosos de grandes volumes de dados. Em data mining, um mesmo processo de análise de dados pode utilizar bancos de dados relacionais e NoSQL simultaneamente.
O processo de análise por inferência busca o conhecimento dos dados para obtenção de resultados consolidados.
Errado. O processo de análise por inferência não busca necessariamente “resultados consolidados”, mas sim inferir novas informações a partir dos dados existentes. A inferência envolve a aplicação de técnicas estatísticas e algoritmos para extrair conclusões ou prever novos dados com base nos padrões identificados nos dados disponíveis. Portanto, o objetivo principal da análise por inferência é gerar novos insights ou previsões a partir dos dados existentes.
Em data mining, a técnica de associação é uma função que determina o coeficiente de afinidade entre certos eventos.
Certo
É na fase de mineração do data mining que são definidos os metadados dos dados manipulados.
Errado. Na fase de mineração do processo de data mining, não são definidos os metadados dos dados manipulados. A fase de mineração é dedicada à aplicação de técnicas e algoritmos para descobrir padrões, tendências, correlações ou informações úteis nos dados. Os metadados, que descrevem informações sobre os dados, como sua estrutura, formato, origem e significado, são geralmente definidos durante a fase de preparação de dados, que precede a fase de mineração
A técnica da árvore de decisão utiliza, entre outras, a abordagem de predição, na qual grupos diferentes são identificados de acordo com características em comum.
Errado. A técnica da árvore de decisão é usada principalmente para classificação e previsão, não para identificar grupos diferentes com características em comum. Em uma árvore de decisão, os dados são divididos em subconjuntos cada vez menores com base em características dos dados, e são tomadas decisões para classificar ou prever uma variável alvo. A identificação de grupos com características comuns é mais comumente associada a técnicas de clustering, como o k-means, não à árvore de decisão.
Técnica de árvore de decisão: Estratificação dos dados; representação gráfica das regras para classificação padronizadas; mapear probabilidades.
Técnica de predição/regressão: Parecido com classificação, todavia prevê números ao invés de categorias; predição de valores contínuos; mapear previsão de comportamento; dados supervisionados.
Técnica de agrupamento: próprio algoritmo agrupa; agregação de semelhantes; não supervisionado;
A tarefa de agrupamento de dados consiste na análise de conjuntos de dados em que estão presentes apenas as descrições dos dados e pode até mesmo resolver problemas de detecção de desvios.
Certo. Agrupamento de dados refere-se a clustering. A técnica de clustering normalmente é utilizada quando não há rótulos dos elementos estanto apenas os valores (leituras/descrição dos dados). Pode-se encontrar desvios, outliers.
A modelagem preditiva é a mais profunda para a estimativa de resultados desconhecidos e inclui técnicas de amostra como árvores de decisão, redes neurais, análise de regressão e classificação.
Certa. A modelagem preditiva é uma área da mineração de dados que se concentra em estimar resultados desconhecidos com base em dados históricos. Permite prever o futuro. Ela utiliza diversas técnicas, como:
Árvores de decisão: Modelos hierárquicos que classificam dados em diferentes categorias.
Redes neurais: Modelos inspirados no funcionamento do cérebro humano, que aprendem padrões complexos.
Análise de regressão: Modelos que estimam a relação entre uma variável dependente e uma ou mais variáveis independentes.
Classificação: Modelos que classificam dados em diferentes categorias, como spam ou não spam.
Entre as tarefas de mineração de dados, as preditivas são aquelas que usam os valores dos atributos descritivos para encontrar padrões que descrevam os dados de maneira que o ser humano possa interpretá-los.
Errado. A afirmação está parcialmente incorreta.. Não é encontrar padrões. Pois o correto seria prever padrões
Na mineração de dados, as tarefas são geralmente categorizadas em dois tipos principais: descritivas e preditivas. As tarefas descritivas focam em encontrar padrões que descrevam os dados de maneira compreensível para os humanos. Isso inclui, por exemplo, a clusterização (agrupamento) e a regra de associação, que buscam identificar e descrever grupos de dados ou relações entre itens nos dados que frequentemente ocorrem juntos.
Por outro lado, as tarefas preditivas usam os dados históricos para prever valores desconhecidos de determinadas variáveis com base em outras variáveis. Isso inclui, por exemplo, a classificação e a regressão, onde os valores dos atributos descritivos são utilizados para prever valores ou categorias de uma variável-alvo.
Portanto, a descrição fornecida no item confunde as características das tarefas descritivas com as preditivas. As tarefas preditivas são aquelas que tentam prever o futuro ou estimar incertezas com base nos dados existentes, e não simplesmente descrever os dados de forma interpretável.
A mineração de dados pode ser entendida como um subconjunto da análise de dados, pois é usada para descobrir padrões ocultos em conjuntos de dados brutos, enquanto o enfoque da análise de dados se encontra no exame dos conjuntos de dados para a obtenção de conclusões precisas.
Certo. A análise de dados, após fazer a conversão dos dados não estruturados em estruturados, visa obter, por meio da extração daqueles dados, informações que possam ser imediatas e precisas para tomadas de decisões.
O data mining, por outro lado, visa achar padrões ou tendência a partir de dados armazenados e analisados.
A análise preditiva de dados se diferencia da análise prescritiva de dados porque a primeira tem o objetivo de determinar as consequências das decisões tomadas, enquanto a segunda utiliza fatos do passado para visualizar e prever eventos futuros.
Errado. A análise preditiva de dados utiliza fatos do passado para visualizar e prever eventos futuros, enquanto análise prescritiva tem o objetivo de determinar as consequências das decisões tomadas. Conceitos foram trocados
É o conjunto de técnicas e procedimentos
para a extração de informações em dispositivos de armazenamento digital, que
não podem ser acessados de modo convencional pelo usuário ou pelo sistema. Com base no
exposto, é correto afirmar que essas informações apresentam o conceito de
a) recuperação de dados.
b) backup corrompido.
c) mineração de dados.
d) backup interrompido.
e) recuperação de dispositivos.
Letra a.