Data Mining Flashcards

1
Q

No modelo CRISP-DM, a fase de preparação dos dados é caracterizada por atividades como análise da qualidade dos dados, exploração dos dados, geração dos primeiros insights e formulação de hipóteses.

A

Errado. CRISP-DM (Cross-Industry Standard Process for Data Mining)

Fases:

Compreensão do Negócio (Business Understanding)

Compreensão dos Dados (Data Understanding)

Preparação dos Dados (Data Preparation)

Modelagem (Modeling)

Avaliação (Evaluation)

Implantação (Deployment)

Preparação dos Dados (Data Preparation): Os dados brutos raramente estão prontos para a análise. Nesta fase, realizamos a limpeza dos dados, tratamos valores ausentes ou inconsistentes e integramos diferentes fontes de dados. O objetivo é criar um conjunto de dados preparado para as etapas subsequentes.

Análise de qualidade dos dados é: Compreensão dos Dados (Data Understanding).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Considerando os conceitos principais de ciência de dados, analise as afirmativas a seguir e assinale (V) para a verdadeira e (F) para a falsa.

( ) Em um sistema BigData, o pipeline de dados implementa as etapas necessárias para mover dados de sistemas de origem, transformar esses dados com base nos requisitos e armazenar os dados em um sistema de destino, incluindo todos os processos necessários para transformar dados brutos em dados preparados que os usuários podem consumir.
( ) Dentre os métodos de manipulação de valores ausentes, em processamento massivo e paralelo, consta a normalização numérica, que se refere ao processo de ajustar os dados para que estejam em uma escala comparável, geralmente entre 0 e 1.
( ) A demanda crescente por medidas de criptografia ponta a ponta (da produção ao backup) tornam menos eficazes e relevantes tecnologias legadas, como a deduplicação de dados (data deduplication), que busca ajudar a otimizar o armazenamento e melhorar o desempenho de um sistema ao estabelecer processo de identificar e eliminar dados duplicados em um sistema.

A

VFV. A normalização numérica é uma técnica utilizada no tratamento de dados que visa transformar as variáveis em uma escala comum, de forma a torná-las comparáveis. No entanto, ela não é um método para lidar com valores ausentes. Os métodos para lidar com valores ausentes incluem a imputação de dados, onde os valores ausentes são preenchidos com um valor estimado, ou a exclusão de registros que contêm valores ausentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Identificar o tipo de dados ausentes é crucial para se encontrar soluções que os resolvam.

Avalie se os dados ausentes são categorizados como

I. MCAR. Valores ausentes completamente aleatórios.
II. Valores ausentes aleatórios.
III. MICE. Valores ausentes usando imputação múltipla usando equações encadeadas.

Está correto o que se apresenta em

A

I e II. Os dados ausentes podem ser definidos pelo mecanismo que leva à falta deles. Três principais tipos de dados ausentes (“Statistical analysis with missing data”, D. Rubin, R. Little):

  • Falta completamente ao acaso (Missing completely at random - MCAR) - como “jogar uma moeda” para responder a uma questão; dados ausentes não dependem dos dados observados ou ausentes.
  • Faltando aleatoriamente (Missing at random - MAR) - algo conhecido (dos dados ou de outra fonte) faz com que uma pessoa com menor probabilidade de responder a uma pergunta; dados ausentes depende dos dados observados e não não depende de dados não observados.
  • Falta não-aleatória (Missing not at random - MNAR) (falta não ignorável) - algo (não conhecido/medido) diminui a probabilidade de uma pessoa responder a uma pergunta; os dados ausentes depende de algo não observado.

No caso do MICE se trata de uma estretégia para completar os dados ausentes e não classificação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Julgue o item a seguir que tratam de extração e representação de conhecimento.

Em mineração de dados, interpretação e explanação consiste em filtrar o conjunto de dados por meio de mecanismo que varia de acordo com a técnica de mineração utilizada.

A

Errado.A interpretação e explanação em mineração de dados não se referem ao processo de filtrar o conjunto de dados, mas sim à análise e compreensão dos resultados obtidos após a aplicação de técnicas de mineração de dados. Esse processo visa transformar os padrões, correlações ou conhecimentos extraídos dos dados em informações compreensíveis e úteis para os tomadores de decisão. Embora o mecanismo de interpretação e explanação possa variar conforme a técnica de mineração utilizada (como classificação, regressão, clustering, etc.), o objetivo principal é fornecer insights significativos e acionáveis a partir dos resultados da mineração de dados, e não filtrar os dados em si.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

No contexto de mineração de dados, o atributo da veracidade está associado ao grau de confiabilidade dos dados utilizados na solução.

A

Certo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Em data mining, um mesmo processo de análise de dados pode utilizar bancos de dados relacionais ou NoSQL, mas não simultaneamente.

A

Errado. Em data mining, é possível utilizar diferentes tipos de bancos de dados, como relacionais e NoSQL, em um mesmo processo de análise de dados. Isso pode ocorrer quando os dados necessários para a análise estão distribuídos em diferentes fontes ou quando se deseja explorar as vantagens de cada tipo de banco de dados para diferentes aspectos da análise. Portanto, não é necessário limitar-se a apenas um tipo de banco de dados durante o processo de mineração de dados.
NoSQL significa “Not Only SQL” (Não Somente SQL) e se refere a um tipo de banco de dados não relacional. Ao contrário dos bancos de dados relacionais tradicionais, que organizam dados em tabelas estruturadas, os bancos de dados NoSQL oferecem maior flexibilidade para armazenar dados diversos.

Data mining e NoSQL podem ser usados de forma complementar para extrair insights valiosos de grandes volumes de dados. Em data mining, um mesmo processo de análise de dados pode utilizar bancos de dados relacionais e NoSQL simultaneamente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

O processo de análise por inferência busca o conhecimento dos dados para obtenção de resultados consolidados.

A

Errado. O processo de análise por inferência não busca necessariamente “resultados consolidados”, mas sim inferir novas informações a partir dos dados existentes. A inferência envolve a aplicação de técnicas estatísticas e algoritmos para extrair conclusões ou prever novos dados com base nos padrões identificados nos dados disponíveis. Portanto, o objetivo principal da análise por inferência é gerar novos insights ou previsões a partir dos dados existentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Em data mining, a técnica de associação é uma função que determina o coeficiente de afinidade entre certos eventos.

A

Certo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

É na fase de mineração do data mining que são definidos os metadados dos dados manipulados.

A

Errado. Na fase de mineração do processo de data mining, não são definidos os metadados dos dados manipulados. A fase de mineração é dedicada à aplicação de técnicas e algoritmos para descobrir padrões, tendências, correlações ou informações úteis nos dados. Os metadados, que descrevem informações sobre os dados, como sua estrutura, formato, origem e significado, são geralmente definidos durante a fase de preparação de dados, que precede a fase de mineração

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

A técnica da árvore de decisão utiliza, entre outras, a abordagem de predição, na qual grupos diferentes são identificados de acordo com características em comum.

A

Errado. A técnica da árvore de decisão é usada principalmente para classificação e previsão, não para identificar grupos diferentes com características em comum. Em uma árvore de decisão, os dados são divididos em subconjuntos cada vez menores com base em características dos dados, e são tomadas decisões para classificar ou prever uma variável alvo. A identificação de grupos com características comuns é mais comumente associada a técnicas de clustering, como o k-means, não à árvore de decisão.
Técnica de árvore de decisão: Estratificação dos dados; representação gráfica das regras para classificação padronizadas; mapear probabilidades.

Técnica de predição/regressão: Parecido com classificação, todavia prevê números ao invés de categorias; predição de valores contínuos; mapear previsão de comportamento; dados supervisionados.

Técnica de agrupamento: próprio algoritmo agrupa; agregação de semelhantes; não supervisionado;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

A tarefa de agrupamento de dados consiste na análise de conjuntos de dados em que estão presentes apenas as descrições dos dados e pode até mesmo resolver problemas de detecção de desvios.

A

Certo. Agrupamento de dados refere-se a clustering. A técnica de clustering normalmente é utilizada quando não há rótulos dos elementos estanto apenas os valores (leituras/descrição dos dados). Pode-se encontrar desvios, outliers.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

A modelagem preditiva é a mais profunda para a estimativa de resultados desconhecidos e inclui técnicas de amostra como árvores de decisão, redes neurais, análise de regressão e classificação.

A

Certa. A modelagem preditiva é uma área da mineração de dados que se concentra em estimar resultados desconhecidos com base em dados históricos. Permite prever o futuro. Ela utiliza diversas técnicas, como:

Árvores de decisão: Modelos hierárquicos que classificam dados em diferentes categorias.
Redes neurais: Modelos inspirados no funcionamento do cérebro humano, que aprendem padrões complexos.
Análise de regressão: Modelos que estimam a relação entre uma variável dependente e uma ou mais variáveis independentes.
Classificação: Modelos que classificam dados em diferentes categorias, como spam ou não spam.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Entre as tarefas de mineração de dados, as preditivas são aquelas que usam os valores dos atributos descritivos para encontrar padrões que descrevam os dados de maneira que o ser humano possa interpretá-los.

A

Errado. A afirmação está parcialmente incorreta.. Não é encontrar padrões. Pois o correto seria prever padrões

Na mineração de dados, as tarefas são geralmente categorizadas em dois tipos principais: descritivas e preditivas. As tarefas descritivas focam em encontrar padrões que descrevam os dados de maneira compreensível para os humanos. Isso inclui, por exemplo, a clusterização (agrupamento) e a regra de associação, que buscam identificar e descrever grupos de dados ou relações entre itens nos dados que frequentemente ocorrem juntos.

Por outro lado, as tarefas preditivas usam os dados históricos para prever valores desconhecidos de determinadas variáveis com base em outras variáveis. Isso inclui, por exemplo, a classificação e a regressão, onde os valores dos atributos descritivos são utilizados para prever valores ou categorias de uma variável-alvo.

Portanto, a descrição fornecida no item confunde as características das tarefas descritivas com as preditivas. As tarefas preditivas são aquelas que tentam prever o futuro ou estimar incertezas com base nos dados existentes, e não simplesmente descrever os dados de forma interpretável.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

A mineração de dados pode ser entendida como um subconjunto da análise de dados, pois é usada para descobrir padrões ocultos em conjuntos de dados brutos, enquanto o enfoque da análise de dados se encontra no exame dos conjuntos de dados para a obtenção de conclusões precisas.

A

Certo. A análise de dados, após fazer a conversão dos dados não estruturados em estruturados, visa obter, por meio da extração daqueles dados, informações que possam ser imediatas e precisas para tomadas de decisões.

O data mining, por outro lado, visa achar padrões ou tendência a partir de dados armazenados e analisados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

A análise preditiva de dados se diferencia da análise prescritiva de dados porque a primeira tem o objetivo de determinar as consequências das decisões tomadas, enquanto a segunda utiliza fatos do passado para visualizar e prever eventos futuros.

A

Errado. A análise preditiva de dados utiliza fatos do passado para visualizar e prever eventos futuros, enquanto análise prescritiva tem o objetivo de determinar as consequências das decisões tomadas. Conceitos foram trocados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

É o conjunto de técnicas e procedimentos
para a extração de informações em dispositivos de armazenamento digital, que
não podem ser acessados de modo convencional pelo usuário ou pelo sistema. Com base no
exposto, é correto afirmar que essas informações apresentam o conceito de
a) recuperação de dados.
b) backup corrompido.
c) mineração de dados.
d) backup interrompido.
e) recuperação de dispositivos.

A

Letra a.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Um modelo de
banco de dados multidimensional está mais fortemente relacionado com:
a) data warehouse.
b) modelo relacional.
c) bancos hierárquicos.
d) modelo em 3 camadas.
e) banco de dados distribuídos.

A

Letra a. O modelo de dados denominado “multidimensional” está mais fortemente relacionado com o
Data Warehouse, uma coleção de dados orientados por assuntos, integrados, variáveis com o
tempo e não voláteis, para dar suporte ao processo de tomada de decisão com dados.

18
Q

O modelo de dados
denominado “multidimensional” se aplica para banco de dados com a tecnologia:
a) relacional.
b) hierárquica.
c) datamining.
d) distribuída
e) data warehouse.

A

Letra e.

19
Q

Com relação aos conceitos de modelagem multidimensional de dados para inteligência
computacional, julgue o seguinte item. [Diferentemente da estrutura relacional, a
estrutura multidimensional oferece baixa redundância de dados e suporte a normalização até
a segunda forma normal].

A

Errado. Estrutura multidimensional oferece alta redundância e é desnormalizado, diferente da estrutura relacional

20
Q

Em um modelo dimensional,
a tabela fatos armazena:
a) estatísticas sobre os metadados.
b) as restrições de domínio do negócio.
c) descrições textuais das dimensões.
d) medições numéricas do negócio.
e) o tempo de processamento das transações.

A

Letra d.
- armazena fatos ocorridos (métricas quantitativas ou valores indicadores) e as chaves para as dimensões -> sempre é do tipo contável
- geralmente crescem verticalmente (linhas)
- o que é que está sendo medido nesse processo de negócio? ex quantidade, valor, lucro, perda..

21
Q

Sobre modelagem multidimensional, o cubo:
I – é uma representação intuitiva, pois todas as dimensões coexistem para todo ponto no cubo
e são independentes umas das outras;
II – é, de fato, apenas uma metáfora visual;
III – serve para descrever requisitos funcionais.
Acerca dos itens acima mencionados, apenas;
a) I e III estão corretos;
b) Somente I está correto;
c) I e II estão corretos;
d) II e III estão corretos;
e) III está correto.

A

Letra c. Certo. Os cubos são massas de dados que retornam das consultas feitas ao banco de
dados e podem ser manipulados e visualizados por inúmeros ângulos e diferentes níveis de
agregação. É uma representação intuitiva do fato porque todas as dimensões coexistem para
todo ponto no cubo e são independentes uma das outras.
II – Certo. O cubo é, de fato, apenas uma representação conceitual ou uma metáfora visual.
III – Errado. A análise multidimensional é uma das grandes utilidades da tecnologia OLAP
(Online Analytical Processing), consistindo em ver determinados cubos de informações de
diferentes ângulos (perspectivas) para análise e de vários níveis de agregação.
Portanto, I e II estão corretos.

22
Q

Em um banco de dados
multidimensional, os dados estão conceitualmente armazenados e organizados em:
a) classes e objetos.
b) cubos e hipercubos.
c) partições e índices.
d) consultas materializadas e sumários.
e) estrelas e constelações.

A

Letra b

23
Q

Um cubo de dados é a representação
multidimensional dos dados não agregados na qual é necessário que as dimensões tenham o
mesmo tamanho.

A

Errado. Um cubo de dados é a representação multidimensional de dados agregados, mas não é necessário
que as dimensões tenham o mesmo tamanho!

24
Q

No que se refere à análise e à mineração de dados, julgue o próximo item.

Entre as técnicas de mineração de dados, a análise de sequência e caminho se caracteriza pelo processo de encontrar relacionamentos entre dois conjuntos de dados diferentes e aparentemente não relacionados.

A

Errado. A análise de sequência e caminho não se concentra em encontrar relacionamentos entre conjuntos de dados diferentes. Em vez disso, ela se dedica a descobrir padrões em sequências de eventos dentro de um único conjunto de dados.

Características da análise de sequência e caminho:

Foco em sequências: Busca padrões em como eventos específicos se sucedem ao longo do tempo.
Ordem importa: A ordem dos eventos na sequência é crucial para a análise.
Identificação de tendências: Descobre padrões que podem ser usados para prever eventos futuros ou entender melhor o comportamento do sistema.
Exemplos de aplicações:

Análise de navegação na web: Descobrir a sequência de páginas que os usuários visitam em um site.
Análise de compras: Identificar padrões de compra dos clientes.
Análise de processos de negócios: Descobrir gargalos e ineficiências em workflows.
Diferenças de outras técnicas:

Associação: Encontra regras de associação entre itens em um conjunto de dados, mas não considera a ordem.
Classificação: Prediz a classe de um novo exemplo com base em atributos, mas não analisa sequências.
Em resumo, a análise de sequência e caminho é uma técnica valiosa para minerar sequências de eventos e identificar padrões temporais em um único conjunto de dados.

25
Q

Análise de dados descritiva refere-se ao tipo de análise que se baseia em técnicas estatísticas e mineração de dados para prever o que vai acontecer em um contexto organizacional.

A

Errado.
PreDItiva: Mãe DIná = futuro
➝ Análise de possibilidades futuras, identifica tendências futuras;

PresCritiva: Consequência
➝ Traça as possíveis consequências de cada ação;

Análise descritiva:
➝ Compreensão em tempo real dos acontecimentos;

Análise diagnóstica:
➝ Compreender de maneira causal (Quem, Quando, Como, Onde e Por que) todas as suas possibilidades;

26
Q

Relacione a Coluna 1 à Coluna 2, associando os repositórios específicos de dados às suas características.

Coluna 1
1. Data Warehouse.
2. Data Mart.
3. Data Mining.

Coluna 2
( ) Conhecido também como mineração de dados. Sua função principal é a varredura de grande quantidade de dados à procura de padrões e detecção de relacionamentos entre informações, gerando novos subgrupos de dados.
( ) Centraliza e consolida grandes quantidades de dados de várias fontes. Seus recursos analíticos permitem que as organizações obtenham informações de negócios úteis de seus dados para melhorar a tomada de decisões.
( ) É uma forma simples de utilizar outro repositório mencionado acima com foco em um único assunto ou linha de negócios.
( ) Com ele, as equipes podem acessar dados e obter insights mais rapidamente, pois não precisam perder tempo pesquisando em outros repositórios mais complexos ou agregando manualmente dados de diferentes fontes.

A

3122

27
Q

A respeito de mineração de dados, de arquitetura dos dados e de modelagem de dados.

Mineração de dados combina técnicas de descoberta de conhecimento com técnicas de implementação eficientes que permitem seu uso em bancos de dados extremamente grandes.

A

Certo. Mineração de Dados - tambem chamado de Data Mining ou Prospecção de Dados, trata-se processo de explorar grandes quantidades de dados à procura de padrões consistentes. É um conjunto de processos, métodos, teorias, ferramentas e tecnologias open-end utilizadas para explorar, organizar e analisar de forma semi-automática uma grande quantidade de dados brutos com o intuito de identificar, descobrir, extrair, classificar e agrupar informações implícitas desconhecidas, além de avaliar correlações, tendências e padrões consistentes de comportamento potencialmente úteis– como regras de associação ou sequências temporais – de forma não-trivial por meio de técnicas estatísticas e matemáticas, como redes neurais, algoritmos genéticos, inteligência artificial, lógica nebulosa, análise de conglomerados (clusters), entre outros.

28
Q

Mineração de dados (Data Mining) pode ser definido como o processo de analisar bases de dados de grande porte, a fim de descobrir informações por meio de consultas. Tendo em vista as fases do processo de KDD (Knowlegde Discovery in Databases, descoberta de conhecimento nos bancos de dados) utilizado em Data Mining, marque V para as afirmativas verdadeiras e F para as falsas.
( ) Mineração de dados: fase responsável pela escolha dos algoritmos a serem aplicados para a descoberta de informações. Essa escolha depende fundamentalmente dos objetivos do processo de KDD.
( ) Preparação dos dados: nessa fase, os dados necessários para a solução de um problema são selecionados na base de dados. Essa etapa inicia-se a partir do agrupamento organizado de uma grande quantidade de dados de uma ou mais bases de dados, selecionando somente aqueles que são relevantes.
( ) Limpeza dos dados: essa fase consome grande parte do esforço necessário para todo o processo devido à dificuldade de integrar bases de dados heterogêneas.
( ) Interpretação: ao final do processo, o sistema de mineração de dados gera um relatório das descobertas, que passa então a ser interpretado por analistas de mineração. Somente após essa interpretação obtém-se o conhecimento.

A

VVVV (meio esquisito)

29
Q

O fiscal de rendas Renan está explorando a base de dados sobre a situação fiscal de empresas que atuam no Rio de Janeiro, e encontrou os seguintes padrões:

  • TIPO_EMPRESA =”MEI”, RENDA _ANO= “NIVEL A”,> QUANTIDADE_SOCIOS=1, SITUACAO_FISCAL=”INADIMPLENTE” (suporte = 50%, confiança = 70%)
  • TIPO_EMPRESA=”Simples”, RENDA_ANO=”NIVEL B”-> QUANTIDADE_SOCIOS= 2, SITUACAO_FISCAL=”REGULAR” (suporte 30%, confiança = 80%)

A técnica de Mineração de dados que Renan aplicou para descobrir elementos que ocorrem em comum dentro de um determinado conjunto de dados foi:

A

Letra d. As regras de associação são uma técnica de mineração de dados que identificam relacionamentos entre variáveis em um conjunto de dados. Elas são definidas como uma regra que descreve uma associação entre dois ou mais itens de um conjunto de dados.

No caso do fiscal Renan, ele encontrou duas regras de associação:

Regra 1: empresas MEI com renda anual nível A e um sócio têm 70% de chance de estar inadimplentes.
Regra 2: empresas Simples com renda anual nível B e dois sócios têm 80% de chance de estar regulares.
Essas regras indicam que existem padrões de relacionamento entre as variáveis TIPO_EMPRESA, RENDA_ANO, QUANTIDADE_SOCIOS e SITUACAO_FISCAL.

As outras alternativas não são corretas porque:

(A) análise de cluster é uma técnica de mineração de dados que agrupa dados em grupos homogêneos.
(B) modelos preditivos são modelos matemáticos que são usados para prever valores futuros.
(C) árvores de decisão são modelos de aprendizado de máquina que são usados para classificar dados.
(E) técnicas de amostragem são técnicas usadas para reduzir o tamanho de um conjunto de dados sem perder informações importantes.

30
Q

Em mineração de dados, para atribuir registros a um conjunto predefinido de classes, é utilizada a técnica de

A

Classificação.

Classificação (supervisionado) - Hierarquia de classes com base em um conjunto existente de eventos ou transações.

Regressão - Regra de classificação que é uma função sobre variáveis.

Associação (não supervisionado) - Busca descobrir relacionamentos entre variáveis correlacionando a presença de um item com uma faixa de valores para outro conjunto de variáveis

Agrupamento/Cluster (não supervisionado) - Particiona dados em segmentos previamente desconhecidos com características semelhantes

Estimativa - Prever valores futuros de uma variável.

Análise estatística - Realizar análises estatísticas sobre os dados.

31
Q

No modelo CRISP-DM (cross-industry standard process for data mining), a etapa que consiste em identificar se o modelo escolhido está apto a cumprir os objetivos definidos na primeira etapa, o entendimento do negócio, é denominada

A

Avaliação.

Entendimento do Negócio: Compreender os objetivos, requisitos e restrições do projeto.

Entendimento dos Dados: Coletar e explorar os dados disponíveis para entender sua qualidade, estrutura e características.

Preparação dos Dados: Realizar tarefas de limpeza, transformação e seleção de dados para prepará-los para análise.

Modelagem: Escolher e aplicar técnicas de modelagem, como algoritmos de mineração de dados, para criar modelos com base nos dados preparados.

Avaliação: Avaliar a qualidade e o desempenho dos modelos criados por meio de validação e testes.

Implantação: Implantar os resultados dos modelos no ambiente de produção e monitorar seu desempenho ao longo do tempo.

32
Q

Na etapa de preparação de dados do modelo CRISP-DM, ocorre a identificação dos dados existentes, com suas respectivas características.

A

Errado. Compreensão dos dados.

são 6 etapas:

  • Compreensão do Negócio;
  • Compreensão dos Dados;
  • Preparação dos Dados;
  • Modelagem;
  • Avaliação;
  • Desenvolvimento (Implantação).
33
Q

Na fase de análise de um projeto de data mining, uma das técnicas utilizadas é a associação, cuja finalidade é determinar um grau de afinidade entre eventos distintos.

A

Certo.

Pai que compra fralda e cerveja

(CESPE / CEBRASPE - 2020) A técnica de associação é utilizada para indicar um grau de afinidade entre registros de eventos diferentes, para permitir o processo de data mining.

(CESPE - 2018 - FUB) No data mining, uma regra de associação relaciona a presença de um conjunto de itens com outra faixa de valores de um outro conjunto de variáveis.

34
Q

Quanto a Noções de Data Mining e Business Intelligence (BI), analise as assertivas abaixo e assinale a alternativa correta.
I. Data Mining faz a varredura de uma pequena quantidade de dados de cada vez. II. Business Intelligence atua na parte física de infraestrutura. III. Data Mining também é conhecido como mineração de dados. IV. Business Intelligence passou a ser tratado como uma aplicação de estratégia integrada.

A

Corretas III e IV

35
Q

Conhecido também como mineração de dados, sua função principal é a varredura de grande quantidade de dados à procura de padrões e detecção de relacionamentos entre informações, gerando novos subgrupos de dados. Usado comumente em grandes bancos de dados, pode-se considerar que é como um agregador e organizador de dados. Trata-se do conceito de:

A

Data Mining

36
Q
  1. Seleção de dados 2. Limpeza de dados 3.Mineração de dados 4. Avaliação
    ( ) São aplicados algoritmos para extração de características dos dados.
    ( ) O subconjunto objetivado dos dados e os atributos de interesse são identificados examinando-se o conjunto de dados bruto inteiro.
    ( ) Os padrões são apresentados para os usuários em uma forma inteligível.
    ( ) Ruído e exceções são removidos, valores de campo são transformados em unidades comuns e alguns campos são criados pela combinação de campos já existentes para facilitar a análise. Normalmente, os dados são colocados em um formato relacional, e várias tabelas podem ser combinadas em uma etapa de desnormalização.
A

3142

37
Q

Qual é a etapa de modelagem da metodologia CRISP-DM na qual são tratados os valores nulos e pode ser necessário fazer fusão com outros dados?

A

Preparação dos dados

38
Q

Fatos, dimensões e medidas são elementos essenciais de um data warehouse.

A

Certo.

Fatos: Evento ou transação que ocorre em um negócio (Normalmente são medidas numéricas) ex: valor de uma venda, quantidade, data…

Medidas: Valores associados aos fatos - Ex: média de vendas, período de tempo, Valor total…

Dimensões: fornece o contexto exato dos fatos (Ajuda a criar filtros) - Ex: Nome, idade, localização “informações dos produtos: (categoria, marca, preço)

39
Q

O data mining é um processo usado para extrair e analisar informações que revelam padrões ou tendências estratégicas do negócio.

A

Certo.

40
Q
A