Mineração de Dados Flashcards

1
Q

O minerador de dados examina _____ __ _____ em busca de _____ __________ para uma organização.

A

O minerador de dados examina bases de dados em busca de dados relevantes para uma organização.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Mineração de dados também é chamado de:

A

Data Mining e Prospecção de Dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

A mineração de dados trata-se processo de explorar _______ ___________ de dados à procura de ________ ____________.

A

A mineração de dados trata-se processo de explorar grande quantidade de dados à procura de padrões consistentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

PARA FIXAR

Uma história real sobre mineração de dados

Uma empresa britânica supostamente especializada em consultoria política conseguiu obter de forma ilegal dados sobre mais de oitenta milhões de usuários do Facebook sem seus consentimentos.
Esses dados foram utilizados em vários países para verificar o perfil desses eleitores e influenciar suas opiniões no intuito de ajudar políticos a vencerem eleições. Por meio de consultas às páginas curtidas, data de nascimento, cidade, sexo, etc, uma aplicação de mineração de dados conseguiu traçar perfis psicológicos dessas pessoas e criar campanhas ou propagandas direcionadas de forma mais eficaz para influenciar em suas convicções políticas. Zuckerberg teve que ir ao Congresso dos EUA para esclarecer como o Facebook reagiu ao vazamento de dados de 87 milhões de pessoas pela consultoria política Cambridge Analytica e como a empresa trabalha para proteger os dados de seus usuários.
Há suspeitas de que a empresa britânica teria sido utilizada para ajudar Donald Trump a vencer as eleições presidenciais norte-americanas de 2016.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

PARA FIXAR

A mineração de dados possibilita, por exemplo,
que companhias aéreas prevejam quem perderá um voo; é capaz de informar a grandes lojas de departamento quem possivelmente está grávida; ajuda médicos a identificarem infecções fatai ; e impressionantemente podem ser utilizadas até para prever - por meio de dados celulares - possíveis massacres em diversos países.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Mineração de dados nada mais é do que a aplicação de técnicas ____________ capazes de pesquisar uma quantidade _______ de dados em busca de ________ impossíveis de serem detectados por _____ _______.

A

Mineração de dados nada mais é do que a aplicação de técnicas estatísticas capazes de pesquisar uma quantidade gigante de dados em busca de padrões impossíveis de serem detectados por seres humanos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

CERTO OU ERRADO;

Os padrões encontrados em uma mineração de dados não são baseados na intuição humana.

A

CERTO! São baseados no que os dados sugerem.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

PARA FIXAR

Os cientistas de dados do Spotify podem estar interessados em descobrir o perfil de pessoas que curtem rock medieval e sugerir músicas de gêneros similares. Poderia ser analisando padrões de gravadoras, reviews publicados na Internet, parcerias entre músicos, idade, localização e grupo de amigos do ouvinte, entre outros fragmentos de informação sobre cada usuário.
Muitas vezes encontrará um padrão específico.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

PARA FIXAR

Encontrando os padrões dentro de uma mineração de dados, em muitos casos você encontrará correlações que são acidentais e em outros casos você encontrará correlações, mas não conseguirá explicá-las

Ex de correlações: Spotfy sugerir um gênero parecido com o que o ouvinte escuta ou sugerir um rapper com o mesmo estilo do preferido.

Ex onde não há correlações: Uma rede varejista, por exemplo, descobriu que a venda de colírios aumentava na véspera de feriados.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Uma das 16 definições de Data Mining:

Data Mining é uso de _______, _______, _________ e ___________ para organizar uma grande quantidade de dados ______ para identificar padrões de comportamentos em determinados ________.

A

Uma das 16 definições de Data Mining:

Data Mining é uso de teorias, métodos, processos e tecnologias para organizar uma grande quantidade de dados brutos para identificar padrões de comportamentos em determinados públicos.
Palavras-chave: teorias; métodos; processos; tecnologias; organizar dados brutos; padrões de comportamentos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Uma das 16 definições de Data Mining:

Data Mining é o processo de explorar grande quantidade de dados para extração ___-_______ de informação _________ desconhecida.

A

Uma das 16 definições de Data Mining:

Data Mining é o processo de explorar grande quantidade de dados para extração não-trivial de informação implícita desconhecida.
Palavras-chave: exploração; informação implícita desconhecida.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Uma das 16 definições de Data Mining:

Data Mining é a categoria de ___________ de análise denominada ____-___ e que permite ao usuário avaliar tendências e padrões ___ __________ entre os dados.

A

Uma das 16 definições de Data Mining:

Data Mining é a categoria de ferramentas de análise denominada open-end e que permite ao usuário avaliar tendências e padrões não conhecidos entre os dados.
Palavras-chave: ferramenta de análise; open-end; tendências e padrões.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Uma das 16 definições de Data Mining:

Data Mining é o processo de descoberta de novas ___________, ________ e __________ entre as informações de uma empresa, por meio da análise de grandes quantidades de dados armazenados em bancos de dados usando técnicas de reconhecimento de _______, ____________ e ___________.

A

Uma das 16 definições de Data Mining:

Data Mining é o processo de descoberta de novas correlações, padrões e tendência entre as informações de uma empresa, por meio da análise de grandes quantidades de dados armazenados em bancos de dados usando técnicas de reconhecimento de padrões, estatísticas e matemáticas.
Palavras-chave: descoberta; correlações; padrões; tendências; reconhecimento de padrões; estatística; matemática.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Uma das 16 definições de Data Mining:

Data Mining constitui em uma técnica para a exploração e análise de dados, visando descobrir _______ e ______, a princípio _______, importantes à aplicação.

A

Uma das 16 definições de Data Mining:

Data Mining constitui em uma técnica para a exploração e análise de dados, visando descobrir padrões e regras, a princípio ocultos, importantes à aplicação.
Palavras-chave: exploração e análise de dados; padrões; regras; ocultos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Uma das 16 definições de Data Mining:

Data Mining é o conjunto de ferramentas que permitem ao usuário avaliar __________ e ________ ___ __________ entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como redes _______, _________ _________ e ______ ________ (_____), dentre outras.

A

Data Mining é o conjunto de ferramentas que permitem ao usuário avaliar tendências e padrões não conhecidos entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como redes neurais, algoritmos genéticos e lógica nebulosa (_____), dentre outras.
Palavras-chave: tendências; padrões; redes neurais; algoritmos genéticos; lógica nebulosa.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Uma das 16 definições de Data Mining:

Data Mining é o conjunto de ___________ e ________ de mineração de dados que têm por objetivo buscar a ______________ e o ____________ (_____________) de dados, bem como identificar _______.

A

Uma das 16 definições de Data Mining:

Data Mining é o conjunto de ferramentas e técnicas de mineração de dados que têm por objetivo buscar a classificação e o agrupamento (clusterização) de dados, bem como identificar padrões.
Palavras-chave: classificação; agrupamento; clusterização; padrões

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Uma das 16 definições de Data Mining:

Data Mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes com o intuito de detectar relacionamentos sistemáticos entre _________ e novos ____________ de dados.

A

Uma das 16 definições de Data Mining:

Data Mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes com o intuito de detectar relacionamentos sistemáticos entre variáveis e novos subconjuntos de dados.
Palavras-chave: padrões; relacionamentos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Uma das 16 definições de Data Mining:

Data Mining consiste em explorar um conjunto de dados visando a extrair ou a ajudar a evidenciar _______, como regras de ___________ ou sequências _________, para detectar _______________ entre estes.

A

Uma das 16 definições de Data Mining:

Data Mining consiste em explorar um conjunto de dados visando a extrair ou a ajudar a evidenciar padrões, como regras de associação ou sequências temporais, para detectar relacionamentos entre estes.
Palavras-chave: exploração; padrões; regras; associação; sequência temporal; detecção

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Uma das 16 definições de Data Mining:

Data Mining são ferramentas que utilizam diversas técnicas de natureza ___________, como a análise de _____________ (_______ ________), que tem como objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados como _____________ entre si, com base nas _______________ analisadas.

A

Uma das 16 definições de Data Mining:

Data Mining são ferramentas que utilizam diversas técnicas de natureza estatística, como a análise de conglomerados (cluster analysis), que tem como objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados como semelhantes entre si, com base nas características analisadas.
Palavras-chave: estatística; análise de conglomerados; agrupamento

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Uma das 16 definições de Data Mining:

Data Mining é o conjunto de técnicas que, envolvendo métodos ___________ e ____________, __________ e princípios de ____________ __________, tem o objetivo de descobrir _______________ ______________ entre dados armazenados em repositórios de grandes volumes e concluir sobre _______ __ _____________ de clientes de uma organização.

A

Uma das 16 definições de Data Mining:

Data Mining é o conjunto de técnicas que, envolvendo métodos matemáticos e estatísticos, algoritmos e princípios de inteligência artificial, tem o objetivo de descobrir relacionamentos significativos entre dados armazenados em repositórios de grandes volumes e concluir sobre padrões de comportamento de clientes de uma organização.

Palavras-chave: métodos matemáticos e estatístico; inteligência artificial; relacionamentos; padrões; comportamentos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Uma das 16 definições de Data Mining:

Data Mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de __________ ou sequências _________, para detectar ________________ ____________ entre variáveis, detectando assim novos ____________ de dados.

A

Uma das 16 definições de Data Mining:

Data Mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos significativos entre variáveis, detectando assim novos subconjuntos de dados.
Palavras-chave: métodos matemáticos e estatístico; inteligência artificial; relacionamentos; padrões; comportamentos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Uma das 16 definições de Data Mining:

Data Mining é o processo de identificar, em dados, padrões _______, _____, potencialmente _____ e, ao final, ______________.

A

Uma das 16 definições de Data Mining:

Data Mining é o processo de identificar, em dados, padrões válidos, novos, potencialmente úteis e, ao final, compreensíveis.
Palavras-chave: padrões; utilidade

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Uma das 16 definições de Data Mining:

Data Mining é um método _____________ que permite extrair informações a partir de ______ __________ de dados.

A

Uma das 16 definições de Data Mining:

Data Mining é um método computacional que permite extrair informações a partir de grande quantidade de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Uma das 16 definições de Data Mining:

Data Mining é o processo de explorar grandes quantidades de dados à procura de _______ ____________, como regras de ___________ ou sequências _________.

A

Uma das 16 definições de Data Mining:

Data Mining é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Uma das 16 definições de Data Mining:

Data Mining é o processo de analisar de maneira ____-__________ grandes bancos de dados para encontrar _______ _____.

A

Uma das 16 definições de Data Mining:

Data Mining é o processo de analisar de maneira semi-automática grandes bancos de dados para encontrar padrões úteis.
Palavras-chave: padrões

ATENÇÃO: Sobre esse ponto, há uma polêmica: alguns examinadores consideram que é de forma automática e outros consideram que é de forma semiautomática. Por vezes, examinadores de uma mesma banca possuem entendimentos diferentes. Levar para a prova que pode ser automática ou semiautomática e – caso essa questão venha a ser cobrada – já se preparar para possíveis recursos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

RESUMO DE DATA MINING DE ACORDO COM AS 16 DEFINIÇÕES QUE JÁ CAÍRAM EM PROVA

Data Mining – Mineração de Dados – é um conjunto de processos, métodos, teorias, ferramentas e tecnologias open-end utilizadas para explorar, organizar e analisar de forma automática ou semi-automática2uma grande quantidade de dados brutos com o intuito de identificar, descobrir, extrair, classificar e agrupar informações implícitas desconhecidas, além de avaliar correlações, tendências e padrões consistentes de comportamento potencialmente úteis – como regras de associação ou sequências temporais – de forma não-trivial por meio de técnicas estatísticas e matemáticas, como redes neurais, algoritmos genéticos, inteligência artificial, lógica nebulosa, análise de conglomerados (clusters), entre outros.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

CERTO OU ERRADO:

A utilização é obrigatoriamente utilizada em conjunto com Data Warehouses.

A

ERRADO! Em regra, é usada com Data Warehouses mas NÃO É OBRIGATÓRIO. Pode ser usado com bando de dados relacionais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Para dar conta da imensa quantidade de dados a serem analisados, a mineração de dados necessita, por vezes, utilizar processamento:

A

paralelo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

As ferramentas de mineração geralmente utilizam uma arquitetura:

A
  • cliente/servidor (mais comum)
  • arquitetura web.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

CERTO OU ERRADO:

Não é necessário ser um grande analista de dados para utilizar essas ferramentas de mineração

A

CERTO! Usuários podem fazer pesquisas sem necessariamente saber detalhes da tecnologia ou de programação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

A mineração de dados pode ser aplicada a uma grande variedade de contextos de tomada de decisão de negócios a fim de obter:

A

vantagens competitivas estratégicas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

A mineração de dados pode ser aplicada a uma grande variedade de contextos de tomada de decisão de negócios a fim de obter vantagens
competitivas estratégicas. Em particular, é recomendado a algumas áreas de ganhos significativos, como:

A

Marketing, Finanças, Manufatura e Saúde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Há dois diferentes tipos de mineração de dados:

A

(1) diagnóstica: utilizada para entender os dados e/ou encontrar causas de problemas;
(2) preditiva: utilizada para antecipar comportamentos futuros;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

ATENÇÃO

As provas vão insistir em afirmar que a mineração de dados só pode ocorrer em bancos de dados muito grades como Data Warehouses, mas isso é falso – apesar de comum, não é obrigatório;

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

É possível possível realizar a mineração de dados de bases de dados não estruturadas?

A

SIM!!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

CERTO OU ERRADO:

No ambiente organizacional, devido à grande quantidade de dados, não é recomendado o emprego de data mining para atividades ligadas a marketing.

A

ERRADO! É recomendável.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

A Mineração de Dados faz parte de um processo muito maior de descoberta de conhecimento chamada:

A

KDD (Knowledge Discovery in Databases – Descoberta de Conhecimento em Bancos de Dados).O

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

O que significa a sigla KDD?

A

Knowledge Discovery in Databases ou Descoberta de Conhecimento em Bancos de Dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

O processo de descoberta de conhecimento de banco de dados (KDD) compreende cinco fases:

A

(1) Seleção;
(2) Pré-processamento;
(3) Transformação;
(4) Data Mining;
(5) Interpretação e Avaliação
alguns autores possuem avaliações um pouco diferentes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

PARA FIXAR

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

O processo de descoberta de conhecimento no banco de dados é __________ e _________, envolvendo várias etapas com muitas ________ tomadas pelo usuário.

A

O processo de descoberta de conhecimento no banco de dados é interativo e iterativo, envolvendo várias etapas com muitas decisões tomadas pelo usuário.
Iteração = repetitivo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

A primeira etapa da descoberta de conhecimento no banco de dados (KDD) é selecionar um ________ __ _____ de diversas _____, ou se concentrar em um ___________ __ _________ ou ________ __ _____, no qual a descoberta será realizada.

A

A primeira etapa da descoberta de conhecimento no banco de dados (KDD) é selecionar um conjunto de dados de diversas bases, ou se concentrar em um subconjunto de variáveis ou amostras de dados, no qual a descoberta será realizada.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Com a seleção de dados relevantes no processo descoberta de conhecimento no banco de dados, a segunda etapa será o ___-______________ dos dados.
Operações básicas incluem _______, remoção de _____, eliminação de ___________, decidir estratégias para lidar com ______ __ _____ ________, entre outros.

A

Com a seleção de dados relevantes na descoberta de conhecimento no banco de dados, a segunda etapa será o pré-processamento dos dados.
Operações básicas incluem limpeza, remoção de erros, eliminação de redundância, decidir estratégias para lidar com campos de dados ausentes, entre outros.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Com os dados pré-processados no processo de descoberta de conhecimento no banco de dados, passamos à terceira fase, à etapa de _____________, em que os dados são _____________ e ____________ em formas ____________ à mineração, ____________-__ e __________-__.

A

Com os dados pré-processados na descoberta de conhecimento no banco de dados, passamos à terceira fase, à etapa de transformação, em que os dados são enriquecidos e consolidados em formas apropriadas à mineração, sumarizando-os e agregando-os.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Com os dados transformados, passamos à quarta etapa do processo de descoberta de conhecimento no banco de dados que é a de __________ __ _____. Utilizam-se __________ e ________ para extrair possíveis _______ ______ de dados.

A

Com os dados transformados, passamos à quarta etapa do processo de descoberta de conhecimento no banco de dados que é a de mineração de dados. Utilizam-se algoritmos e técnicas para extrair possíveis padrões úteis de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

Feita a mineração de dados chegamos na última fase do processo de descoberta de conhecimento no banco de dados, que é a de _____________. Diversos padrões serão _____________ e _________ em busca de ________ realmente ______________ e _____, além de suas possíveis ___________ ou ______________.

A

Feita a mineração de dados chegamos na última fase do processo de descoberta de conhecimento no banco de dados, que é a de interpretação. Diversos padrões serão interpretados e analisados em busca de padrões realmente interessantes e úteis, além de suas possíveis explicações ou interpretações.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

A técnica de pré-processamento possui alguns objetivos principais:

A
  • melhorar a qualidade dos dados
  • diminuir a ambiguidade das expressões linguísticas
  • diminuir a quantidade de dados a ser processado
  • estruturar as informações como tuplas; e
  • melhorar a eficiência da mineração de dados.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

Eslmari Navathe, renomado autor de bancos de dados, considera que o KDD não possui cinco etapas e sim contempla seis etapas:

A

1) Seleção de dados: Dados sobre itens ou categorias são selecionados.
2) Limpeza de dados: Dados são corrigidos ou eliminados dados incorretos.
3) Enriquecimento de dados: Dados são melhorados com fontes de informações adicionais.
4) Transformação de dados: Dados são reduzidos por meio de sumarizações, agregações e discretizações.
5) Mineração de dados: Padrões úteis são descobertos.
6) Exibição de dados: Informações descobertas são exibidas ou relatórios são construídos
discretizações: variáveis numéricas são convertidas em classes ou categorias

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

CERTO OU ERRADO:

O objetivo das técnicas de pré-processamento de dados é preparar os dados brutos para serem analisados sem erros de incompletudes, inconsistências e ruídos.

A

CERTO!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
50
Q

QUESTÃO DE PROVA

O processo de extração de informações de bases de dados é conhecido como descoberta de conhecimento em banco de fados, em inglês Knowledge Discovery in Databases (KDD). Segundo Fayyad, tal processo é constituído pelas etapas na seguinte ordem:

a) seleção – pré-processamento – transformação – mineração de dados – avaliação.
b) limpeza dos dados – seleção – transformação – mineração de dados – conhecimento.
c) mineração de dados –interpretação – avaliação.
d) projeção – seleção – mineração de dados - avaliação – conhecimento.

A

**a) seleção – pré-processamento – transformação – mineração de dados – avaliação. **

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
51
Q

Segundo Navathe, a Mineração de Dados costuma ser executada com alguns objetivos finais ou aplicações. De um modo geral, esses objetivos se encontram nas seguintes classes:

A

Previsão, Identificação, Classificação ou Otimização.
isso significa que você pode utilizar a mineração de dados com o objetivo que podem ser divididos nas seguintes classes: previsão, identificação, classificação e otimização

MNEMÔNICO PICO

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
52
Q

No objetivo da mineração de dados PREVISÃO, a mineração de dados pode mostrar como certos atributos dos dados se ____________ __ ______. Um de seus objetivos é prever ______________ _______ baseado em ______________ ________.

A

No objetivo da mineração de dados PREVISÃO , a mineração de dados pode mostrar como certos atributos dos dados se comportarão no futuro. Um de seus objetivos é prever comportamentos futuros baseado em comportamentos passados.
Exemplo: análise de transações de compras passadas para prever o que os consumidores
comprarão futuramente sob certos descontos, quanto volume de vendas uma loja gerará em
determinado período e se a exclusão de uma linha de produtos gerará mais lucros. Em tais
aplicações, a lógica de negócios é usada junto com a mineração de dados. Em um contexto científico, certos padrões de onda sísmica podem prever um terremoto com alta probabilidade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
53
Q

No objetivo da mineração de dados IDENTIFICAÇÃO, padrões de dados podem ser usados para identificar a existência de um ____, um ______ ou uma _________.

A

No objetivo da mineração de dados IDENTIFICAÇÃO, padrões de dados podem ser usados para identificar a existência de um item, um evento ou uma atividade.
Por exemplo: intrusos tentando quebrar um sistema podem ser identificados pelos programas por eles executados, arquivos por eles acessados ou pelo tempo de CPU por sessão aberta. Em aplicações biológicas, a existência de um gene pode ser identificada por sequências específicas de nucleotídeos em uma cadeia de DNA. A área conhecida como autenticação é uma forma de identificação. Ela confirma se um usuário é realmente um usuário específico ou de uma classe autorizada, e envolve uma comparação de parâmetros, imagens ou sinais contra um banco de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
54
Q

No objetivo da mineração de dados CLASSIFICAÇÃO, a mineração de dados pode ___________ os dados de modo que diferentes classes ou categorias possam ser identificadas com base em ___________ __ __________.

A

No objetivo da mineração de dados CLASSIFICAÇÃO, a mineração de dados pode particionar os dados de modo que diferentes classes ou categorias possam ser identificadas com base em combinações de parâmetros.
Por exemplo: os clientes em um supermercado podem ser categorizados em compradores que buscam desconto, compradores com pressa, compradores regulares leais, compradores ligados a marcas conhecidas e compradores eventuais. Essa classificação pode ser usada em diferentes análises de transações de compra de cliente como uma atividade pós-mineração. Às vezes, a classificação baseada em conhecimento de domínio comum é utilizada como uma entrada para decompor o problema de mineração e torná-lo mais simples (Ex: alimentos saudáveis, alimentos de festa ou alimentos de lanche escolar são categorias distintas nos negócios do supermercado. Faz sentido analisar o relacionamento dentro e entre categorias como problemas separados ). Essa categorização pode servir para codificar os dados corretamente antes de submetê-los a mais mineração de dados.*

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
55
Q

No objetivo da mineração de dados OTIMIZAÇÃO, um objetivo relevante da mineração de dados pode ser otimizar o uso de _________ _________, como _____, ______, ________ ou _________ e maximizar _________ __ _____ como ______ ou ______ sob determinado conjunto de restrições. Como tal, esse objetivo da mineração de dados é semelhante à ______ ________, usada em problemas de pesquisa operacional, que lida com otimização sob restrições.

A

No objetivo da mineração de dados OTIMIZAÇÃO, um objetivo relevante da mineração de dados pode ser otimizar o uso de recursos limitados, como tempo, espaço, dinheiro ou materiais e maximizar variáveis de saída como vendas ou lucros sob determinado conjunto de restrições. Como tal, esse objetivo da mineração de dados é semelhante à função objetiva, usada em problemas de pesquisa operacional, que lida com otimização sob restrições.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
56
Q

CERTO OU ERRADO:

Para a realização de prognósticos por meio de técnicas de mineração de dados, parte-se de uma série de valores existentes obtidos de dados históricos bem como de suposições controladas a respeito das condições futuras, para prever outros valores e situações que ocorrerão e, assim, planejar e preparar as ações organizacionais.

A

CERTO! Prognóstico ou previsão partem dados históricos para prever situações futuras

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
57
Q

Tarefas consistem na:

A

especificação do que estamos querendo buscar nos dados.
o que?
AS BANCAS GERALMETE CONCEITUAM TAREFAS E TÉCNICA COMO A MESMA COISA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
58
Q

Técnicas consistem na:

A

especificação de como descobrir os padrões.
como?
AS BANCAS GERALMETE CONCEITUAM TAREFAS E TÉCNICA COMO A MESMA COISA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
59
Q

Podemos dividir tarefas e técnicas em três categorias:

A
  • Predição/Previsão
  • Associação
  • Agrupamento/Clusterização
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
60
Q

PARA FIXAR

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
61
Q

A técnica de Predição/Previsão busca descrever a ________ de ocorrências _______ de certos eventos com base nos acontecimentos ________;

A

A técnica de Predição/Previsão busca descrever a natureza de ocorrências futuras de certos eventos com base nos acontecimentos passados;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
62
Q

A técnica de Associação busca descobrir relacionamentos entre _________ correlacionando a presença de um item com uma _____ __ _______ para outro ________ __ __________;

A

A técnica de Associação busca descobrir relacionamentos entre variáveis correlacionando a presença de um item com uma faixa de valores para outro conjunto de variáveis;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
63
Q

A técnica de Agrupamento/Clusterização __________ dados em __________ ___________ _____________ com características ___________.

A

A técnica de Agrupamento/Clusterização particiona dados em segmentos previamente desconhecidos com características semelhantes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
64
Q

Uma Técnica de Aprendizado Supervisionado é aquela que necessita de __________ ou _________ com um ___ ______.

A

Uma Técnica de Aprendizado Supervisionado é aquela que necessita de supervisão ou interação com um ser humano.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
65
Q

Uma Técnica de Aprendizado Não Supervisionado não necessita de supervisão ou interação com um:

A

ser humano.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
66
Q

No aprendizado supervisionado, um ser humano alimenta o algoritmo com categorias de dados de _____ de tal forma que o algoritmo aprenda como classificar os dados de entrada nas categorias de dados de _____ ___-_________.

A

No aprendizado supervisionado, um ser humano alimenta o algoritmo com categorias de dados de saída de tal forma que o algoritmo aprenda como classificar os dados de entrada nas categorias de dados de saída pré-definidas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
67
Q

PARA FIXAR

Note que, na imagem, já foi definido quais serão as categorias de saída (OUTPUT), logo o algoritmo irá receber os dados brutos de entrada, irá processá-los e aprenderá a classificá-los em cada uma das categorias de saída que eu defini inicialmente. Se um ser humano interferiu com o algoritmo pré-definindo nas categorias de saída do algoritmo (no 1 da imagem), o algoritmo utilizou um aprendizado supervisionado porque ele aprendeu a categorização, mas com o auxílio de um ser humano.

Na imagem a direita há um conjunto de pontinhos e o algoritmo (no 2 da imagem) , que por si só interpreta esses dados de entrada em busca de similaridades, padrões e características em comum, realiza o processamento e ele mesmo os categoriza sem nenhuma interferência humano durante o processo

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
68
Q

Se um ser humano interferiu com o algoritmo pré-definindo nas categorias de saída do algoritmo, o algoritmo utilizou um aprendizado:

A

supervisionado.
porque ele aprendeu a categorização, mas com o auxílio de um ser humano.

69
Q

São consideradas de aprendizado supervisionado:

A

Classificação e Regressão.

70
Q

São consideradas de aprendizado não supervisionado:

A

Associação, Agrupamento e Anomalia.
começou com A é uma técnica de aprendizado não supervisionado

71
Q

PARA FIXAR

A
72
Q

Classificação trata-se de uma técnica de mineração de dados que designa ____ de dados a uma determinada ______ ou _________ ___________ ________ a fim de ______ _ ______ ____ para cada ____ de dado.

A

Classificação trata-se de uma técnica de mineração de dados que designa itens de dados a uma determinada classe ou categoria previamente definida a fim de prever a classe alvo para cada item de dado.

73
Q

A ideia da técnica de classificação é:

A

categorizar coisas.

74
Q

EXEMPLO DA TÉCNICA DE CLASSIFICAÇÃO DE APRENDIZADO SUPERVISIONADO

Existe uma loja americana chamada Target – ela vende de tudo, mas principalmente roupas. Ela ficou famosa em 2002 por conseguir adivinhar mulheres que estavam grávidas e lhes enviar cupons de desconto relacionados a bebês. Como eles fizeram isso? Isso virou exemplo de problemas de classificação de livros didáticos de mineração de dados.
A Target precisava classificar cada cliente em uma de duas categorias: provavelmente grávida ou provavelmente não grávida. A classificação é um processo que geralmente funciona em vários estágios. Primeiro, cada instância tem que ser dividida em uma coleção de atributos – também chamados de rótulo ou etiqueta. Para uma loja como a Target, uma instância poderia ser uma mulher qualquer. Que atributos seriam
relevantes para descobrir se uma mulher está grávida? Bem, a Target possuía um banco de dados com informações sobre todas as suas clientes como nome, data de nascimento, endereço, e-mail e o principal: histórico de compras. Ademais, é comum a compra ou compartilhamento de bases de dados entre empresas.
Logo, ela possuía todo o histórico de compras de diversas clientes em várias empresas. Além disso, a Target possuía um cadastro em seu site para oferecer descontos para mulheres que se
registrassem como grávidas. Com base em tudo isso, ela analisou uma pequena amostra de dados e, em pouco tempo, surgiram alguns padrões úteis. Um exemplo interessantíssimo foi a compra de creme hidratante! Como assim, professor?
Analisando a base de mulheres grávidas, um analista descobriu que elas estavam comprando quantidades maiores de creme hidratante sem cheiro por volta do começo do segundo trimestre de gravidez. Outro analista observou que, em algum momento das vinte primeiras semanas, mulheres grávidas compraram muitos suplementos como cálcio, magnésio e zinco. Cada informação dessas pode ser considerada um atributo que ajuda a encaixar nas duas categorias. Analistas também descobriram que mulheres na base de registro de grávidas bem próximas de ganhar o bebê estavam comprando de forma diferenciada uma quantidade maior de sabão neutro e desinfetantes para mãos. Após interpretação, foi descoberto que isso significava que provavelmente o bebê estava próximo de nascer! Por que isso é importante? Porque cada informação dessa é um atributo fundamental para a classificação de gravidez ou não-gravidez. Claro que, até agora, isso é uma mera expectativa – ainda não é possível dizer que o algoritmo vai acertar na maioria das vezes só porque nós identificamos algumas correlações em uma amostra pequena. Mas, então, foram identificados 25 produtos que – quando analisados em conjunto – permitissem a atribuição de um peso ou uma pontuação. Como assim? Basicamente, cada produto (atributo) analisado possui um peso diferente.
Comprar fraldas é um atributo com um peso/pontuação muito maior do que comprar creme hidratante! Bem, à medida que os computadores começaram a processar os dados, chegou-se a uma pontuação em relação à probabilidade de gravidez de cada compradora! Mais que isso: foi também possível estimar sua data de nascimento dentro de uma pequena janela, para que a Target pudesse enviar cupons cronometrados para fases mais específicas da gravidez.
Para testar, criou-se uma pessoa fictícia no banco de dados chamada Jennifer Simpson que tinha 23 anos, morava em Atlanta e em março havia comprado um creme hidratante de cacau, uma bolsa grande o suficiente para caber um pacote de fraldas, suplementos de zinco e magnésio e um tapete azul brilhante. O algoritmo estimou que havia uma chance de 87% de que ela estivesse grávida
e que o bebê nasceria em algum momento no final de agosto.
Chegou o momento então de colocar o algoritmo para rodar na base histórica inteira! Isso foi feito e a Target começou a enviar cupons de desconto para itens de bebê pelos correios para clientes que nunca haviam se cadastrado como grávidas – tudo baseado na pontuação de seus algoritmos em relação à classificação realizada. Galera, houve um caso em que um homem irritado entrou em uma Target de Minneapolis exigindo falar com o gerente. “Minha filha recebeu isso pelo correio”, disse ele. “Ela ainda está no ensino médio e vocês estão enviando cupons para roupas de bebê e berços? Vocês estão tentando incentivá-la a engravidar?”. O gerente não tinha ideia do que o homem estava falando. Ele olhou o cupom e viu que o endereço estava correto, realmente era para a filha daquele senhor e continha anúncios de roupas de maternidade, móveis de criança e fotos de bebês sorridentes.
O gerente pediu mil desculpas e se despediu do pai da menina. No dia seguinte, ele – não satisfeito – fez questão de ligar para aquele senhor e pedir desculpas mais uma vez. Conta se a história que ao receber o telefone de desculpas, o pai ficou envergonhado: “Eu tive uma conversa com minha filha”, disse ele. “Acontece que tem havido algumas atividades em minha casa que eu não conhecia completamente. Ela está grávida, prevista para gosto e eu que te devo desculpas”

A
75
Q

A técnica de classificação utiliza um algoritmo de ___________ ______________ a fim de distribuir um conjunto de dados de entrada em categorias ou classes ___-_________ __ _____ para realizar a análise de dados. Constroem-se modelos de classificação a partir de um conjunto de dados de _______, identificando cada classe por meio de múltiplos _________ e os _________/___________ – sendo essa técnica possível de ser utilizada com ______ ________!

A

A técnica de classificação utiliza um algoritmo de aprendizado supervisionado a fim de distribuir um conjunto de dados de entrada em categorias ou classes pré-definidas de saída para realizar a análise de dados. Constroem-se modelos de classificação a partir de um conjunto de dados de entrada, identificando cada classe por meio de múltiplos atributos e os rotulando/etiquetando.
é possível essa técnica ser utilizada com outras técnicas!

76
Q

QUESTÃO DE PROVA

Dentre os algoritmos utilizados em data
mining, há um algoritmo que visa o estabelecimento de categorias, a partir do conjunto de dados, bem como a distribuição dos dados nas categorias estabelecidas. Essa descrição corresponde aos algoritmos de:

a) classificação.
b) sumarização.
c) visualização.
d) evolução.
e) detecção de desvios.

A

a) classificação.

77
Q

Existem diversas ferramentas de classificação, tais como:

A
  • árvores de decisão
  • redes neurais
  • regressão logística
  • análise discriminatória
  • conjuntos aproximados
  • máquinas de vetores de suporte
  • métodos bayesianos
  • algoritmos genéticos.
78
Q

As Redes Neurais (Artificiais), ferramenta de técnica de classificação, foram originalmente projetadas por psicólogos e neurobiologistas que procuravam desenvolver um conceito de neurônio artificial análogo ao neurônio natural.
São algoritmos inspirados no _______ _______ _______ de _______ – em particular, o _______ – que possuem a capacidade de aprender com experiências passadas, prever um comportamento ou reconhecer um padrão desde que apresentadas no formato de um ________ __ _____ ____________.

A

As Redes Neurais (Artificiais), ferramenta de técnica de classificação, foram originalmente projetadas por psicólogos e neurobiologistas que procuravam desenvolver um conceito de neurônio artificial análogo ao neurônio natural.
São algoritmos inspirados no sistema nervoso central de animais – em particular, o cérebro – que possuem a capacidade de aprender com experiências passadas, prever um comportamento ou reconhecer um padrão desde que apresentadas no formato de um conjunto de dados estruturados.

79
Q

Os algoritmos genéticos, ferramenta da técnica de classificação, utilizam mecanismos de ________ _________, como hereditariedade, recombinação, seleção natural e mutação, para solucionar e agrupar problemas.
De acordo com Navathe, eles são uma classe de procedimentos de pesquisa __________ capazes de realizar pesquisa __________ e _______ por uma grande faixa de __________ de ______ de _____. Costuma-se dizer que é uma maneira de resolver problemas de otimização ao simular um ________ __ _______ _______.

A

Os algoritmos genéticos, ferramenta da técnica de classificação, utilizam mecanismos de biologia evolutiva, como hereditariedade, recombinação, seleção natural e mutação, para solucionar e agrupar problemas.
De acordo com Navathe, eles são uma classe de procedimentos de pesquisa aleatórios capazes de realizar pesquisa adaptativa e robusta por uma grande faixa de topologias de espaço de busca. Costuma-se dizer que é uma maneira de resolver problemas de otimização ao simular um processo de seleção natural.

80
Q

As árvores de decisão, ferramenta da técnica de classificação, são basicamente uma representação _______ das regras de classificação. Elas demonstram de forma ______ as _________ e ______________ para categorizar dados por meio de uma estrutura que contém __ ____, ___ _____ e ___ ______.

A

As árvores de decisão, ferramenta da técnica de classificação, são basicamente uma representação gráfica das regras de classificação. Elas demonstram de forma visual as condições e probabilidades para categorizar dados por meio de uma estrutura que contém nós raiz, nós folhas e nós finais.

81
Q

Cada nó interno de uma árvore de decisão denota um:

Cada ramificação de uma árvore de decisão denota o:

Cada nó folha de uma árvore de decisão contém um:

A

Cada nó interno de uma árvore de decisão denota um teste em um atributo.

Cada nó interno de uma árvore de decisão denota um: resultado de um teste.

Cada nó folha de uma árvore de decisão contém um rótulo de uma classe.

82
Q

O objetivo da técnica das árvores de decisão é andar pela árvore verificando cada um dos testes até chegar a uma folha, que representa a _________, ______ ou ______ do item avaliado.

A

O objetivo da técnica das árvores de decisão é andar pela árvore verificando cada um dos testes até chegar a uma folha, que representa a categoria, classe ou rótulo do item avaliado.

83
Q

O algoritmo da árvore de decisão é capaz de classificar dados dentre de um conjunto ______ de classes com base em valores de entrada por meio de uma abordagem chamada ______________, que permite determinar as ______ para que se possa designar ou direcionar cada caso a uma categoria ___-__________, separando-os em níveis __________.

A

O algoritmo da árvore de decisão é capaz de classificar dados dentre de um conjunto finito de classes com base em valores de entrada por meio de uma abordagem chamada estratificação, que permite determinar as regras para que se possa designar ou direcionar cada caso a uma categoria pré-existentes, separando-os em níveis diferentes.
(Ex: executar o processo da troca, enviar para a assistência, comunicar o cliente e reeviar o produto)

84
Q

QUESTÃO DE PROVA

Nos processos de Data Mining, a partir de uma massa de dados, uma técnica estatística cria e organiza regras de classificação em formato de diagramas, que vão ordenar suas observações ou predizer resultados futuros. Uma das abordagens empregadas nessa técnica é a estratificação, que determina regras para que se possa designar cada caso a uma dentre várias categorias existentes, como, por exemplo, classificar um cliente tomador de crédito em um grupo de elevado, médio ou baixo risco.

Essa técnica estatística é denominada:

a) diagrama de regressão.
b) gráfico de estrutura.
c) árvore de decisão.
d) rede neural.
e) histograma.

A

c) árvore de decisão.

85
Q

Na regressão, em vez de prever uma categoria, o objetivo é prever um:

A

número.

86
Q

A Regressão depende muitas vezes de dezenas ou mesmo milhares de _________ ou _______________ que descrevam cada exemplo e encontra uma _______ ou _____ para ajustar os ______ __ _____. Como na classificação, muitas técnicas de regressão dão a cada característica um peso, então combinam ____________ _________ e _________ dos recursos ponderados para obter uma __________.

A

A Regressão depende muitas vezes de dezenas ou mesmo milhares de variáveis ou características que descrevam cada exemplo e encontra uma equação ou curva para ajustar os pontos de dados. Como na classificação, muitas técnicas de regressão dão a cada característica um peso, então combinam contribuições positivas e negativas dos recursos ponderados para obter uma estimativa.

87
Q

PARA FIXAR

Segundo Navathe, a regressão é uma aplicação especial da regra de classificação. Se uma regra de classificação é considerada uma função sobre variáveis que as mapeia em uma classe destino, a regra é chamada regressão. Isto ocorre quando, ao invés de mapear um registro de dados para uma classe específica, o valor da variável é previsto (calculado) baseado em outros atributos do próprio registro.

A
88
Q

EXEMPLO DE REGRESSÃO

Em 2008, o Google começou a publicar estimativas em tempo real de quantas pessoas teriam gripe com base em pesquisas por palavras como “febre” e “tosse”. Em alguns casos, ele foi capaz de prever surtos regionais de gripe até 10 dias antes de serem notificados pelo CDC (Centros de Controle e Prevenção de Doenças).
Em 2010, o CDC identificou um pico de casos de gripe na região do Atlântico dos Estados Unidos. No entanto, os dados das consultas de pesquisa do Google sobre os sintomas da gripe conseguiram mostrar esse mesmo pico duas semanas antes do relatório do CDC! Inicialmente, o Google tinha uma precisão de 97% em relação ao CDC, porém em anos subsequentes ele reduziu sua precisão e o Google decidiu retirar do ar enquanto não houvesse uma precisão melhor.

IMAGEM PARA ILUSTRAR COMO FUNCIONA

A
89
Q

A regressão compreende a busca por uma ______ que mapeie os registros de um banco de dados em um _________ de _______ _____.

A

A regressão compreende a busca por uma função que mapeie os registros de um banco de dados em um intervalo de valores reais.

90
Q

Uma das abordagens de mining define que, se uma regra de classificação é considerada uma função sobre variáveis que as mapeia em uma classe destino, a regra é chamada:

A

Regressão.

91
Q

Uma das principais tecnologias de mineração de dados envolve a descoberta de regras de:

A

associação.

92
Q

EXEMPLO DA REGRA DE ASSOCIAÇÃO

Em um carrinho de supermercado online, se leite for comprado, açúcar provavelmente também será; se açúcar for comprado, leite provavelmente também será; se leite e açúcar forem comprados, café provavelmente também será em 60% das transações.

A
93
Q

As regras de associação são escritas em um formato como:

A

se algo x acontecer, é provável que algo y também aconteça.

94
Q

Na mineração de dados, uma regra de associação é um evento que relaciona a presença de um ________ __ ____ com outra _____ __ _______ de um outro ________ __ _________.

A

Na mineração de dados, uma regra de associação é um evento que relaciona a presença de um conjunto de itens com outra faixa de valores de um outro conjunto de variáveis.
Uma regra de associação pode ser vista como uma expressão da forma X → Y, onde há a relação dos valores de X e Y em um certo conjunto de valores (Ex: {fralda} → {cerveja})

95
Q

Existem duas variações comuns de regras de associação:

A

padrões sequenciais e os padrões temporais.

96
Q

Nos padrões sequenciais de regras de associação, uma sequência de _____ é buscada.

A

Nos padrões sequenciais de regras de associação, uma sequência de ações é buscada.
Exemplo: se um paciente passou por uma cirurgia de ponte de safena para artérias bloqueadas e um aneurisma e, depois, desenvolveu ureia sanguínea alta dentro de um ano de cirurgia, ele provavelmente sofrerá de insuficiência renal nos próximos dezoito meses.

97
Q

Nos padrões temporais das regras de associação (ou padrões dentro de série temporal), as similaridades podem ser detectadas dentro de ________ de uma _____ ________ de dados, que é uma sequência de dados tomados em __________ _________.

A

Nos padrões temporais das regras de associação (ou padrões dentro de série temporal), as similaridades podem ser detectadas dentro de posições de uma série temporal de dados, que é uma sequência de dados tomados em intervalos regulares.
como vendas diárias ou preços de ações de fechamento diário.
Exemplo: uma ação de uma companhia de energia e outra de uma companhia financeira tiveram o mesmo padrão durante um período de três anos em relação a preço de fechamento de ações

98
Q

Existem duas medidas capazes de indicar a qualidade ou grau de certeza de uma regra de
associação:

A

suporte e confiança.

99
Q

A medida de suporte/prevalência para indicar qualidade ou grau de confiança de uma regra de associação, trata-se da __________ com que um conjunto de itens específicos _______ no banco de dados, isto é, o __________ __ __________ que contém todos os itens em um conjunto. Em termos matemáticos, a medida de suporte para uma regra X → Y é a frequência em que o conjunto de itens aparece nas __________ do banco de dados. Um suporte alto nos leva a crer que os itens do conjunto X e Y costumam ser ________ ______, pois ocorrem com alta frequência no banco.

A

A medida de suporte para indicar qualidade ou grau de confiança de uma regra de associação, trata-se da frequência com que um conjunto de itens específicos ocorrem no banco de dados, isto é, o percentual de transações que contém todos os itens em um conjunto. Em termos matemáticos, a medida de suporte para uma regra X → Y é a frequência em que o conjunto de itens aparece nas transações do banco de dados. Um suporte alto nos leva a crer que os itens do conjunto X e Y costumam ser comprados juntos, pois ocorrem com alta frequência no banco
(Ex: 70% das compras realizadas em um mercado contém arroz e refrigerante).

100
Q

A medida de confiança/força para indicar qualidade ou grau de confiança de uma regra de associação trata-se da _____________ de que exista uma _______ entre itens. Em termos matemáticos, a medida de confiança para uma regra X → Y é a _____ com que essa regra funciona. Ela é calculada pela frequência dos itens Y serem comprados dado que os itens X foram _________. Uma confiança alta nos leva a crer que exista uma ____ ______________ de que se X for comprado, Y também será.

A

A medida de confiança/força para indicar qualidade ou grau de confiança de uma regra de associação trata-se da probabilidade de que exista uma relação entre itens. Em termos matemáticos, a medida de confiança para uma regra X → Y é a força com que essa regra funciona. Ela é calculada pela frequência dos itens Y serem comprados dado que os itens X foram comprados. Uma confiança alta nos leva a crer que exista uma alta probabilidade de que se X for comprado, Y também será .
(Ex: existe uma probabilidade de 70% de que clientes que compram fraldas também comprem cerveja).

101
Q

A técnica de associação pode utilizar diversos métodos como:

A
  • algoritmos apriori
  • algoritmos de amostragem
  • algoritmo de árvore de padrão frequente e crescimento
  • algoritmos de partição, etc
102
Q

Algoritmos de amostragem buscam selecionar uma _______ _______ e determinar os _________ __ ____ __________ com base nessa amostra.

A

Algoritmos de amostragem buscam selecionar uma amostra pequena e determinar os conjunto de itens frequentes com base nessa amostra.

103
Q

Algoritmos apriori buscam ____________ ______ dentro de um _____________ de itens.

A

Algoritmos apriori buscam subconjuntos comuns dentro de um superconjunto de itens.

104
Q

Análise de Agrupamentos é uma técnica que visa fazer agrupamentos de forma __________ de dados segundo o seu grau de ___________, permitindo a descoberta por _____ __ _______ e pelo exame de __________ das entidades envolvidas.

A

Análise de Agrupamentos é uma técnica que visa fazer agrupamentos de forma automática de dados segundo o seu grau de semelhança, permitindo a descoberta por faixa de valores e pelo exame de atributos das entidades envolvidas.

105
Q

O objetivo da Análise de Agrupamentos é descobrir __________ _______ em uma massa de dados e ______-___ de uma forma que ajude com sua _______.

A

O objetivo da Análise de Agrupamentos é descobrir diferente clusters em uma massa de dados e agrupá-los de uma forma que ajude com sua análise.

106
Q

A Análise de Agrupamentos também é chamado de:

A

clusters, grupos, aglomerados, segmentos, partições ou agregações.

107
Q

Um agrupamento é uma coleção de _________ _________ entre si, porém diferentes dos ______ _________ nos demais agrupamentos.

A

Um agrupamento é uma coleção de registros similares entre si, porém diferentes dos outros registros nos demais agrupamentos.

108
Q

O agrupamento difere da classificação uma vez não necessita que os registros sejam:

A

previamente categorizados – trata-se de um aprendizado não-supervisionado.

109
Q

A técnica de agrupamento não tem a pretensão de classificar, estimar ou predizer o valor de uma ________, ela apenas identifica os ______ __ _____ _________.

A

A técnica de agrupamento não tem a pretensão de classificar, estimar ou predizer o valor de uma variável, ela apenas identifica os grupo de dados similares.

110
Q

Na técnica de agrupamento, cada produto deve primeiro ser dividido em características:

A

numéricas.

111
Q

O método de cluster mais simples é adivinhar quantas _____________ __________ devem existir.

A

O método de cluster mais simples é adivinhar quantas subcategorias diferentes devem existir.

112
Q

Imagine dois anúncios de um mesmo modelo de câmera, mas com cores diferentes! Eles não precisam ficar em categorias separadas, porque são apenas variantes do mesmo produto.
Dessa forma, além das subcategorias, seria interessante mesclar alguns grupos. Sites como o Mercado Livre fazem isso por meio de uma técnica chamada:

A

clustering hierárquico.

113
Q

O agrupamento hierárquico produz uma espécie de árvore taxonômica, ____________ ou __________ _________.

A

O agrupamento hierárquico produz uma espécie de árvore taxonômica, aglomerando ou dividindo elementos.
e não formando um único conjunto de categorias

114
Q

Existem vários métodos de realizar a clusterização, tais como:

A
  • redes neurais
  • lógica difusa
  • métodos estatísticos (k-means, k-modes, k-medoids)
  • algoritmos genéticos
    alguns métodos podem ser utilizados em diversas técnicas de mineração de dados.
115
Q

Qual é a funcionalidade do Oracle Data Mining que encontra aglomerados de objetos de dados semelhantes em algum sentido entre si?

A

Clustering.

116
Q

O que é uma anomalia?

A

É um ponto fora da curva, conhecido também como outlier.

117
Q

E o que causa uma anomalia?

A

Pode ter origem natural ou artificial.

118
Q

Uma pessoa que há trinta anos declara ter crescimento de patrimônio anual de 1% e, de repente, declara ter tido um crescimento de 1000% pode ter ganhado na megasena.

Esse é um tipo de anomalia:

A

natural.

119
Q

Uma pessoa que há trinta anos declara ter crescimento de patrimônio anual de 1% e, de repente, declara ter tido um crescimento de 1000%. Essa pessoa pode simplesmente ter errado na hora de digitar e declarou patrimônio de R$10.000.000 em vez de R$100.000.

Esse é um tipo de anomalia:

A

artificial.

120
Q

Anomalias artificiais podem partir de:

A
  • erros de amostragem
  • erros de processamento de dados
  • erros na entrada de dados
  • erros de medida
  • erros intencionais.
121
Q

Uma forma de detectar anomalias é por meio de:

A

técnicas de Análise de Outlier, usando por exemplo gráficos como Box-plot ou Scatter-plot. Fora essas ferramentas gráficas, podemos utilizar cálculos que podem ser acrescentados às nossas rotinas, tornando o tratamento dos outliers mais eficiente.

122
Q

CERTO OU ERRADO:

Uma anomalia é necessariamente um erro ou um ruído.

A

ERRADO! Ela pode caracterizar um valor ou uma classe bem definida, porém de baixa ocorrência, às vezes indesejada, ou que reside fora de agrupamentos ou classes típicas.

123
Q

Quase todas as bases de dados reais apresentam algum tipo de anomalia, que pode ser causada por fatores como:

A
  • atividades maliciosas (furtos, fraudes, hacker…)
  • erros humanos (erro de digitação, leitura…)
  • mudanças ambientais (mudança no clima, no comportamento do usuário, nas regras e leis do sistema…)
  • falha em componentes (peças, motores, sensores, atuadores…)
124
Q

As principais aplicações de detecção de anomalias incluem:

A
  • detecção de fraudes
  • análise de crédito
  • detecção de intrusão
  • monitoramento de atividades
  • desempenho de rede
  • diagnóstico de faltas
  • análise de imagens e vídeos
  • monitoramento de séries temporais
  • análise de textos, etc.
125
Q

A detecção de anomalias em bases de dados é essencialmente um problema de classificação _______, no qual se deseja determinar se um ou mais objetos pertencem à ______ ______ ou à _______.

A

A detecção de anomalias em bases de dados é essencialmente um problema de classificação binária, no qual se deseja determinar se um ou mais objetos pertencem à classe normal ou à anômala.

126
Q

CERTO OU ERRADO:

Aprendizagem de máquina pode ajudar a clusterização na identificação de outliers, que são objetos completamente diferentes do padrão da amostra.

A

CERTO!

127
Q

Aprendizado de Máquina (ou _______ ________) é a área da ____________ __________ que busca desenvolver técnicas computacionais sobre ___________ assim como a construção de sistemas capazes de adquirir _____________ de forma ________ que tome decisões baseado em ____________ ___________ por meio da solução bem-sucedida de _________ __________.

A

Aprendizado de Máquina (ou Machine Learning) é a área da inteligência artificial que busca desenvolver técnicas computacionais sobre aprendizado assim como a construção de sistemas capazes de adquirir conhecimento de forma autônoma que tome decisões baseado em experiências acumuladas por meio da solução bem-sucedida de problemas anteriores.

128
Q

O Aprendizado de Máquina (ou _______ _________) é uma ferramenta poderosa para a aquisição de forma __________ de _____________ por meio da imitação do comportamento de _____________ ______ com foco em aprender a reconhecer ________ _________ e tomar ________.

A

O Aprendizado de Máquina (ou Machine Learning) é uma ferramenta poderosa para a aquisição de forma automática de conhecimento por meio da imitação do comportamento de aprendizagem humano com foco em aprender a reconhecer padrões complexos e tomar decisões.
Cada vez que o usuário confirma que o programa acertou ou errou, ele é capaz de aprender e melhorar!

129
Q

A Mineração de Texto é um meio para encontrar _______ _____ em um contexto de informações textuais ___ ____________, combinado com alguma tecnologia de ________ e de ____________ __ __________, processo de _________ _______ e de ___________ ou __________ de documentos.

A

A Mineração de Texto é um meio para encontrar padrões úteis em um contexto de informações textuais não estruturadas, combinado com alguma tecnologia de extração e de recuperação da informação, processo de linguagem natural e de sumarização ou indexação de documentos.

130
Q

As tecnologias de aprendizado de máquina são usadas para extrair informações _______ ou _________ de um pedaço de texto utilizando um __________.

A

As tecnologias de aprendizado de máquina são usadas para extrair informações ocultas ou abstratas de um pedaço de texto utilizando um computador.
O resultado é inovador porque descobrimos tendências e opiniões inexploradas que têm implicações inacreditáveis em diversos campos do conhecimento.

131
Q

EXEMPLO DE MINERAÇÃO DE TEXTO

A
132
Q

A mineração de texto tem como objetivo a busca de informações ___________ e a descoberta de _____________ ______________ a partir de documentos textuais ___ ____________ ou ________________.

A

A mineração de texto tem como objetivo a busca de informações relevantes e a descoberta de conhecimento significativo a partir de documentos textuais não estruturados ou semiestruturados.

133
Q

O processo de mineração de texto envolve um grau de dificuldade significativo considerando que as informações normalmente estão disponíveis em _________ _______, sem a preocupação com a ____________ ou com a ____________ dos dados, sua matéria-prima é a _______.

A

O processo de mineração de texto envolve um grau de dificuldade significativo considerando que as informações normalmente estão disponíveis em linguagem natural, sem a preocupação com a estruturação ou com a padronização dos dados, sua matéria-prima é a palavra.

134
Q

Um bom exemplo de Mineração de Texto é o:

A

Processamento de Linguagem Natural (PLN).

135
Q

O Processamento de Linguagem Natural (PLN) trata-se de uma área dentro da inteligência artificial que busca fazer com que os computadores entendam e simulem uma:

A

linguagem humana.

136
Q

Uma nuvem de palavras é um recurso _______ (usado principalmente na ________) para descrever os termos ____ __________ de um determinado texto.

A

Uma nuvem de palavras é um recurso gráfico (usado principalmente na internet) para descrever os termos mais frequentes de um determinado texto.

137
Q

EXEMPLO DE NUVEM DE PALAVRAS

Você pode inserir qualquer texto e ele devolverá uma nuvem de palavras com tamanho proporcional a frequência. Foi inserido, como exemplo da imagem, a letra de Faroeste Caboclo do Legião Urbana e abaixo está o resultado. A palavra que mais aparece é “Santo Cristo”, depois “Maria Lúcia”, e assim por diante. Claro que se trata de uma ferramenta de inteligência artificial capaz de eliminar alguns pronomes, artigos, entre outros para que seja mais útil ao usuário.

A
138
Q

CERTO OU ERRADO:

A mineração de textos utiliza técnicas diferentes da mineração de dados, tendo em vista que os textos representam um tipo específico de dado.

A

ERRADO! As técnicas utilizadas são as mesmas, muda apenas o tipo de dado.

139
Q

Qual o significado da sigla CRISP-DM?

A

Cross Industry Standard Process for Data Mining

140
Q

O CRISP-DM é um modelo de referência de mineração de dados que descreve um conjunto de _________ para realizar projetos de _________ __ _____ em uma ___________ baseado nas ________ ________ utilizadas por _____________ e __________ do ramo.

A

O CRISP-DM é um modelo de referência de mineração de dados que descreve um conjunto de processos para realizar projetos de mineração de dados em uma organização baseado nas melhores práticas utilizadas por profissionais e acadêmicos do ramo.

141
Q

Como nascem todos os modelos de referência?

A

Em geral, reúnem-se os maiores especialistas da área e eles exibem como fazem para resolver problemas recorrentes. As ideias são, então, organizadas em forma de processos e tarefas em um documento de modo que outras pessoas que desejem resolver problemas semelhantes (em nosso caso, projetos de mineração de dados) possam usá-lo como referência.

142
Q

Projeto CRISP-DM desenvolveu um modelo de processos de mineração de dados com foco __________ e independente de ___________. Partindo dos processos embrionários de descoberta de conhecimento usados atualmente na indústria e respondendo diretamente aos requisitos do usuário, este projeto definiu e validou um processo de _________ __ _____ aplicável em diversos setores da _________. Isso tornará grandes projetos de mineração de dados mais _______, mais _______, mais __________ e mais ____________. Até casos de mineração de dados em _______ ______ se beneficiarão do uso do CRISP-DM.

A

Projeto CRISP-DM desenvolveu um modelo de processos de mineração de dados com foco industrial e independente de ferramentas. Partindo dos processos embrionários de descoberta de conhecimento usados atualmente na indústria e respondendo diretamente aos requisitos do usuário, este projeto definiu e validou um processo de mineração de dados aplicável em diversos setores da indústria. Isso tornará grandes projetos de mineração de dados mais rápido, mais barato, mais confiável e mais gerenciável. Até casos de mineração de dados em pequena escala se beneficiarão do uso do CRISP-DM.

143
Q

A metodologia CRISP-DM possui um ciclo de vida ___-______ composto por ____ fases ou etapas.

A

A metodologia CRISP-DM possui um ciclo de vida não linear composto por seis fases ou etapas.

144
Q

CERTO OU ERRADO:

CRISP-DM é uma metodologia proprietária que identifica as fases Business Understanding e Data Understanding na implantação de um projeto de data mining.

A

ERRADO! Não é uma metodologia proprietária.

145
Q

CERTO OU ERRADO:

As fases do CRISP-DM devem ser executadas em uma sequência rigorosa.

A

ERRADO! É sempre necessário ir e voltar entre diferentes fases (depende do resultado de cada fase).

146
Q

PARA FIXAR

Conforme é possível ver na imagem a seguir, é sempre necessário ir e voltar entre diferentes fases – e isso depende do resultado de cada fase. Observem também na imagem que as setas indicam as dependências mais importantes e frequentes entre as fases. Além disso, o círculo externo simboliza a natureza cíclica da própria mineração de dados. Como assim?
Um processo de mineração de dados continua após a implantação de uma solução. As lições aprendidas durante o processo podem desencadear novas questões comerciais, geralmente mais focadas. Os processos subsequentes de mineração de dados se beneficiarão das experiências dos anteriores.

A
147
Q

As fases do CRISP-DM são:

A

(1) Entendimento do Negócio;
(2) Entendimento dos Dados;
(3) Preparação dos Dados;
(4) Modelagem;
(5) Avaliação; e
(6) Implantação.

148
Q

A fase de entendimento do negócio, que é a fase inicial do CRISP-DM, concentra-se no entendimento dos _________ e __________ do projeto de uma perspectiva de negócio e, em seguida, na conversão desse conhecimento em uma _________ __ _________ de mineração de dados e em um plano __________ desenvolvido para atingir os objetivos.

A

A fase de entendimento do negócio, que é a fase inicial do CRISP-DM, concentra-se no entendimento dos objetivos e requisitos do projeto de uma perspectiva de negócio e, em seguida, na conversão desse conhecimento em uma definição de problema de mineração de dados e em um plano preliminar desenvolvido para atingir os objetivos.
Em outras palavras, essa fase busca entender
qual problema o negócio quer resolver!

149
Q

PARA FIXAR: ENTENDIMENTO DO NEGÓCIO

É muito comum que uma área de tecnologia da informação faça um projeto de mineração de dados para uma área que ela não domina o assunto! Você pode aplicar a tecnologia de mineração à área de saúde, finanças, turismo, esportes, comércio, etc. A galera da área de tecnologia entende de tecnologia, não entende de finanças por exemplo. Logo, antes de começar o projeto, é importantíssimo que ela entenda do negócio.

A
150
Q

CERTO OU ERRADO:

Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a identificação dos dados e verificar se as variáveis relevantes para o projeto não são interdependentes.

A

ERRADO! Fazer a identificação dos dados e verificar se as variáveis relevantes para o projeto não são interdependentes são atividades da FASE DE ENTENDIMENTO DOS DADOS e não dos negócios.

151
Q

A segunda fase do CRISP-DM, que é a fase de _____________ ___ _____, começa com uma coleta inicial dos dados e prossegue com atividades para explorá-los com o intuito de obter um maior _____________ e ______________. Em seguida, busca-se avaliar a _________ dos dados, descobrir as primeiras ______ sobre os dados ou detectar _____________ interessantes para formar hipóteses de informação ________ e descobrir _________. Essa fase também é responsável por _________ os dados – por vezes, utilizando ____________.

A

A segunda fase do CRISP-DM, que é a fase de entendimento dos dados, começa com uma coleta inicial dos dados e prossegue com atividades para explorá-los com o intuito de obter um maior conhecimento e familiaridade. Em seguida, busca-se avaliar a qualidade dos dados, descobrir as primeiras ideias sobre os dados ou detectar subconjuntos interessantes para formar hipóteses de informação ocultas e descobrir insights. Essa fase também é responsável por descrever os dados – por vezes, utilizando estatística.

152
Q

Na segunda fase do CRISP-DM, dentro da fase de entendimento dos dados, na etapa de descrição dos dados, pode-se obter uma espécie de __________ dos dados contendo a ___________, o _______, a _____, o número de _________, o número de _________, como será a ________ dos dados, e outras características que interessem, assegurando que esses dados consigam representar o ________ em análise. Esta etapa também envolve o que geralmente é denominado _______ _____________ __ _____.

A

Na segunda fase do CRISP-DM, dentro da fase de entendimento dos dados, na etapa de descrição dos dados, pode-se obter uma espécie de fotografia dos dados contendo a localização, o formato, a fonte, o número de registro, o número de atributos, como será a extração dos dados, e outras características que interessem, assegurando que esses dados consigam representar o problema em análise. Esta etapa também envolve o que geralmente é denominado análise exploratória de dados.

153
Q

Na terceira fase do CRISP-DM, que é a fase de __________ ___ _____ (também chamada de ___-_____________), ocorre a preparação dos dados para a fase de __________. Essa etapa ocorre quando já entendemos o problema do negócio e já exploramos os dados disponíveis. Ela abrange todas as atividades para construir o conjunto de dados _____ a partir dos dados brutos _______, isto é, aqueles que serão ___________ na ferramenta de _________.

A

Na terceira fase do CRISP-DM, que é a fase de preparação dos dados (também chamada de pré-processamento), ocorre a preparação dos dados para a fase de modelagem. Essa etapa ocorre quando já entendemos o problema do negócio e já exploramos os dados disponíveis. Ela abrange todas as atividades para construir o conjunto de dados finais a partir dos dados brutos iniciais, isto é, aqueles que serão alimentados na ferramenta de modelagem.

154
Q

A etapa da preparação de dados do CRISP-DM, abrange todas as atividades para construir o conjunto de dados finais a partir dos dados brutos iniciais, isto é, aqueles que serão alimentados na ferramenta de modelagem.
Que atividades são essas?

A

Inclui tarefas como seleção de tabelas, integração, transformação, limpeza e organização de dados – além da seleção e engenharia de recursos.

155
Q

A etapa da preparação de dados do CRISP-DM, abrange todas as atividades para construir o conjunto de dados finais a partir dos dados brutos iniciais que incluem tarefas como seleção de tabelas, integração, transformação, limpeza e organização de dados – além da seleção e engenharia de recursos. Essas atividades visam a melhoria na _________ dos dados _________ e para realizá-las existem ferramentas de mineração de dados que dispõem de funcionalidades ___________ que garantem __________ nas operações.

A

A etapa da preparação de dados do CRISP-DM, abrange todas as atividades para construir o conjunto de dados finais a partir dos dados brutos iniciais que incluem tarefas como seleção de tabelas, integração, transformação, limpeza e organização de dados – além da seleção e engenharia de recursos. Essas atividades visam a melhoria na qualidade dos dados originais e para realizá-las existem ferramentas de mineração de dados que dispõem de funcionalidades específicas que garantem agilidade nas operações.
ou seja, você não precisa fazer isso “na mão”.

156
Q

Qual a fase mais demorada do CRISP-DM?

A

A de preparação de dados, ocupando mais de 70% do tempo/esforço total gasto em qualquer projeto de ciência.

157
Q

Na fase de preparação de dados, podem ser encontrados dados errados, discrepantes (outliers), inconsistentes, formatos errados.
O que se deve em relação a esses dados?

A

Devemos limpá-los! Datas em formatos incorretos e números inteiros sendo interpretados como textos são exemplos de “sujeira” que podem ser encontradas no seu dado – esse é o momento de tratá-las.

158
Q

A quarta fase do CRISP-DM, que é a fase de __________ __ ______, também chamada de __________, ocorre a seleção das ________, ___________ e __________ a serem utilizados, como também a elaboração e execução da __________ sobre o conjunto de dados preparado na ____ ________.

A

A quarta fase do CRISP-DM, que é a fase de -construção do modelo, também chamada de modelagem, ocorre a seleção das técnicas, ferramentas e algoritmos a serem utilizados, como também a elaboração e execução da modelagem sobre o conjunto de dados preparado na fase anterior.

159
Q

Na fase de construção do modelo do CRISP-DM, retornar à fase de ___________é bem frequente e necessário nessa etapa.

A

Na fase de construção do modelo do CRISP-DM, retornar à fase de preparação é bem frequente e necessário nessa etapa.

160
Q

A etapa de construção do modelo do CRISP-DM é processo _________ e cheio de “___ _ _____”.

A

A etapa de construção do modelo do CRISP-DM é processo iterativo e cheio de “vai e volta”.

161
Q

Na etapa de construção do modelo do CRISP-DM utiliza-se os dados que já estão ______ e ___________ preparados na etapa anterior para fins de _________. Ela inclui a criação, avaliação e ajuste fino de ________ e __________ para valores _______, com base nas expectativas e critérios estabelecidos durante a fase de _____________ ___ ________. Dependendo da necessidade do negócio, a tarefa de mineração de dados pode ser de uma _____________, uma _________, uma ___________, uma _____________, etc.

A

Na etapa de construção do modelo do CRISP-DM utiliza-se os dados que já estão limpos e formatados preparados na etapa anterior para fins de modelagem. Ela inclui a criação, avaliação e ajuste fino de modelos e parâmetros para valores ideais, com base nas expectativas e critérios estabelecidos durante a fase de entendimento do negócio. Dependendo da necessidade do negócio, a tarefa de mineração de dados pode ser de uma classificação, uma regressão, uma associação, uma clusterização, etc.

162
Q

A quinta fase do CRIPS-DM, que é a fase de ____________/_____________ (também chamada de _______________) busca colocar o ______ para _________.

A

A quinta fase do CRIPS-DM, que é a fase de implantação/implementação (também chamada de desenvolvimento) busca colocar o modelo para funcionar.

163
Q

A fase de implantação/implementação coloca ___ ao seu projeto, mas é necessário se lembrar de _________ os __________ e de _______ o ______ sempre que necessário. Os modelos que foram desenvolvidos, ajustados, validados e testados durante várias iterações são ______ e preparados para o ambiente de ________.

A

A fase de implantação/implementação coloca fim ao seu projeto, mas é necessário se lembrar de monitorar os resultados e de ajustar o modelo sempre que necessário. Os modelos que foram desenvolvidos, ajustados, validados e testados durante várias iterações são salvos e preparados para o ambiente de produção.
(o nome “ambiente de produção” é estranho, mas esse é o ambiente em que o software está de fato funcionando)

164
Q

O estágio de implantação no CRISP-DM também inclui a verificação e o monitoramento de aspectos para avaliar o modelo em produção quanto a __________, ___________ e outras ________.

A

O estágio de implantação no CRISP-DM também inclui a verificação e o monitoramento de aspectos para avaliar o modelo em produção quanto a resultado, desempenho e outras métricas.
Dependendo dos requisitos, a fase de implantação pode ser tão simples quanto gerar um relatório ou tão complexa quanto implementar um processo de mineração de dados repetível.

165
Q

CERTO OU ERRADO:

O analista de dados sempre executará as etapas de implantação do CRISP-DM.

A

ERRADO! Muitas vezes será o próprio cliente.
No entanto, mesmo que o analista não realize o esforço de implantação, é importante que o cliente entenda antecipadamente quais ações precisarão ser executadas para realmente fazer uso dos modelos criados

166
Q

PARA FIXAR

EXEMPLO DE IMPLEMENTAÇÃO DE CRISP-DM

Vamos supor que eu tenha sido chamado para fazer um projeto de mineração de dados da Bolsa de Valores! Não entendo nada do negócio! Então meu primeiro passo é entender o negócio. Eu vou lá na Bolsa de Valores, entrevisto algumas pessoas, converso com outras até entender qual é o problema que se quer resolver, quais são os objetivos, os requisitos, entre outros.
Em seguida, eu vou lá ver como estão os dados que serão utilizados. Eu vejo que os dados vêm de dez sistemas diferentes, analiso como está a qualidade desses dados, qual é a quantidade, entre outras coisas. Para quê? Para que eu me familiarize com os dados! Em seguida, eu vou pré-processar os dados. Ora, tem dado corrompido, inconsistente, incompleto, faltante, etc – eu preciso fazer aquela limpeza básica para começar a trabalhar e então, vamos para a modelagem…
Agora vou escolher ferramentas, técnicas e algoritmos que serão utilizados para modelar os meus dados. Que técnicas eu posso utilizar? Eu posso utilizar a classificação, a estimativa, a previsão, a análise de afinidades, a análise de agrupamentos, entre outras. E que algoritmos? Eu posso utilizar, por exemplo, árvores de decisão ou redes neurais. E que ferramentas? Eu posso utilizar SAS Enterprise Miner ou IBM Intelligent Miner ou Oracle Darwin Data Mining Software.
Em seguida, eu vou testar e avaliar os modelos desenvolvidos quanto à precisão e generalidade. Foram atendidos os objetivos de negócio? Se sim, partimos para a fase de implantação, que é colocar o modelo para funcionar! Segue a imagem na resposta com as principais atividades de cada fase. Esse não é um tema que cai muito em prova – na verdade, eu só encontrei cinco questões. Saibam disso para dosar bem os estudos de vocês.

A
167
Q

CERTO OU ERRADO:

A etapa de modelagem do modelo CRISP-DM permite a aplicação de diversas técnicas de mineração sobre os dados selecionados, conforme os formatos dos próprios dados.

A
168
Q

QUESTÃO DE PROVA

Conforme o modelo CRISP-DM o ciclo de vida de um projeto de mineração de dados consiste de 6 (seis) fases que são:

a) Compreensão do Negócio, Compreensão dos Dados, Preparação dos Dados, Modelagem, Avaliação, e Desenvolvimento.
b) Preparação dos Dados, Modelagem, Avaliação, Requisitos, Escopo, Ambiente.
c) Requisitos, Escopo, Ambiente, Modelagem, Avaliação, e Desenvolvimento.
d) Compreensão do Negócio, Compreensão dos Dados, Preparação dos Dados, Requisitos, Escopo e Ambiente.
e) Requisitos, Escopo, Ambiente, Compreensão dos Dados, Preparação dos Dados e Modelagem.

A

a) Compreensão do Negócio, Compreensão dos Dados, Preparação dos Dados, Modelagem, Avaliação, e Desenvolvimento.

169
Q
A