Big Data - BI Flashcards

1
Q

Acerca de datawarehouse e datamining: o datawarehouse possibilita a análise de grandes volumes de dados, que, por sua vez, permitem a realização de uma melhor análise de eventos futuros.

A

Errado.
O Data Warehouse possibilita a análise de grandes volumes de dados, coletados dos sistemas
transacionais (OLTP - On-line Transaction Processing). São as chamadas séries históricas
que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas
de decisões presentes e a previsão de eventos futuros.

Um Data Warehouse, também chamado de armazém de dados, é um repositório de informações
colhidas de várias origens, armazenadas sob um esquema unificado, em um único local.
Quando reunidos, os dados são armazenados por muito tempo, permitindo o acesso a dados
históricos. Ainda, o desenho da base de dados favorece os relatórios, a análise de grandes
volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada
de decisão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Algumas pessoas têm considerado que os Data Warehouses são uma extensão de visões de banco de dados. Porém, as visões fornecem apenas um subconjunto das funções e das capacidades dos Data Warehouses. Com relação às diferenças e similaridades entre as visões e os Data Warehouses, é correto afirmar que tanto os Data Warehouses quanto as visões fornecem, frequentemente, grandes quantidades de dados integrados e temporais, geralmente mais do que é contido em um banco de dados

A

Errado. Uma View não possui quantidade de dados maior do que o
próprio banco de dados em que ela está inserida.

Uma View (Visão) é uma tabela lógica, baseada em uma tabela ou em outra visão. Ela não
possui dados próprios, é somente uma interface para a manipulação de um conjunto de dados.
Ela pode ser utilizada para restringir o acesso a dados em uma tabela, facilitar consultas complexas
e também otimizar o tempo dos desenvolvedores.
A View é uma maneira alternativa de observação de dados de uma ou mais tabelas, que compõem
uma base de dados. Pode ser considerada como uma tabela virtual ou uma consulta armazenada. Como exemplo de utilização de view, cita-se a restrição usuário x domínio controlando
o acesso de um usuário específico a colunas de uma tabela.
Alguns benefícios da utilização das Views: economia de tempo com retrabalho; velocidade de
acesso às informações; mascara a complexidade do banco de dados; organiza dados a serem
exportados para outros aplicativos.
Um Data warehouse (ou armazém de dados) é um sistema de computação utilizado para armazenar
informação relativa às atividades de uma organização em banco de dados, de forma
consolidada. Ele possibilita a análise de grandes volumes de dados, coletados dos sistemas
transacionais. Por definição, os dados em um Data Warehouse não são voláteis, ou seja, eles
não mudam, são somente para leitura e não podem ser alterados.
Os Data Warehouses surgiram como conceito acadêmico na década de 80. Com o amadurecimento
dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram
paralelamente. Como os sistemas transacionais não conseguiam cumprir a tarefa de
análise com a simples geração de relatórios, os Data Warehouses são atualmente o núcleo dos
sistemas de informações gerenciais e apoio a decisão das principais soluções de Business
intelligence do mercado, devido a sua capacidade de sumarizar grandes volumes de dados e
de possibilitar análises.
As ferramentas OLAP (Online Analytical Processing) têm como função a navegação nos dados
de um Data Warehouse, possuindo uma estrutura adequada tanto para as pesquisas como
para a apresentação das informações.
A assertiva, portanto, é falsa, tendo-se em vista que a View não tem como objetivo fornecer
frequentemente grandes quantidades de dados integrados, e sim fornecer um subconjunto
dinâmico de dados (tabela virtual) a partir de uma ou mais tabelas.
Observem ainda que o item afirma indevidamente que a quantidade de dados ofertada é maior
do que em todo o banco de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Um Data Warehouse é recomendado para armazenar dados
a) sumarizados de um departamento.
b) sumarizados de toda a empresa para apoio à decisão e utilização de ferramentas OLAP.
c) detalhados de toda a empresa para apoio à decisão e utilização de ferramentas OLAP.
d) detalhados gerados por sistemas de informação transacionais.
e) históricos detalhados de todas as transações realizadas em um determinado período
de tempo.

A

Letra b.
O DW, na definição de Barbieri (2001, p.49), é “um banco de dados, destinado a sistemas de
apoio à tomada de decisão e cujos dados foram armazenados em estruturas lógicas dimensionais,
possibilitando o seu processamento analítico por ferramentas especiais (OLAP e Mining)”. Características: Data Warehouse pode ser considerado como uma coleção de dados
orientada por assunto, integrada, não volátil, variante no tempo, que dá apoio às decisões da
administração.
A partir desta interpretação, pode-se afirmar que o DW é a fonte para a exploração dos dados,
enquanto o OLAP (On-line Transaction Processing) e o data mining são as técnicas utilizadas
para explorar e investigar os dados. Um Data Warehouse é recomendado para armazenar dados
sumarizados de toda a empresa para apoio à decisão e utilização de ferramentas OLAP.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Uma das técnicas utilizadas no projeto de um data warehouse
corporativo consiste no uso da chamada matriz de barramento, na qual as linhas e colunas
representam, respectivamente,
a) cubos e medições.
b) data staging e cubos.
c) cardinalidades e hierarquias.
d) dimensões e cardinalidades.
e) processos de negócio e dimensões.

A

Letra e.
A matriz de barramento, proposta por Kimball, é uma matriz de relação cruzada entre os processos
de negócio e suas dimensões, possibilitando visualizar aquelas dimensões que são
compartilhadas entre os vários processos de negócio.
Essa matriz de barramento dispõe, nas suas linhas, os processos de negócio da organização
e em suas colunas as dimensões comuns.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

A principal atividade de EXTRAÇÃO é:
a) considerar logs de eventos e arquivos de controle.
b) coletar dados das fontes externas transferindo-os para o ambiente de DW.
c) carregar as dimensões considerando os tipos de hierarquias estáticas.
d) tratar as inconsistências de dados resultantes da transcrição de dados.
e) executar conversões de formatos para códigos geográficos dos países.

A

Letra b.

a) Errada. Considerar logs de eventos e arquivos de controle faz parte da etapa de Extração,
mas não podemos considerá-lo como a principal atividade desta etapa.
b) Certa. A figura apresentada na questão destaca um modelo geral de como os dados são
processados e armazenados em um Data Warehouse e em um Data Mart. Lembre-se de que
este processo é conhecido como ETL (do inglês Extract Transform and Load), cujas etapas
são as seguintes:
* O processo inicial é a extração de dados das bases de dados transacionais, dados de
sistemas ERP, dados locais, de fontes externas ou web;
* Após a extração, os dados devem ser transformados para que seja possível a carga dos dados
em um Data Warehouse ou Data Mart, dependendo do método de construção adotado.
Baseado nas etapas de Extração, Transformação e Carga, aqui apresentadas, tem-se que a
alternativa B é a resposta, pois é a que melhor descreve a principal atividade realizada durante
a etapa da Extração.
c) Errada. Retrata uma atividade realizada na etapa de Carga.
d/e) Erradas. Estão relacionados a atividades da etapa de Transformação.
Letra b.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

A principal atividade de TRANSFORMAÇÃO é:
a) aplicar regras aos dados extraídos para ajustá-los antes de serem carregados.
b) analisar impactos das alternativas do código de aplicação no sistema fonte.
c) avaliar aspectos de performance por meio do uso de paralelismo.
d) obter dados de natureza estruturada e não estruturada.
e) carregar tabelas Fato e fazer mapeamento das chaves.

A

Letra a.
O processo ETL (do inglês Extract Transform and Load) consiste na extração (leitura de dados
de uma ou mais bases de dados), transformação (conversão dos dados extraídos de sua
forma anterior para a forma em que precisa estar para que possa ser colocado em um Data
Warehouse ou simplesmente em outro banco de dados), e carga (colocar os dados no Data
Warehouse).
Vamos aos comentários das assertivas:
a) Certa. No processo ETL, a etapa de Transformação vai manipular os dados para que eles
fiquem prontos para serem carregados na fonte de dados de destino. Para isso, faz uso de regras
predefinidas de formatação, validação ou alteração de dados para ajustar os dados antes de
serem carregados.
b) Errada. A análise de impacto e alternativas de código de aplicação, como apresentado nessa
assertiva, não está definida em nenhuma das etapas do processo ETL.
c) Errada. Também, a avaliação de aspectos de performance com paralelismo, indicada nessa
assertiva, não faz parte das etapas do ETL.
d) Errada. A obtenção de dados de natureza estruturada e não estruturada é realizada na etapa
de Extração.
e) Errada. A atividade de carregar tabelas Fato e fazer mapeamento das chaves é conduzida
durante a etapa de Carga.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

A principal atividade de CARGA é:
a) realizar a limpeza dos dados extraídos para melhorar a qualidade dos dados.
b) definir a periodicidade da transcrição dos dados a serem coletados.
c) otimizar a qualidade dos dados por meio da conversão de formatos.
d) separar e concatenar dados visando eliminar inconsistências nos dados.
e) estruturar e carregar os dados para o DW seguindo o modelo dimensional.

A

Letra e.
a/c/d) Erradas. As atividades aqui elencadas são realizadas na etapa de Transformação.
b) Errada. A definição da periocidade de dados geralmente é associada com a etapa de Extração.
e) Certa. A etapa de Carga é a última do processo e sua responsabilidade é garantir que os
dados já transformados serão armazenados corretamente no modelo indicado na fonte de
dados de destino. Diferentes tipos de modelos podem ser utilizados para armazenar os dados durante a etapa de Carga, porém o modelo multidimensional é o mais comum em sistemas de
(Business intelligence).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

É o conjunto de técnicas e procedimentos
para a extração de informações em dispositivos de armazenamento digital, que
não podem ser acessados de modo convencional pelo usuário ou pelo sistema. Com base no
exposto, é correto afirmar que essas informações apresentam o conceito de
a) recuperação de dados.
b) backup corrompido.
c) mineração de dados.
d) backup interrompido.
e) recuperação de dispositivos.

A

Letra a.
A mineração de dados (Data Mining) corresponde a processos usados para explorar e analisar
grandes volumes de dados, visando identificar padrões, previsões, erros e associações
etc. Esse conceito, geralmente, está associado ao aprendizado de máquina, que é uma área
da inteligência artificial que desenvolve algoritmos capazes de fazer com que o computador
aprenda a partir do passado, usando dados de eventos que já aconteceram. Este aprendizado
é capaz de identificar padrões que dificilmente seriam identificados por meio de técnicas triviais
de análise de dados, como filtros, junções, pivôs ou agrupamentos.
O conceito de recuperação de dados (Ou Data Recovery, em inglês) envolve o uso de um conjunto
de técnicas e procedimentos para a extração de informações em dispositivos de armazenamento
digital (HD, Storages, dentre outros), que não podem ser acessados de modo
convencional pelo usuário ou pelo sistema (Por exemplo, quando um dispositivo de armazenamento
apresenta falhas. Diante desse fato, para recuperar os arquivos do dispositivo é preciso
utilizar métodos não convencionais. Esses métodos não convencionais são conhecidos pelo
termo recuperação de dados).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Modelo de
banco de dados multidimensional está mais fortemente relacionado com:
a) data warehouse.
b) modelo relacional.
c) bancos hierárquicos.
d) modelo em 3 camadas.
e) banco de dados distribuídos.

A

Letra a.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O modelo de dados
denominado “multidimensional” se aplica para banco de dados com a tecnologia:
a) relacional.
b) hierárquica.
c) datamining.
d) distribuída
e) data warehouse.

A

Letra e.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Com relação aos conceitos de modelagem multidimensional de dados para inteligência
computacional, julgue o seguinte item. [Diferentemente da estrutura relacional, a
estrutura multidimensional oferece baixa redundância de dados e suporte a normalização até
a segunda forma normal].

A

Errado.
A estrutura multidimensional oferece alta redundância.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Em um modelo dimensional,
a tabela fatos armazena:
a) estatísticas sobre os metadados.
b) as restrições de domínio do negócio.
c) descrições textuais das dimensões.
d) medições numéricas do negócio.
e) o tempo de processamento das transações.

A

Letra d.
Em um modelo dimensional, a tabela fatos armazena medições numéricas de negócio.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Sobre modelagem multidimensional, o cubo:
I – é uma representação intuitiva, pois todas as dimensões coexistem para todo ponto no cubo
e são independentes umas das outras;
II – é, de fato, apenas uma metáfora visual;
III – serve para descrever requisitos funcionais.
Acerca dos itens acima mencionados, apenas;
a) I e III estão corretos;
b) Somente I está correto;
c) I e II estão corretos;
d) II e III estão corretos;
e) III está correto.

A

Letra c.
I - Certo. Os cubos são massas de dados que retornam das consultas feitas ao banco de
dados e podem ser manipulados e visualizados por inúmeros ângulos e diferentes níveis de agregação. É uma representação intuitiva do fato porque todas as dimensões coexistem para
todo ponto no cubo e são independentes uma das outras.

II - Certo. O cubo é, de fato, apenas uma representação conceitual ou uma metáfora visual.

III – Errado. A análise multidimensional é uma das grandes utilidades da tecnologia OLAP
(Online Analytical Processing), consistindo em ver determinados cubos de informações de
diferentes ângulos (perspectivas) para análise e de vários níveis de agregação.
Portanto, I e II estão corretos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Em um banco de dados
multidimensional, os dados estão conceitualmente armazenados e organizados em:
a) classes e objetos.
b) cubos e hipercubos.
c) partições e índices.
d) consultas materializadas e sumários.
e) estrelas e constelações.

A

Letra b.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Um cubo de dados é a representação
multidimensional dos dados não agregados na qual é necessário que as dimensões tenham o
mesmo tamanho.

A

Errado.
Um cubo de dados é a representação multidimensional de dados agregados, mas não é necessário
que as dimensões tenham o mesmo tamanho!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

A modelagem
multidimensional é uma técnica de concepção e visualização de um modelo de dados de
um conjunto de medidas que descrevem aspectos comuns de negócios. Um modelo multidimensional
é formado por três elementos básicos. Assinale-os:
a) Esquema, fatos e itens.
b) Fatos, dimensões e itens.
c) Medidas, esquema e fatos.
d) Fatos, dimensões e medidas
e) Dimensões, medidas e esquema.

A

Letra d.
Fatos = São os dados a serem agrupados, contendo os valores de cada
medida para cada combinação das dimensões existentes.
O tamanho da tabela que contém os fatos merece atenção especial do
analista.

Dimensões = Estabelecem a organização dos dados, determinando possíveis
consultas/cruzamentos.
Por exemplo: região, tempo, canal de venda,… Cada dimensão pode
ainda ter seus elementos, chamados membros, organizados em
diferentes níveis hierárquicos.
A dimensão tempo, por exemplo, pode possuir duas hierarquias:
calendário gregoriano (com os níveis ano, mês e dia) e calendário fiscal
(com os níveis ano, semana e dia).

Medidas = São os valores a serem analisados, como médias, totais e
quantidades.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Nesta arquitetura
a) Data Marts representam áreas de armazenamento intermediário criadas a partir do processo
de ETL. Auxiliam na transição dos dados das fontes OLTP para o destino final no Data
Warehouse.
b) OLAP é um subconjunto de informações extraído do Data Warehouse que pode ser identificado
por assuntos ou departamentos específicos. Utiliza uma modelagem multidimensional
conhecida como modelo estrela.
c) os dados armazenados no Data Warehouse são integrados na base única mantendo as
convenções de nomes, valores de variáveis e outros atributos físicos de dados como foram
obtidos das bases de dados originais.
d) o Data Warehouse não é volátil, permite apenas a carga inicial dos dados e consultas a estes
dados. Além disso, os dados nele armazenados são precisos em relação ao tempo, não
podendo ser atualizados.
e) Data Mining se refere ao processo que, na construção do Data Warehouse, é utilizado para
composição de análises e relatórios, armazenando dados descritivos e qualificando a respectiva
métrica associada.

A

Letra d.

a) Errada. Staging Area representa a área de armazenamento intermediário criada a partir do processo de ETL. Auxilia na transição dos dados das fontes OLTP para o destino final no Data Warehouse. Data Mart é um subconjunto de informações do DW que podem ser identificados
por assuntos ou departamentos específicos.
b) Errada. Data Mart é um subconjunto de informações extraído do Data Warehouse que pode
ser identificado por assuntos ou departamentos específicos. Utiliza uma modelagem multidimensional
conhecida como modelo estrela. OLAP (Online Analytical Processing) são ferramentas com capacidade de análise em múltiplas perspectivas das informações armazenadas.
c) Errada. Os dados armazenados no Data Warehouse são integrados na base única mantendo
as convenções de nomes, valores de variáveis e outros atributos físicos de dados. O processo
ETL (do inglês Extract Transform and Load) faz a extração, tratamento e limpeza dos dados
para inserção no DW.
d) Certa. O Data Warehouse não é volátil, permite apenas a carga inicial dos dados e consultas a estes dados. Além disso, os dados nele armazenados são precisos em relação ao tempo, não
podendo ser atualizados.
e) Errada. Dimensão se refere à tabela que, na construção do Data Warehouse, é utilizada para composição de análises e relatórios, armazenando dados descritivos e qualificando a respectiva métrica associada.

18
Q

Uma das formas de apresentação de
um banco de dados multidimensional é através do modelo estrela. No centro de um modelo
estrela encontra‑se a tabela de:
a) dimensão e, ao seu redor, as tabelas de fatos.
b) dimensão, cuja chave primária deve ser composta.
c) núcleo e, ao seu redor, as tabelas de nível.
d) fatos, cuja chave primária deve ser simples.
e) fatos e, ao seu redor, as tabelas de dimensões.

A

Letra e.
O modelo Estrela (Star Schema) é formado por uma tabela central - tabela de fatos - e um conjunto
de tabelas organizadas ao redor dela, as tabelas de dimensões.

19
Q

Um Analista está trabalhando
em um Data Warehouse − DW que utiliza no centro do modelo uma única tabela que armazena
as métricas e as chaves para as tabelas ao seu redor (que descrevem os dados que estão na
tabela central) às quais está ligada. O esquema de modelagem utilizado pelo DW, a denominação
da tabela central e a denominação das tabelas periféricas são, respectivamente,
a) floco de neve, base, granulares.
b) estrela, fato, dimensões.
c) constelação, fato, granulares.
d) atomic, base, branches.
e) anel, base, dimensões.

A

Letra b.

20
Q

O modelo estrela, como estrutura básica
de um modelo de dados multidimensional, possui uma configuração típica composta de
uma entidade central:
a) mining e um conjunto de entidades fatos.
b) mining e um conjunto de entidades dimensões.
c) mining e um conjunto de entidades roll-up.
d) dimensão e um conjunto de entidades fatos.
e) fato e um conjunto de entidades dimensões.

A

Letra e.

21
Q

O modelo
dimensional de um data warehouse, no qual todas as tabelas relacionam-se diretamente
com a tabela de fatos, de forma que as tabelas dimensionais devem conter todas as descrições
que são necessárias para se definir uma classe, é denominado de:
a) Floco de neve.
b) Estrela.
c) Barramento.
d) Árvore.
e) Anel.

A

Letra b.
No modelo Estrela (Star Schema) todas as tabelas relacionam-se diretamente com a tabela de fatos. Sendo assim, as tabelas dimensionais devem conter todas as descrições que são
necessárias para definir uma classe.

No modelo Floco de Neve (Snow Flake), as tabelas dimensionais relacionam‑se com a tabela de fatos, mas algumas dimensões relacionam-se apenas entre elas.

22
Q

Com relação à modelagem dimensional e à otimização de bases de dados para business intelligence, julgue o item subsequente.
Na modelagem multidimensional utilizada em Data Warehouses para se prover melhor desempenho,
a tabela fato central deve relacionar-se às suas dimensões por meio da chave primária
oriunda da fonte de dados original. O valor dessa chave deve ser idêntico ao da fonte, para que tenha valor semântico e garanta que o histórico das transações seja mantido.

A

Errado.
Na modelagem multidimensional utilizada em Data Warehouses para se prover melhor desempenho,
a tabela fato central deve relacionar-se às suas dimensões por meio da chave substituta (ou surrogate key). O valor dessa chave
deve ser numérico e auto incremental,
não havendo valor semântico e garanta que o histórico das transações seja mantido.

23
Q

Julgue o item
que se segue, a respeito de arquitetura e tecnologias de sistemas de informação.
A descoberta de novas regras e padrões em conjuntos de dados fornecidos, ou aquisição de conhecimento indutivo, é um dos objetivos de data mining.

A

Certa.
O conhecimento é classificado em indutivo e dedutivo. O conhecimento dedutivo deduz novas
informações baseadas na aplicação de regras lógicas predefinidas de dedução sobre dados existentes. O Data Mining apoia o conhecimento indutivo, que descobre novas regras e padrões nos dados fornecidos. (ELMASRI, NAVATHE, 2005).

24
Q

Julgue o item a seguir, em relação a data warehouse e data mining.
No contexto de data mining, o processo de descoberta de conhecimento em base de dados consiste
na extração não trivial de conhecimento previamente desconhecido e potencialmente útil.

A

O Data Mining é considerado uma parte de um processo maior conhecido como KDD (Knowledge
Discovery in Databases) – em português, Descoberta de Conhecimento em Bases de
Dados –, que, segundo Eduardo Gimenes, busca extrair informação válida, previamente desconhecida
e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar de decisões cruciais.
Addrians & Zantinge (1996) cita que o Data Mining, ou Mineração de Dados, permite a extração
não trivial de conhecimento previamente desconhecido e potencialmente útil de um banco de dados.

25
Q

Data warehouse é um repositório de dados dinâmico, que sofre alterações frequentes, de modo a permitir que sejam feitas consultas em base de dados constantemente atualizada

A

Errado.
Os dados em um Data Warehouse não são voláteis, ou seja, eles não mudam, salvo quando
é necessário fazer correções de dados previamente carregados. No ambiente operacional, ao contrário, os dados sofrem alterações frequentes, pois são, em geral, atualizados registro a registro, em múltiplas transações.

26
Q

O uso prático de
data mining envolve o emprego de processos, ferramentas, técnicas e métodos oriundos da
matemática, da estatística e da computação, inclusive de inteligência artificial.

A

Certo.
Data Mining é a etapa do KDD (Knowledge Discovery in Databases - Descoberta de Conhecimento
em Bases de Dados) em que os dados preparados são processados, ou seja, é onde se
faz a mineração dos dados propriamente dita.
Nesse contexto, são aplicadas técnicas para identificação de padrões sobre os dados disponíveis.
Esse processo tem o intuito de trabalhar os dados registrados ao longo do tempo de vida
de um negócio a fim de se identificar padrões que representam alguma informação sobre o
comportamento do negócio.

KDD
1. Seleção dos dados
2. Pré-processamento e limpeza dos dados alvo
3. Transformação dos dados pré-processados
4. Mineração dos dados transformados
5. Interpretação e avaliação dos padrões
6. Conhecimento (relatórios, etc)

27
Q

A finalidade do uso
do data mining em uma organização é subsidiar a produção de afirmações conclusivas acerca
do padrão de comportamento exibido por agentes de interesse dessa organização

A

Errado.
A mineração de dados (Data Mining) pode ser utilizada para encontrar novos padrões, visando:
* Predição: o sistema encontra padrões para predizer (prever) o comportamento futuro de
algumas entidades;
* Descrição: o sistema encontra padrões relevantes sobre os dados, em uma forma compreensível
para o usuário.

A mineração de dados envolve o ajuste de modelos aos dados observados ou a determinação
de padrões a partir destes dados. Os modelos ajustados fazem o papel do conhecimento
inferido, sobre o qual o julgamento humano subjetivo é exigido na verificação se os modelos
refletem conhecimento útil ou interessante.

28
Q

Com relação a
sistemas de suporte à decisão, julgue os seguintes itens.
Assim como o Data Mining, os Data Marts são voltados para a obtenção de informações estratégicas de maneira automática, ou seja, com o mínimo de intervenção humana a partir da
análise de dados oriundos de Data Warehouses.

A

Errado.
O Data Warehouse é um conjunto de dados orientado por assuntos, não volátil, variável com o
tempo e integrado, criado para dar suporte à decisão.
Data Marts são subconjuntos de dados de um Data Warehouse.
E, por fim, é o Data Mining (Mineração de Dados) o processo de identificar informações relevantes,
tais como padrões, associações, mudanças, anomalias e estruturas, em grandes conglomerados
de dados que estejam em banco de dados ou outros repositórios de informações.

29
Q

Os dados armazenados em um DataWarehouse devem estar integrados, temporalmente identificados, orientados ao assunto e devem ser protegidos, de modo a se evitar o acesso do usuário.

A

Errado.
Segundo Bill Inmon (1997), um data warehouse é uma coleção de dados orientada a assuntos,
integrada, não volátil e variante ao longo do tempo, para suporte à tomada de decisão. Deve-se definir o nível de segurança a ser implementado no DW, de modo a que se
permita o acesso devido aos usuários autorizados

30
Q

As ferramentas de software ETL (extract transform load) têm como função a extração de dados
de diversos sistemas, a transformação desses dados de acordo com as regras de negócio
e a carga dos dados em um data mart ou um DW.

A

Certo.

31
Q

Em um ambiente data warehouse (DW), é possível a análise
de grandes volumes de dados, os quais ficam disponíveis para serem alterados e manipulados
pelo usuário.

A

Errado.

32
Q

Uma das características fundamentais de um ambiente de data
warehouse está em
a) servir como substituto aos bancos de dados operacionais de uma empresa, na eventualidade
da ocorrência de problemas com tais bancos de dados.
b) ser de utilização exclusiva da área de aplicações financeiras das empresas.
c) proporcionar um ambiente que permita realizar análise dos negócios de uma empresa com
base nos dados por ela armazenados.
d) ser de uso prioritário de funcionários responsáveis pela área de telemarketing das empresas.
e) armazenar apenas os dados mais atuais (máximo de 3 meses de criação), independentemente
da área de atuação de cada empresa.

A

Letra C

33
Q

No processo
ETL de um data warehouse:
(I) a tradução de valores codificados conhecida como limpeza de dados (por exemplo, supondo
que o sistema de origem armazena 1 para sexo masculino e 2 para feminino, mas o data
warehouse armazena M para masculino e F para feminino) e
(II) a geração de valores de chaves substitutas (surrogate keys) são
a) integrantes da etapa de transformação
b) integrantes das etapas de transformação e carga, respectivamente
c) manipulações de dados, aplicáveis no processo pivoting
d) elementos que possibilitam a conversão de drill-down para roll up
e) integrantes da etapa de carga

A

Letra A.

ETL, vem do inglês Extract Transform Load, ou seja, Extração Transformação Carga. O ETL visa
trabalhar com toda a parte de extração de dados de fontes externas, transformação para atender às necessidades de negócios e carga dos dados dentro do Data Warehouse. Os projetos
de Data Warehouse consolidam dados de diferentes fontes. A maioria dessas fontes tendem a ser bancos de dados relacionais ou flat files, mas podem existir outros tipos de fontes também.
Um sistema ETL precisa ser capaz de se comunicar com bases de dados e ler diversos formatos de arquivos utilizados por toda a organização. E para que seja possível entender as etapas do processo de ETL faz-se necessário a compressão de seus componentes:

  • Extração: é a coleta de dados dos sistemas de origem (também chamados Data Sources
    ou sistemas operacionais), extraindo-os e transferindo-os para o ambiente de DW,
    onde o sistema de ETL pode operar independente dos sistemas operacionais;
  • Limpeza, Ajustes e Consolidação (ou também chamada transformação): é nesta etapa
    que realizamos os devidos ajustes, podendo assim melhorar a qualidade dos dados e consolidar dados de duas ou mais fontes. O estágio de transformação aplica uma série
    de regras ou funções aos dados extraídos para ajustar os dados a serem carregados.
    Algumas fontes de dados necessitarão de muito pouca manipulação de dados. Em outros
    casos, pode ser necessário trabalhar algumas transformações, como por exemplo,
    junção de dados provenientes de diversas fontes, seleção de apenas determinadas colunas
    e tradução de valores codificados (se o sistema de origem armazena 1 para sexo masculino e 2 para feminino, mas o Data Warehouse armazena M para masculino e F
    para feminino, por exemplo);
  • Entrega ou Carga dos dados: consiste em fisicamente estruturar e carregar os dados
    para dentro da camada de apresentação seguindo o modelo dimensional. Dependendo das necessidades da organização, este processo varia amplamente. Alguns Data Warehouses
    podem substituir as informações existentes semanalmente, com dados cumulativos e atualizados, ao passo que outro DW (ou até mesmo outras partes do mesmo DW) podem adicionar dados a cada hora. A latência e o alcance de reposição ou acréscimo
    constituem opções de projeto estratégicas que dependem do tempo disponível e
    das necessidades de negócios;
  • A parte de Gerenciamento é composta por serviços para auxiliar no gerenciamento do
    DataWarehouse. Aqui nós temos tasks específicas para gerenciamento de jobs, planos
    de backup, verificação de itens de segurança e compliance.
34
Q

Uma das técnicas bastante utilizadas
em sistemas de apoio à decisão é o Data Mining, que se constitui em uma técnica
a) para a exploração e análise de dados, visando descobrir padrões e regras, a princípio ocultos,
importantes à aplicação.
b) para se realizar a criptografia inteligente de dados, objetivando a proteção da informação.
c) que visa sua distribuição e replicação em um cluster de servidores, visando aprimorar a disponibilidade
de dados.
d) de compactação de dados, normalmente bastante eficiente, permitindo grande desempenho
no armazenamento de dados.
e) de transmissão e recepção de dados que permite a comunicação entre servidores, em
tempo real.

A

Letra A.

35
Q

Com o advento da
tecnologia de Data Warehousing, os ambientes de apoio à decisão passaram a ser denominados
ambientes de Data Warehouse (DW).
Em relação à tecnologia DW, é correto afirmar:

a) Um DW tem duas operações básicas: a carga dos dados (inicial e incremental) e o acesso
a estes dados em modo leitura. Depois de carregado, um DW não necessita de operações de bloqueio por concorrência de usuários no acesso aos seus dados.
b) Em um DW as convenções de nomes, valores de variáveis e outros atributos físicos de dados como data types são bastante flexíveis. Para facilitar a tomada de decisões, as informações
são apresentadas de diferentes formas, da mesma maneira que foram carregadas dos
sistemas legados.
c) Um projetista de DW deve ter seu foco na modelagem dos dados e no projeto de banco de
dados. Um sistema transacional armazena as informações agrupadas por assuntos de interesse
da empresa que são mais importantes, enquanto um DW é orientado a processos e deve ser
desenvolvido para manter disponíveis as transações realizadas diariamente.
d) Os dados de um DW são um conjunto dinâmico de registros de uma ou mais tabelas, capturados em um momento de tempo predeterminado, por isso têm que ser sempre atualizados.
e) Um sistema multidimensional, como o DW, deve atualizar o valor corrente das informações
e sua exatidão é válida por um tempo curto, por exemplo, o valor total das notas fiscais processadas
pela Receita às 12:00 de um dia pode ser diferente às 18:00 do mesmo dia.

A

Letra A.

36
Q

Um depósito de dados organizado por assunto,
não-volátil, integrado e variável em função do tempo, utilizado para apoiar decisões de gerenciamento,
é denominado
a) datawarehouse.
b) gestão do conhecimento.
c) business intelligence.
d) mineração de dados.
e) OLAP (OnLine Analytical Processing).

A

Letra A.

a) Certa. Um Data Warehouse (Armazém ou Depósito de Dados) é um sistema utilizado para
armazenar informações consolidadas de um banco de dados, possibilitando a análise de grandes
volumes de dados, coletados a partir de sistemas transacionais (OLTP).
b) Errada. Define-se Gestão do Conhecimento como a busca da melhoria de desempenho das
instituições por meio de processos de procura, extração, compartilhamento e criação de conhecimento,
aplicando diferentes ferramentas e tecnologias de informação e de comunicação.
c) Errada. Define-se Business intelligence (Inteligência de negócios – BI) como o processo de
coleta, estruturação, avaliação, disponibilização e monitoramento de informações para suporte
ao gerenciamento de negócios.
d) Errada. Etapa do processo de Descoberta de Conhecimento em Bases de Dados (KDD –
Knowledge Discovery in Databases) que corresponde à execução de um algoritmo particular
que, sob algumas limitações aceitáveis de eficiência computacional, encontra padrões ou modelos
nos dados.
e) Errada. OLAP (On-line Analytical Processing - Processamento Analítico On-Line) é o processo
de manipulação e avaliação de um grande volume de dados sob múltiplas aspectos.
A seguir mais algumas observações que merecem destaque neste momento.
No contexto das tecnologias relacionadas ao Business intelligence, duas aplicações são identificadas
e muito cobradas em provas:
* a primeira, que sustenta o negócio por meio de ferramentas OLTP (On Line Transaction
Processing); e
* a segunda, que analisa o negócio por meio de ferramentas OLAP (On Line Analytical
Processing).

37
Q

Julgue o item seguinte: A granularidade diz respeito ao nível de detalhe
ou de resumo contido nas unidades de dados existentes no data warehouse. Quanto menos detalhe, mais baixo o nível de granularidade. Quanto mais detalhe, mais alto o nível de granularidade.

A

Errado.
Quanto mais detalhe, mais baixo o nível de granularidade. Quanto menos detalhe, mais alto
o nível de granularidade.
destaca que existe a possibilidade de utilizar um nível duplo de granularidade
(níveis duais de granularidade). Esta técnica se enquadra nos requisitos da maioria das empresas.

São criadas duas camadas: uma camada para os dados levemente resumidos e outra
para os dados históricos.
Com a criação de dois níveis de granularidade, é possível atender a todos os tipos de consultas,
com um melhor desempenho, visto que a maior parte do processamento analítico se dirige aos dados levemente resumidos que são compactos e de fácil acesso e para as ocasiões em que um maior nível de detalhe deve ser analisado, existe o nível de dados históricos, o qual é
complexo e de alto custo (INMON, 1997).

38
Q

Data Mining é um ambiente de suporte à decisão que alavanca dados armazenados em diferentes fontes e os organiza e entrega aos tomadores
de decisões. Resumindo, é uma tecnologia de gestão e análise de dados.

A

Errado. Conceito de DW

39
Q

Dados para a formação de Data Warehouses podem ser provenientes de e-mails, conversas de telefone, documentos, planilhas. A abordagem linguística utiliza a análise de strings de caracteres para classificar o texto em
determinadas categorias, que são definidas previamente de acordo com o objetivo da empresa.

A

Errado.

A primeira parte da questão, descrita como: “dados para a formação de Data Warehouses podem
ser provenientes de e-mails, conversas de telefone, documentos, planilhas”, está correta!
Conforme destaca Heuseler (2010), dados não-estruturados podem ser incorporados ao processo de Data Warehousing.

“No processo de obtenção de e-mails, por exemplo, devem-se separar os conteúdos trocados em razão de simples conversas entre amigos daqueles que tratam de temas que sejam realmente de interesse da corporação. Além de sua relevância, é importante determinar qual o conteúdo deste texto, ou seja, dar significado a este para que a análise possa ganhar em riqueza. Nota-se claramente que a grande preocupação neste momento de obtenção dos dados é o do tratamento do conteúdo adquirido, de maneira a tornar
este significativo para análises”. Para “entender” estes textos, existem duas abordagens a serem consideradas: linguística
e temática:

  • A abordagem linguística trata o texto de acordo com a língua na qual ele está escrito, sendo
    sua utilização muito complexa e pouco flexível (uma análise deve ser feita para cada língua).
  • A abordagem temática, destacada na questão, utiliza a análise de strings de caracteres para
    classificar o texto em determinadas categorias, que são definidas previamente de acordo
    com o objetivo da empresa.
40
Q

Considere, por hipótese, que o Tribunal Regional
do Trabalho da 20ª Região tenha optado pela implementação de um DW (Data Warehouse) que inicia com a extração, transformação e integração dos dados para vários DMs (Data Marts) antes que seja definida uma infraestrutura corporativa para o DW. Esta implementação

a) tem como vantagem a criação de legamarts ou DMs legados que facilitam e agilizam futuras
integrações.
b) é conhecida como top down.
c) permite um retorno de investimento apenas em longo prazo, ou seja, um slower pay back.
d) tem como objetivo a construção de um sistema OLAP incremental a partir de DMs independentes.
e) não garante padronização dos metadados, podendo criar inconsistências de dados entre
os DMs.

A

Letra A.
a) Errada. Um dos maiores perigos na implementação de um DW (Data Warehouse) é a criação
de DMs (Data Marts) independentes. O advento de ferramentas de drag-and-drop facilitou o
desenvolvimento de soluções individuais, de acordo com as necessidades da empresa. Estas
soluções podem não considerar a arquitetura de forma global. Assim, os DMs independentes
transformam-se em DMs legados, ou legamarts, que dificultam, quando não inviabilizam futuras
integrações. Eles são parte do problema e não da solução!
b) Errada. A estratégia adotada na questão é conhecida como Bottom Up pois considera que
um DW pode ser composto a partir de DMs (Data Marts) previamente desenvolvidos.
Na estratégia conhecida como Top Down todo o DW (Data Warehouse) estará construído para
então disponibilizar os DMs (Data Marts), ou seja, parte-se de uma visão geral de alto nível
para uma visão mais detalhada. Em outras palavras, nesse contexto é realizada a modelagem
integral do DW, seguida pelas extrações de dados. Considera que se deve desenvolver um DW
completo e centralizado antes que partes dele, sumarizadas, possam ser derivadas na forma
de DMs. A principal vantagem é a criação de um modelo único. O revés fica por conta do maior
tempo de projeto.
c) Errada. A estratégia adotada na questão, conhecida como Bottom Up, possui uma estrutura
que já pode ser utilizada pela empresa antes de se finalizar a construção completa do DW.
Assim, Bottom Up permite um retorno de investimento a curto prazo, mais rápido, quando comparado
à estratégia Top Down.
d) Errada. A estratégia Top down tem como objetivo a construção de um sistema OLAP incremental
a partir de DMs independentes. Nesse caso, o DW abastece os DMs que abastecem
OLAP. Na estratégia Bottom Up, os DMs abastecem o DW e OLAP.
e) Certa. No que se refere ao método de construção de Data Warehouse conhecido como Bottom-
up, destacado na questão, tem-se que o foco é em uma área por vez, com o crescimento
gradual do DW (Data Warehouse). Considera que um DW possa ser composto a partir de DMs
(Data Marts) previamente desenvolvidos. A vantagem é a obtenção de resultados a intervalos
mais curtos, garantindo muitas vezes sustentação ao projeto. A desvantagem é a maior dificuldade
de se consolidar informações entre as diversas áreas, não garantindo a padronização
dos metadados, e podendo criar inconsistências de dados entre os DMs.