DW Flashcards

1
Q

Quais são as ETAPAS do DW?

A
  • Metadados são dados sobre o próprio Enterprise Data Warehouse, por exemplo: estruturas eatributos de tabelas, especificações do modelo de dados, rotinas de acesso, log de extrações,entre outros. Notem – pela figura – que não são derivados Data Marts a partir de metadados!
  • Replicação é uma cópia que pode ser realizada do próprio Enterprise DataWarehouse para diversas funcionalidades.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

A Arquitetura de Inmon é chamada de Enterprise Data Warehouse (sim, aquele que nós vimoslá atrás) e a Arquitetura de Kimball é chamada de Dimensional Data Warehouse.

Qual a DIFERENÇA entre elas?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quais são as ETAPAS DO ETL (Extract, Transform e Load)?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quais as ETAPAS de KIMBALL X INMON?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quais as CARACTERÍSTICAS do ETL?

A
  • processo mais crítico e demorado na construção de um Data Warehouse, uma vez queconsiste na extração dos dados de fontes homogêneas ou heterogêneas; na transformação elimpeza destes dados; e na carga dos dados no DW.
  • Representa 80% da construção doDW
  • 60% do seu processo é CARGA
  • No momento da criação de um DW, é comum realizar uma carga de dados inicial, mas com o decorrer do tempo a extração deve estar preparada apenas para fazer cargas incrementais.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

No ETL, o que é “STAGE AREA”?

A

Onde vão os dados que foram extraídos, mas ainda não foram transformados e carregados no Data Warehouse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
A
  • transformação dos dados é a fase subsequente àextração.
  • Esta fase não só transforma os dados, mas também realiza a limpeza dos mesmos.
  • Exemplos de Limpeza:
    • a correção de erros de digitação,
    • a descoberta de violações de integridade,
    • a substituição decaracteres desconhecidos,
    • a padronização de abreviações.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quais sãos as CARACTERÍSTICAS do MODELO ESTRELA?

A

No modelo estrela:

  • as tabelas de dimensões relacionam-se diretamente com a tabela de fatos e
  • os dados não são normalizados = isto faz com que as tabelas de dimensões devam conter todas as informações para definir uma classe = redundância

TABELA FATO

  • é cercada por um conjunto de tabelas Dimensões
  • contém os dados transacionais.
  • terá uma chave composta pelos Ids das dimensões.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais sãos as CARACTERÍSTICAS do MODELO FLOCO DE NEVE?

A
  • No modelo Floco de neve as tabelas dimensionais relacionam-se com a tabela de fatos e algumas tabelas de dimensões relacionam-se apenas entre elas, ou seja, algumas tabelas de dimensões auxiliares que normalizam as tabelas de dimensões principais. SEM REDUNDÂNCIA
  • Com isso, reduz o espaço de armazenamento dos dados dimensionais, mas aumenta a complexidade do modelo => aumento dos JOINS entre as tabelas, o que torna o acesso aos dados mais lentos do que no modelo estrela.
  • Pior desempenho nas consultas do que as aplicações que usem o esquema estrela
  • acrescenta graus de normalização às tabelas de dimensões, eliminando redundâncias
  • MANUTENÇÃO mais fácil
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Os esquemas mostrados são equivalentes, mas o da figura I corresponde a um banco de dados relacional e o da figura II corresponde a um banco de dados multidimensional.

Certo

Errado

A

CORRETO✅

A questão traz três partes:

(1) “Os esquemas mostrados são equivalentes”
Quando você olha para os dois esquemas pode vir um sentimento de que eles não são equivalentes, pois são até de tamanhos diferentes. Então marca errado e corre para abraço. Pois é, muito cuidado! Os esquemas são equivalentes!

  • Na figura I, a tabela Orders é a principal, pois é a busca por informações dos pedidos o grande objetivo do esquema. Nesta tabela encontramos os atributos tempo (orderdate), prioridade (orderpriority) e o próprio pedido (orderkey).
  • Na figura II também encontramos essas informações, mas no formato de dimensões: as tabelas Order_Dim, Time_Dim e Priority_Dim. Assim, elas são equivalentes.

(2) “figura I corresponde a um banco de dados relacional”
Correto! Os dados estão sendo representados no banco de dados por meio de um conjunto de relações (ou tabelas).

(3) “figura II corresponde a um banco de dados multidimensional.”
Correto! A modelagem multidimensional relaciona tabela fato (Fact, na figura) com tabelas dimensões (Priority_Dim, Time_Dim e Order_Dim).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qual a DEFINIÇÃO de GRANULARIDADE?

A
  • Nível de detalhe.
  • Quanto menor for a granularidade, maior será o detalhamento, maior a flexibilidade para se obter respostas, maior o volume e menor a velocidade das consultas.
  • Quanto maior for a granularidade, menor será o detalhamento, menor o volume, maior a sumarização dos dados e melhor será a performance.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qual a DIFERENÇA entre ARQUITETURA de DW e ARQUITETURA de SISTEMAS?

A
  • A arquitetura datawarehouse apenas preocupa-se no armazenamento dos dados de forma limpa e organizada.
  • A arquitetura de sistemas implementa inteligência computacional baseada em regras de negócios e utiliza os dados armazenados nos repositórios supracitados, transformando-os em informação estratégica para os negócios.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qual a DEFINIÇÃO do DW?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quais as CARACTERÍSTICAS do DW?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quais são os 03 TIPOS de DW?

A
  • Enterprise Data Warehouse (EDW):
  • Traduzido como Armazém de Dados Corporativos ou Abrangentes,
  • é um repositório centraltático/estratégico que contém todas as informaçõe
  • a finalidade de suportar as análises de decisões.
  • EDW é um DW de larga escala – grande e abrangente – que é utilizado pela organização como um todo e que congrega informações de diversas fontes de dados.
  • Operational Data Store (ODS):
  • Traduzido como Armazenamento de Dados Operacionais, trata-se de um repositório intermediário de dados utilizado para relatórios operacionais e como uma fonte de dados parao Enterprise Data Warehouse (EDW).
  • É um elemento complementar a um EDW em um cenário de suporte a decisões, e é usado para relatórios, controles e tomada de decisões operacionais
  • Data Mart (DM):
  • Um subconjunto de dados de um DataWarehouse = um pequeno Data Warehouse
  • Geralmente são dados referentes a um assunto em especial (Ex: Vendas, Estoque,Controladoria, entre outros) ou diferentes níveis de sumarização (Ex: Vendas Anual, VendasSemestral, Vendas Mensal, entre outros), que focalizam uma ou mais áreas específicas.
  • Seus dados são obtidos do DW – indexados para suportar intensas pesquisas.
  • Finalidade de dar suporte ao processo decisório da alta direção por meio da criação de uma visão personalizada dos dados.
  • Repositório especializado e volátil (mas é o único autor que diz isso)!
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

CEBRASPE (CESPE) - Auditor Federal de Controle Externo (TCU)/Controle Externo/Auditoria de Tecnologia da Informação/2015

Julgue o item subsequente, a respeito de modelagem dimensional e análise de requisitos para sistemas analíticos.

O paralelismo, característica desejável de uma ferramenta de ETL, oferece suporte às operações de vários segmentos e a execução de código executável de forma paralela.

A

CORRETO
Com frequência, as três fases de ETL são executadas em paralelo para economizar tempo. Por exemplo, enquanto os dados estão sendo extraídos, um processo de transformação pode trabalhar nos dados já recebidos e prepará-los o para carregamento e um processo de carregamento pode começar a trabalhar com os dados preparados, em vez de aguardar a conclusão de todo o processo de extração.

17
Q

Acerca de sistemas de suporte a decisão e data warehousing, julgue o item a seguir.

Em um modelo do tipo estrela (star schema), devido à ligação entre as tabelas dimensionais e suas respectivas fontes de dados, as dimensões são dependentes de códigos operacionais de produção. Desse modo, nessas tabelas, convenciona-se usar como chave primária as mesmas utilizadas no ambiente de produção — origem dos dados.

A

ERRADO❌

Conforme descrito abaixo, Kimball sugere não usar as chaves naturais presentes na base operacional no modelo dimensional, em especial nas tabelas dimensões.

Regra #8: Tenha certeza de que as tabelas dimensão usam uma chave artificial.

18
Q

Acerca de datawarehouse e datamining, julgue o item subsequente.

O datawarehouse possibilita a análise de grandes volumes de dados, que, por sua vez, permitem a realização de uma melhor análise de eventos futuros.

Certo

Errado

A

ERRADO❌

Um data warehouse (DW) é uma coleção de informações e dados corporativos derivados de sistemas operacionais e fontes de dados externas. Um data warehouse é projetado para suportar decisões de negócios, permitindo a consolidação, análise e geração de relatórios de dados em diferentes níveis agregados. Os dados são preenchidos no DW através dos processos de extração, transformação e carregamento.

Em resumo, um DW é usado para interpretar padrões de comportamentos, ❌não analisar eventos futuros.

O conceito apresentado na questão é o de data mining (mineração de dados) que é o processo de classificação de grandes conjuntos de dados para identificar padrões e estabelecer relações para resolver problemas por meio da análise de dados. Ferramentas de mineração de dados permitem que as empresas prevejam tendências futuras.

Gabarito: ERRADO

19
Q

Quais as DIFERENÇAS entre TABELA FATO e TABELA DIMENSÃO?

A

Toda modelagem dimensional possuem dois elementos imprescindíveis: as tabelas Fatos e as tabelas Dimensões. Ambas são obrigatórias e possuem característica complementares dentro de um Data Warehouse.

  • As tabelas de fatos normalmente são normalizadas, enquanto as tabelas dimensão com freqüência não estão na terceira forma normal (third normal form – 3NF). …
  • Em geral não é necessário normalizar as tabelas dimensão para impedir anomalias no armazenamento porque normalmente elas são estáveis e pequenas.
  • A natureza de um datawarehouse indica que as tabelas dimensão devem ser projetadas para recuperação, não para atualização. O desempenho associado à recuperação de dados é melhorado eliminando-se as operações de união que seriam necessárias para combinar tabelas dimensionais totalmente normalizadas.
  • As Dimensões são os descritores dos dados oriundos da Fato. Possui o caráter qualitativo da informação e relacionamento de “um para muitos” com a tabela Fato. É a Dimensão que permite a visualização das informações por diversos aspectos e perspectivas.
  • As Fatos contém as métricas. Possui o caráter quantitativo das informações descritivas armazenadas nas Dimensões. É onde estão armazenadas as ocorrências do negócio e possui relacionamento de “muitos para um” com as tabelas periféricas (Dimensão).
20
Q
  1. (CETAP / DETRAN RR - 2010) Sobre Sistemas de Apoio à Decisão, leia os enunciados seguintese marque a alternativa CORRETA:

I - O termo Business Inteligence (BI) nada mais é que uma série de conceitos e metodologiaspara auxiliar na tomada de decisões estratégicas nas empresas através principalmente degeração de relatórios gerenciais analíticos;

II - Um Data Warehouse é um banco de dados multidimensional grande, de escopoorganizacional (ou seja, abrange toda a empresa) e reúne dados de todos os departamentosde forma a permitir a busca rápida de informações para auxiliar a tomada de decisõesestratégicas;

III - Um Data Mart é um banco de dados multidimensional de escopo departamental, ou seja,abrange apenas um determinado departamento;

IV - Data Mining (Mineração de dados) é o termo usado para definir uma série deprocedimentos, técnicas e ferramentas para recuperar e analisar dados de um DataWarehouse ou Data Mart;

V - Nos Sistemas de Apoio à Decisão é comum desnormalizar os dados para atingir uma melhorperformance nos Data Mart e Data Warehouse.

a) Somente o enunciado III está correto.
b) Os enunciados I, II e III estão corretos.
c) Os enunciados I, II e V estão corretos.
d) Somente o enunciado V está correto.
e) Todos os enunciados estão corretos.

A

Comentários:

(I) Correto. São conceitos e metodologias, auxiliam na tomada de decisões estratégicas, ajudama geração de relatórios gerenciais analíticos;

(II) Correto. DW é realmente um banco de dados multidimensional, possui escopo organizacionale permite a busca rápida de informações para auxiliar a tomada de decisões estratégicas;

(III) Correto. DM também é um banco de dados multidimensional, mas realmente possui umescopo departamental;

(IV) Correto. Essa definição está tão genérica que eu acredito que ela poderia ser tanto paraMineração de Dados quanto para OLAP;

(V) Correto. Desnormalizar é manter dados redundantes no banco de dados. Sistemas de Apoio àDecisão realmente desnormalizam dados para melhorar o desempenho de DW ou DM.

Gabarito: Letra E

21
Q

(CESGRANRIO / PETROBRÁS / 2010) Data Warehouse tem por característica ser:

a) orientado a assuntos.
b) temporário.
c) descentralizado.
d) focalizado em aspectos operacionais.
e) normalizado.

A

Comentários:

(a) Correto; (b) Errado, ele é não-volátil; (c) Errado, ele é centralizado; (d) Errado, ele é focado emaspectos táticos e estratégicos; (e) Errado, ele é desnormalizado.

22
Q

(CESPE / MPU – 2013) Uma característica distinta dos data warehouses é o seudirecionamento para aplicações de apoio às decisões. Eles são otimizados para a recuperaçãode dados, não para o processamento rotineiro de transações.

A

Comentários:

Perfeito! Data Warehouse busca dar suporte ao processo de tomada de decisão dos gestores deuma organização. Ademais, eles são extremamente eficientes para recuperação/consulta dedados e geração de relatórios, não para o processamento rotineiro de transações.

Gabarito: Correto