DW Flashcards
Quais são as ETAPAS do DW?
- Metadados são dados sobre o próprio Enterprise Data Warehouse, por exemplo: estruturas eatributos de tabelas, especificações do modelo de dados, rotinas de acesso, log de extrações,entre outros. Notem – pela figura – que não são derivados Data Marts a partir de metadados!
- Replicação é uma cópia que pode ser realizada do próprio Enterprise DataWarehouse para diversas funcionalidades.
A Arquitetura de Inmon é chamada de Enterprise Data Warehouse (sim, aquele que nós vimoslá atrás) e a Arquitetura de Kimball é chamada de Dimensional Data Warehouse.
Qual a DIFERENÇA entre elas?
Quais são as ETAPAS DO ETL (Extract, Transform e Load)?
Quais as ETAPAS de KIMBALL X INMON?
Quais as CARACTERÍSTICAS do ETL?
- processo mais crítico e demorado na construção de um Data Warehouse, uma vez queconsiste na extração dos dados de fontes homogêneas ou heterogêneas; na transformação elimpeza destes dados; e na carga dos dados no DW.
- Representa 80% da construção doDW
- 60% do seu processo é CARGA
- No momento da criação de um DW, é comum realizar uma carga de dados inicial, mas com o decorrer do tempo a extração deve estar preparada apenas para fazer cargas incrementais.
No ETL, o que é “STAGE AREA”?
Onde vão os dados que foram extraídos, mas ainda não foram transformados e carregados no Data Warehouse
- transformação dos dados é a fase subsequente àextração.
- Esta fase não só transforma os dados, mas também realiza a limpeza dos mesmos.
- Exemplos de Limpeza:
- a correção de erros de digitação,
- a descoberta de violações de integridade,
- a substituição decaracteres desconhecidos,
- a padronização de abreviações.
Quais sãos as CARACTERÍSTICAS do MODELO ESTRELA?
No modelo estrela:
- as tabelas de dimensões relacionam-se diretamente com a tabela de fatos e
- os dados não são normalizados = isto faz com que as tabelas de dimensões devam conter todas as informações para definir uma classe = redundância
TABELA FATO
- é cercada por um conjunto de tabelas Dimensões
- contém os dados transacionais.
- terá uma chave composta pelos Ids das dimensões.
Quais sãos as CARACTERÍSTICAS do MODELO FLOCO DE NEVE?
- No modelo Floco de neve as tabelas dimensionais relacionam-se com a tabela de fatos e algumas tabelas de dimensões relacionam-se apenas entre elas, ou seja, algumas tabelas de dimensões auxiliares que normalizam as tabelas de dimensões principais. SEM REDUNDÂNCIA
- Com isso, reduz o espaço de armazenamento dos dados dimensionais, mas aumenta a complexidade do modelo => aumento dos JOINS entre as tabelas, o que torna o acesso aos dados mais lentos do que no modelo estrela.
- Pior desempenho nas consultas do que as aplicações que usem o esquema estrela
- acrescenta graus de normalização às tabelas de dimensões, eliminando redundâncias
- MANUTENÇÃO mais fácil
Os esquemas mostrados são equivalentes, mas o da figura I corresponde a um banco de dados relacional e o da figura II corresponde a um banco de dados multidimensional.
Certo
Errado
CORRETO✅
A questão traz três partes:
(1) “Os esquemas mostrados são equivalentes”
Quando você olha para os dois esquemas pode vir um sentimento de que eles não são equivalentes, pois são até de tamanhos diferentes. Então marca errado e corre para abraço. Pois é, muito cuidado! Os esquemas são equivalentes!
- Na figura I, a tabela Orders é a principal, pois é a busca por informações dos pedidos o grande objetivo do esquema. Nesta tabela encontramos os atributos tempo (orderdate), prioridade (orderpriority) e o próprio pedido (orderkey).
- Na figura II também encontramos essas informações, mas no formato de dimensões: as tabelas Order_Dim, Time_Dim e Priority_Dim. Assim, elas são equivalentes.
(2) “figura I corresponde a um banco de dados relacional”
Correto! Os dados estão sendo representados no banco de dados por meio de um conjunto de relações (ou tabelas).
(3) “figura II corresponde a um banco de dados multidimensional.”
Correto! A modelagem multidimensional relaciona tabela fato (Fact, na figura) com tabelas dimensões (Priority_Dim, Time_Dim e Order_Dim).
Qual a DEFINIÇÃO de GRANULARIDADE?
- Nível de detalhe.
- Quanto menor for a granularidade, maior será o detalhamento, maior a flexibilidade para se obter respostas, maior o volume e menor a velocidade das consultas.
- Quanto maior for a granularidade, menor será o detalhamento, menor o volume, maior a sumarização dos dados e melhor será a performance.
Qual a DIFERENÇA entre ARQUITETURA de DW e ARQUITETURA de SISTEMAS?
- A arquitetura datawarehouse apenas preocupa-se no armazenamento dos dados de forma limpa e organizada.
- A arquitetura de sistemas implementa inteligência computacional baseada em regras de negócios e utiliza os dados armazenados nos repositórios supracitados, transformando-os em informação estratégica para os negócios.
Qual a DEFINIÇÃO do DW?
Quais as CARACTERÍSTICAS do DW?
Quais são os 03 TIPOS de DW?
- Enterprise Data Warehouse (EDW):
- Traduzido como Armazém de Dados Corporativos ou Abrangentes,
- é um repositório centraltático/estratégico que contém todas as informaçõe
- a finalidade de suportar as análises de decisões.
- EDW é um DW de larga escala – grande e abrangente – que é utilizado pela organização como um todo e que congrega informações de diversas fontes de dados.
- Operational Data Store (ODS):
- Traduzido como Armazenamento de Dados Operacionais, trata-se de um repositório intermediário de dados utilizado para relatórios operacionais e como uma fonte de dados parao Enterprise Data Warehouse (EDW).
- É um elemento complementar a um EDW em um cenário de suporte a decisões, e é usado para relatórios, controles e tomada de decisões operacionais
- Data Mart (DM):
- Um subconjunto de dados de um DataWarehouse = um pequeno Data Warehouse
- Geralmente são dados referentes a um assunto em especial (Ex: Vendas, Estoque,Controladoria, entre outros) ou diferentes níveis de sumarização (Ex: Vendas Anual, VendasSemestral, Vendas Mensal, entre outros), que focalizam uma ou mais áreas específicas.
- Seus dados são obtidos do DW – indexados para suportar intensas pesquisas.
- Finalidade de dar suporte ao processo decisório da alta direção por meio da criação de uma visão personalizada dos dados.
- Repositório especializado e volátil (mas é o único autor que diz isso)!