Data Warehouse e Data Lake Flashcards

1
Q

O que são Data Warehouses?

A

Repositório central de informações que podem ser analisadas para tomar decisões mais adequadas. Basicamente é o local onde os dados são armazenados com o objetivo de servir para tomadas de decisões.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Como Funcionam os Data Warehouses?

A

O Data Warehouse recebe dados de diversas fontes diferentes, normalmente com uma cadência regular, armazena esses dados de maneira eficiênte e alimentam relatórios, painés e ferramentas de análise com os dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Como um Data Warehouse é Arquitetado?

A

Com camadas de front-end (disponibiliza as informações para o cliente), camada intermediária (acessa e analisa os dados) e camada inferior (onde os dados são carregados e armazenados)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quais são os benefícios de usar um Data Warehouse?

A
  • Tomada de decisão adequada
  • Dados consolidados de várias formas
  • Análise de dados históricos
  • Qualidade, consistência e precisão de dados
  • Separação do processamento analítico dos bancos de dados transicionais
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Conceitos essenciais para business intelligence

A

ETL
DW
OLAP
Painéis de indicadores
Big Data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que são: DadoXMetadadoXInformação

A
  • Dado: É o registro de qualquer coisa (não precisa significado)
  • Metadado: É o que descreve outro dado (dá significado ao dado)
  • Informação: É a junção do Dado + Metadado
  • Um dado pode ser um metadado e vice-versa
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

O que é e quais são as características de Business Intelligence - BI

A
  • Infraestrutura teórica e tecnológica para organizar e analisar dados de diversas fontes de dados
  • Para BI não se utilizam bancos de dados tradicionais e sim Data Warehouses
  • Caracteristicas de BI -> Visão da corporação, processamento analítico, visa facilitar análises para tomadas de decisão, deve ser histórico, consultas ad-hoc e longas, BD basicamente desnormalizado.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que são Data Warehouses?

A
  • São bancos de dados estruturados (normalmente relacionais) que armazena dados homogeneizados e históricos para tomadas de decisão
  • Integra diferentes dados de uma empresa em um único reppositório
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Para que servem Data Warehouses?

A
  • Integrar dados de múltiplas fontes
  • Facilitar o processo de análise sem impactar os sistemas operativos
  • Obter informações de qualidade
  • Atender diferentes tipos de usuários finais
  • Dar flexibilidade e agilidade para atender novas análises
  • Prover mais autonomia ao tomador de decisão
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qual é a definição de Data Warehouse segundo Inmon?

A
  • É um conjunto de dados orientado por assuntos, não volátil, variável com o tempo e integrado, criado para dar suporte à decisão
  • Orientado por assunto -> Dados são organizados por processo
  • Não volátil -> Basicamente carga em lote e análise de dados
  • Variável com o tempo -> Os dados devem ser históricos
    Integrado -> Os dados deve estar homogeneizados e consistentes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qual é a definição de Data Warehouse segundo Kimbal?

A

É uma cópia dos dados transacionais especificamente estruturada para consulta e análise, é o lugar onde as pessoas podem acessar seus dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quais são os Principais objetivos de Data Warehouses?

A
  • Prover dados consistentes -> Tratar as heterogeneidades de dados e metadados, garantindo a consistência de valores, nomes e tipos de dados.
  • Ser flexível à mudanças -> Alterações não devem invalidar os dados ou aplicações existentes
  • Ser um lugar seguro -> Controlar o acesso a informações confidenciais da organização.
  • Facilitar o acesso aos dados -> Os dados e metadados devem ser intuitivos para os tomadores de decisão e as ferramentas de acesso aos dados devem ser fáceis de usar.
  • Ser bem aceita pelos tomadores de decisão.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

O que é Data Mart?

A
  • O DW que é um BD otimizado para fornecer uma imagem global da realidade do negócio de uma organização é demorado, complexo e custoso para ser implementado.
  • Para facilitar a implementação, utilizam-se os Data Marts que é um DW específico para um assunto/negócio/processo da organização
  • DM é um subconjunto do DW que satisfaz os requisitos de uma atividade de negócio
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quais os benefícios de se utilizar Data Marts?

A

Redução de tempo, complexidade e custo de implantação

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qual é a restrição para se utilizar Data Marts?

A

Requerem planejamento prévio, para evitar ilhas de dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Como podem ser implementados os Data Marts?

A
  • Os data marts podem ter implementação monolítica, onde os DMs derivam do DW, seguindo a lógica Top-Down, ou podem ter implementação modular, onde os DMs são implementados um de cada vez até ter o DW, seguindo a lógica Bottow-Up
  • Na implementação monolítica os DM/DW podem ser normalizados, já na implementação modular não recomenda-se normaliza-los.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

O que é Data Warehousing?

A

Processo de Construção do DW

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Quais são os elementos básicos do Data Warehousing?

A

Os elementos básicos que precisam ser definidos e construidos no processo de data warehousing são, as fontes dos dados, a staging area dos dados, a area de apresentação dos dados e as ferramentas de acesso aos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

O que são as fontes de dados no processo de Data Warehousing?

A

Para um DW as fontes de dados podem ser as mais variadas possíveis, e as informações sobre essas fontes devem ser levadas em conta no modelo de negócio, informações como disponibilidade dos dados, confiabilidade, formato.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

O que é a Staging Area no processo de Data Warehousing?

A
  • É a área onde os dados são tratados para inserção no DM/DW
  • É nela que é implementado o processo de ETL (Extract-Transform-Load)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

O que é a area de apresentação dos dados no processo de Data Warehousing?

A
  • É onde os dados são organizados, armazenados e disponibilizados para consulta direta pelos usuários ou ferramentas de relatórios.
  • É basicamente uma série de DM integrados (o DM em si), onde os dados ficam armazenados.
  • Todos os DM devem ser construídos usando dimensões e fatos (esquema dimensional)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

O que são as ferramentas para o usuário final no processo de Data Warehousing?

A
  • São as ferramentas que apresentam os dados de forma intuitiva e eficiente para o objetivo final do usuário.
  • Elas fazem acesso aos dados
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

O que é o modelo dimensional?

A

É um tipo de modelagem de armazenamento de dados que tem o objetivo de tornar o esquema do BD mais simples (menos tabelas), intuitivo (com nomes significativos) e otimizado (desnormalizado-poucas junções) para favorecer consultas e análises.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Quais são os componentes do Modelo Dimensional

A

No modelo dimensional os dados são modelados em tabelas de dimensões, que armazena as propriedades descritivas dos dados e tabelas de fatos que armazena registros dos fatos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

O que são os esquemas estrela, flocos de neve e constelação na modelagem dimensional?

A
  • Esquema estrela, esquema flocos de neve e esquema constelação são maneiras das tabelas estarem distribuídas na modelagem.
  • No esquema estrela que é o mais simples, as tabelas de fato contém as chaves para as tabelas de dimensões, similar ao esquema floco de neve, a diferença é que no esquema floco de neve as tabelas de dimensões são normalizadas.
  • Já o esquema constelação consiste em vários esquemas estrelas juntos onde as tabelas de fato compartilham as tabelas de dimensões.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

O que é o esquema 5 W e 3 H?

A
  • O 5W3H é uma técnica utilizada na gestão empresarial, já na modelagem de dados pode ser usado como guia para tipificar as tabelas no esquema estrela.
  • Tabela de Fatos -> How many | How much
  • Tabelas de Dimensões -> How | When | Who | What | Where | Why
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Quais são as desvantagens de normalizar as tabelas de dimensão?

A
  • Depois da primeira carga as dimensões crescem pouco ((a tabela de fatos é a que mais cresce, mas esta já é bem normalizada.
  • O espaço economizado é pequeno
  • A perda de performance por conta das junções extras é grande
  • Resumindo: em comparação com o esquema estrela, o esquema floco de neve (que tem as tabelas de dimensões normalizadas) é menos claro, tem maior número de tabelas, têm consultas mais complexas e performance inferior.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Qual a diferença da modelagem tradicional (relacional) e da modelagem dimensional?

A
  • Na modelagem tradicional o foco é em representar todos os dados e relacionamentos do negócio com a menor redundância possível (normalização).
  • Já na modelagem dimensional o foco é em prover um esquema onde os fatos sejam o foco, sendo fato um registro de medidas que ocorre periodicamente.
  • A partir de um esquema tradicional podem ser criados vários data marts (DM).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

O que é Tabela de Dimensão?

A
  • As tabelas de dimensões armazenam as descrições dos objetos do negócio, é nela que os dados em si são armazenados.
  • Seus campos armazenam as descrições do negócio e definem os rótulos, as restrições e/ou os agrupamentos dos relatórios.
  • A qualidade de uma tabela de dimensão está diretamente ligada à qualidade dos seus campos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Como criar campos com qualidade em uma tabela de dimensão?

A
  • Os campos devem refletir as terminologias do negócio
  • Os melhores campos são textuais e categóricos, logo, invés de usar idade e salário, pode-se usar faixa etária e faixa salarial, por exemplo.
  • Os rótulos dos campos devem ser intuitivos, sem abreviaturas ou termos desnecessariamente complexos.
  • Não utilizar campos que armazenem valores inteligentes, esses devem ser quebrados de forma intuitiva e seus valores devem ser descrições amigáveis.
  • Os campos podem ter múltiplas hierarquias implícitas além de outros campos que são usados para definir agrupamentos. Por exemplo, para uma tabela de dimensão de tempo podem existir campos de diversos níveis hierárquicos, como ANO que seria um nível mais alto e DIA que seria um nível mais baixo.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

O que é e como funciona a granularidade de uma tabela de dimensão?

A
  • Granularidade é uma medida que tem relação com o nível de detalhe de uma tabela.
  • É inversamente proporcional ao nível de detalhe dos dados, ou seja, quanto mais detalhado são os dados, menor é a granularidade.
  • Em uma tabela de dimensão, o campo de menor hierarquia é o que define o grão da dimensão.
  • Na tabela de dimensão tempo por exemplo, se só existe um campo para ano então a tabela tem alta granularidade, já se existe campo para hora e segundo a tabela tem baixa granularidade.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Quais são as principais características de uma tabela de dimensão?

A
  • Possuem normalmente muitos campos (dezenas), mas poucos registros (poucos milhares), geralmente o volume de dados de todas as dimensões não chega a 10% do volume de dados do DW.
  • São normalmente desnormalizadas (estrela-1FN), mas podem ser normalizadas (floco de neve-3FN)
  • Tem PK simples, sendo elas Surrogate Keys ou seja, chaves artificiais que são geradas automaticamente de maneira incremental sem relação com os outros campos. O uso dessas chaves garantem a estabilidade/neutralidade pois ficam transparentes para os usuários, servindo apenas como ligação entre dimensões e fatos.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Quais cuidados devem ser tomados ao lidar com tabelas de dimensões?

A
  • Manter as SK quando houver reprocessamento de ETL
  • Evitar chaves do tipo data, inteligente ou natural, pois tem tamanhos exagerados e demandam um campo extra para fazer o versionamento.
  • Usar chave natural apenas para manter o vínculo com a fonte de dados
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

O que é e quais são as principais características de uma tabela de fato?

A
  • Tabelas de fatos são tabelas que armazenam observações ou eventos, geralmente envolvendo medidas registradas em um período de tempo.
  • São basicamente normalizadas (3FN)
  • São formadas principalmente por FK e por medidas
  • Na prática, dificilmente tem PK. Quando for necessário é mais performático utilizar uma SK
  • Tem muitas linhas, na casa dos M e B que crescem a cada carga. Tem poucas colunas que consistem das FKs para as dimensões e medidas.
  • Representa cerca de 90% do volume de dados do DW
  • São equivalentes a relacionamentos n-ários
  • Podem ser criadas sem medidas (factless fact table), geralmente essas são usadas para registrar a cobertura/abrangência de alguma ação.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

O que é um fato?

A
  • Fato é um registro da tabela de fato
  • Consiste na interseção entre as FK para as dimensões + medida(s)
  • As dimensões definem o grão da tabela de fatos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

O que são medidas na tabela de fatos?

A
  • Medida são campos geralmente numéricos que devem ser continuamente valorados, geralmente são obtidas a partir da medição de alguma variável do negócio.
  • As medidas podem ser derivadas/calculadas
  • É aconselhado dar preferência para medidas perfeitamente aditivas (que podem ser utilizadas por group by/sum).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

As medidas podem ser textuais?

A
  • As medidas também podem ser textuais, geralmente utilizando uma lista de valores, como por exemplo a avaliação de atendimento (‘bom’, ‘ruim’, ‘péssimo’), nesse caso as operações aditivas não são utilizadas.
  • É aconselhado transformar medidas textuais em descrições das dimensões pois consome menos espaço e fica correlacionadas de forma mais eficaz com os outros campos da dimensão.
38
Q

Como são classificadas as medidas numéricas?

A
  • São classificadas em Aditivas, Semi-aditivas ou Não-aditivas
  • Aditiva -> quando o operador SUM pode ser usado ao longo de todos os campos das dimensões
  • Semi-aditiva -> quando o operador SUM só pode ser usado ao longo de alguns campos das dimensões
  • Não-aditiva -> quando o operador SUM não pode ser usado ao longo de todos os campos das dimensões.
39
Q

Quais as características das medidas aditivas?

A

Nas aditivas a soma (GROUP BY/ SUM) podem ocorrer por qualquer campo de qualquer dimensão. Geralmente elas quantificam o que ocorre nas transações (valor vendido, valor de custo, quantidade vendida…)

40
Q

Quais as características das medidas semi-aditivas?

A
  • Nas semi-aditivas a soma (GROUP BY/ SUM) não pode ocorrer por qualquer campo de qualquer dimensão. Geralmente capturam um instante da realidade (quantidade em estoque, saldo em conta…).
  • Por esse motivo, normalmente só podem ser somadas pelos campos de mais baixa granularidade da dimensão data.
  • Ex: só faz sentido somar saldo, estoque e funcionário por mês se a TF tiver granularidade mês, pois se a granularidade for dia vai ter soma duplicada.
  • Para sumarizar por outros campos, deve-se explorar funções de agregação (AVG, MIN, MAX, COUNT).
41
Q

Quais as características das medidas não-aditivas?

A
  • Não podem ser somadas por campo algum de qualquer dimensão
  • Pode-se explorar com funções de agregação como AVG, MIN, MAX, COUNT
  • Ex: valor unitário, temperatura, precipitação, umidade, ou qualquer indicador calculado a partir de uma razão como percentuais, taxas, coeficientes e índices.
  • Alternativamente podem ser modeladas como faixa de valores ou categorias em uma dimensão.
42
Q

Quais são os tipos de tabelas de fatos?

A

As tabelas de fato podem ser de transação (transaction), instantâneo periódico (periodic snapshot) ou instantâneo acumulado (accumulating snapshot)

43
Q

O que é e como funciona uma tabela de fato do tipo transacional?

A
  • Tabela de fatos do tipo transacional é a mais comum, nela a cada carga (mesmo que não seja diária) captura detalhadamente todos os fatos/transações ocorridos. Obs. Não confundir carga com granularidade
  • A granularidade de cada linha da TF representa, no menor nível de detalhe, um evento ocorrido ou transação realizada.
  • Em geral, esse tipo de tabela faz uso de medidas aditivas
  • Ex: TF sobre transações de vendas ou transações de inventário de estoque.
44
Q

O que é e como funciona uma tabela de fato do instantâneo periódico?

A
  • Na tabela de fato do tipo instantâneo periódico a cada carga (mesmo que seja diária), é capturada apenas uma fotografia do estado atual dos dados.
  • A granularidade de cada linha da TF registra um status dos fatos em um dado período (diário, semanal, mensal…)
  • Em geral esse tipo de tabela faz uso de medidas semi-aditivas
  • Ex: TF sobre inventário básico de produtos.
45
Q

O que é e como funciona uma tabela de fato do instantâneo acumulado?

A
  • Na tabela de fato do tipo instantâneo acumulado a cada carga (mesmo que não seja diária), é registada (insert+updates) múltiplas datas representando estágios diferentes do fato/transação
  • É semelhante a TF de transação, captura detalhadamente todos os fatos/transações ocorridos, mas considera os diferentes estágios do fato sem ter que aumentar a quantidade de linhas da TF.
  • A granularidade de cada linha da TF representa, no menor nível de detalhe, um evento ocorrido ou transação realizada ao longo de diferentes momentos/estágios temporais.
  • Cada linha da TF sofrerá N-1 atualizações (updates) até o fato/transação ser registrado por completo (N=qnt de datas)
  • Em geral esse tipo de tabela faz uso de medidas aditivas
  • Ex: TF com data de recebimento, data de inspeção, data de venda e data de transporte.
46
Q

Como é a densidade das TF?

A
  • Em uma TF de transação e instantâneo acumulado normalmente são esparsas. Ex: em vendas nem todo produto é vendido diariamente
  • Em uma TF de instantâneo periódico normalmente é densa. Ex: Em estoque, mesmo que um produto não seja vendido, sua quantidade disponível é registrada (uma linha para cada produto).
47
Q

Comparação entre os tipos de TFs:

A
  • Período de Tempo: T: Um ponto no tempo, IP: Regular intervalos pré-definidos, IA: Indeterminado normalmente de curta duração.
  • Grão: T: Uma linha por transação, IP: Uma linha por período, IA: Uma linha por tempo de vida.
  • Cargas: T: Insert, IP: Insert, IA: Insert e Update.
  • Atualizações: T: Raramente, IP: Raramente, IA: Constante.
  • Dimensão Data/Tempo: T: Data da transação, IP: Data do final do período, IA: Várias datas para várias etapas.
  • Fatos: T: Registrados por transação, IP: Registrados por intervalos pré-definidos no tempo, IA: Registrados ao longo de uma linha de tempo finita.
48
Q

O que é e qual é a estrutura da Matriz de Barramento do DW?

A
  • A matriz de barramento é uma matriz que mostra as interseções entre as tabelas de dimensão e os subprocessos do negócio (tabelas de fato).
  • Provê uma visão global e integrada do DW e facilita o seu desenvolvimento incremental a partir de dimensões e fatos conformados.
  • É necessária pois construir o DW em uma única etapa é muito custoso e arriscado, mas construir como peças isoladas pode comprometer a visão integrada, logo, usando a matriz de barramento tem-se uma visão mais geral do compartilhamento das tabelas de dimensões entre os negócios.
  • Serve como uma ferramenta para criar, documentar e comunicar o projeto do DW.
  • Na matriz de barramento as linhas são as TFs do DW e as colunas são as dimensões conformadas
49
Q

O que a matriz de barramento permite?

A
  • Permite que diferentes DMs possam ser implementados por equipes diferentes em momentos diferentes.
  • Permite que diferentes DMs possam ser conectados, provendo uma visão integrada de todo DW
  • Permite o compartilhamento de um conjunto de dimensões conformada “conformed dimensions”
  • Todos os processos da organização criarão uma família de modelos dimensionais que compartilham um conjunto de dimensões comuns e conformadas.
  • Permite visualizar imediat amente as dimensões que merecem uma atenção especial (prioridade) dada a sua participação em várias TFs
50
Q

O que é dimensão conformada?

A

Uma Dimensão Conformada (também chamada de Dimensão Compartilhada ou Dimensão Mestre) é uma dimensão que possui o mesmo significado para todas as Tabelas Fato que podem fazer junção à mesma.

51
Q

Alguns fatos sobre dimensão conformada.

A
  • Podem ser replicadas ou um subconjunto da dimensão mais detalhada
  • Podem ser incompletas como umas única tabela física ou como cópias sincronizadas (no mesmo ETL)
  • Seus campos devem ser consistentes (i.e. mesmos nomes, tipos, tamanhos, valores, …)
  • Devem ser construídas de forma sincronizada na área de preparo dos dados (data staging area)
  • São essenciais para a concepção de DM “integráveis”
  • Exigem muita coordenação de execução
  • Permitem combinar em um único relatório/consulta as medições de desempenho de processos diferentes
52
Q

Quais são as características de DM com dimensões não conformadas?

A
  • Não são facilmente/perfeitamente integrados
  • Não permitem análises através de diferentes tabelas de fatos
  • Podem produzir relatórios com rótulos e/ou agrupamentos inconsistentes
53
Q

Na criação de dimensões conformadas a partir de outra dimensão, como funciona a PK?

A
  • No caso da nova dimensão ser criada com atributos já existentes na antiga e a granularidade ser menor, deve-se criar uma nova pk
  • No caso da nova dimensão ser criada com novos atributos mas com a granularidade igual deve-se manter a PK. (Ex: se alguns atributos só fazem sentido em algumas TF, deve-se criar uma nova dimensão idêntica a original e adicionar os atributos específicos na nova dimensão)
  • A dimensão Data pode ser um caso particular onde com granularidade diferente e atributos que já existem a PK seria a mesma. (Ex: TF venda em “dia” e TF estoque em “mês”, nesse caso cria-se uma nova dimensão Data a partir da dimensão original, exclui-se os atributos sem sentido (e.g., flag de feriado, fim de semana…) e faz-se a nova PK = a PK da data do primeiro/último dia do mês)
54
Q

Como funciona a gestão das dimensões conformadas?

A
  • A gestão das dimensões conformadas é atribuída a um grupo chamado de autoridade da dimensão.
  • Este grupo é responsável por definir, manter e publicar uma dimensão particular, ou seus subconjuntos para todos os clientes de DM que dela necessitam.
  • Modificações em atributos existentes ou a adição de novos atributos devem ser revistos com todas as equipes de DM
55
Q

O que são fatos conformados?

A
  • Fatos conformados são fatos que são os mesmos para diferentes DMs
  • Em geral, as medidas da tabela de fatos não estão duplicadas em vários DM
  • Se uma medida existe em mais de um DM, então seu nome, tipo, unidade e cálculo devem ser o mesmo.
  • Se é impossível conformar algumas medidas, então seus nomes devem ser diferentes para deixar claro que são medidas diferentes e evitar erros. (e.g. ValorEmReal e ValorEmDolar; Qtd_kg e Qtd_t)
56
Q

Quais são as fases do projeto dimensional?

A

As fases do projeto dimensional são 4:
- 1 Selecionar o processo de negócio
- 2 Declarar o grão
- 3 Identificar as dimensões
- 4 Identificar as medidas

57
Q

Qual é e como funciona a primeira fase do projeto dimensional?

A
  • A primeira fase do projeto dimensional é selecionar o processo de negócio de será modelado
  • Lembrando que processos são atividades realizadas em organizações (Ex: vendas, compras de matéria prima, pedidos, expedições, faturamento, inventário, contas a pagar/receber)
  • Obs. Processos são diferentes dos departamentos da organização, um departamento pode ter vários processos e um processo pode estar ligado a diferentes departamentos.
  • Deve-se responder qual é o processo mais crítico e viável.
58
Q

Qual é e como funciona a segunda fase do projeto dimensional?

A
  • A segunda fase do projeto dimensional é declarar o grão, que é o nível de detalhe da tabela de fatos, ou seja, é especificar o que uma linha da TF representa. (Ex: uma linha de um cupom fiscal, um cartão de embarque individual ou um nível diário de estoque de cada produto)
  • Deve-se responder o que deve descrever uma linha na TF?
  • Pode-se descobrir nos passos 3 ou 4 que o grão não está adequado, nesse caso deve-se retornar a esse passo.
59
Q

Qual é e como funciona a terceira fase do projeto dimensional?

A
  • A terceira fase do projeto dimensional é identificar as dimensões.
  • Deve-se responder: Como o pessoal do negócio descreve os dados do processo de negócio? (Ex. data, produto, cliente, tipo de transação, status do pedido)
  • Se o grão é bem definido, as dimensões são facilmente identificadas.
  • A partir da escolha das dimensões, defini-se seus atributos
60
Q

Qual é e como funciona a quarta fase do projeto dimensional?

A
  • A quarta fase do projeto dimensional é definir as medidas da TF do DM, nesse caso deve-se responder: o que vamos medir? (Ex: quantidade comprada, valor vendido…)
  • As medidas devem ser coerentes com o grão do passo 2. (Para saber as vendas por período do dia, deve-se ter uma dimensão tempo e o sistema operativo deve registrar o instante de cada venda)
61
Q

O que é e qual a importância da dimensão data?

A
  • É uma das dimensões mais frequentes e relevantes do DW pois é importante para garantir o histórico dos dados
  • No mundo real, a dimensão da data costuma ser complexa: Dia, Mês, Período Fiscal, Semana de Cinco Dias, Feriados, Fim de Semana, Trimestre, Ano….
  • É importante definir o nível de detalhe (granularidade) ideal para o projeto.
  • Geralmente uma granularidade diária é suficiente pois permite flexibilidade para agregar os dados por níveis temporais maiores e atende adequadamente às mudanças nos requisitos do negócio.
  • Diferente das outras dimensões, a data pode ser carregada antecipadamente, de uma só vez e não requer fonte de dados.
  • Também pode-se criar uma dimensão de tempo para evitar a sobrecarga da dimensão data.
62
Q

Como gerenciar dimensões com grandes volumes e alta volatilidade?

A
  • Fragmentar a tabela de dimensão grande em tabelas de dimensões menores, separando dados estáticos de dados voláteis
  • Esta deve estar ligada com a tabela de fato (para guardar o histórico) e pode estar relacionada com a dimensão base (para saber o valor atual)
  • As várias tabelas fragmentadas de uma dimensão grande são também chamadas de minidimensões.
63
Q

O que são e para que servem as minidimensões?

A
  • Minidimensões são subconjuntos de uma dimensão grande (não é uma normalização)
  • Ajudam a controlar o crescimento explosivo de uma dimensão grande com atributos que mudam rapidamente.
  • Seus atributos devem ter baixa cardinalidade (Criar faixa de valores ou categorias para os atributos com valores contínuos (redução do número de combinações - diminuir a cardinalidade))
  • Tamanho de cada minidimensão é igual ao produto cartesiano da cardinalidade dos atributos da minidimensão.
64
Q

O que são e para que servem as dimensões outrigger?

A
  • É uma minidimensão que deve estar ligada apenas a dimensão base onde a dimensão base contém uma FK para o atual valor da “outrigger”
  • Dimensões “Outrigger” devem ser a exceção e não a regra
65
Q

O que são e para que servem as dimensões bugiganga?

A
  • As dimensões bugigangas reúnem campos da TF que têm pouca correlação e servem como filtros (Ex: Flags e atributos soltos)
  • É usada como artifício para diminuir a quantidade de campos da TF
  • Para cria-los deve-se estudar cada caso e criar uma ou mais dimensões “bugiganga” a partir desses campos extraídos da TF
66
Q

O que são e para que servem dimensões degeneradas?

A
  • Dimensões degeneradas são chaves de uma dimensão na tabela de fatos sem uma tabela de dimensão correspondente.
  • Existem pois a informação tem a mesma granularidade da TF, não valendo a pena criar uma nova dimensão, pois a cardinalidade com a TF seria 1:1, criar uma dimensão geraria uma sobrecarga, desnecessária, no DW.
  • Ex: número de uma transação, número de fatura, tíquete, nota fiscal, pedido ou ordem de compra. Essas informações normalmente correspondem a item, e se item for a granularidade da TF, essa informação estará na tabela de fato para permitir o agrupamento por item.
67
Q

O que são e para que servem dimensões com papéis?

A
  • Uma dimensão pode aparecer várias vezes (com papeis diferentes) na TF
  • A solução é feita em SQL para implementar Dimensões com papéis. (Criar uma view para cada papél, cada view deve ter nomes diferentes para os campos - incluindo a PK -, assim cada view será vista como uma tabela/dimensão independente nos relatórios)
68
Q

Como lidar quando uma mesma dimensão pode ser relacionada multiplas vezes na tabela de fatos (relacionamento M:N)?

A
  • Existem várias abordagens como ignorar a dimensão que é multivalorada, escolher uma valor e omitir os restantes, estender a lista de dimensões para ter um número fixo, colocar uma tabela ponte entre a tabela de fatos e a tabela de dimensão que é multivalorada.
  • A tabela ponte serve como uma tabela para armazenar a relação M:N (pode-ser utilizado um fator de peso, que é o peso que um registro tem em um dado grupo, lembrando que a soma dos fator de peso de todos os diagnósticos de uma dado grupo deve ser igual a 100 ou 1).
69
Q

Como lidar com produtos heterogêneos?

A
  • Determinadas organizações oferecem uma variedade de produtos, cada um com descrições e medidas específicas, como consequência muitos valores “não se aplica” aparecem na dimensão produto e valores vazios na tabela de fatos.
  • Para estes modelos dimensionais, recomenda-se a criação de uma dimensão geral e de dimensões específicas para os produtos/serviços
  • Da mesma forma, será necessário uma TF geral e TFs específicas para cada produto/serviço
  • As descrições e medidas gerais devem ser duplicadas nas tabelas de dimensão e de fatos específicas (isto elimina a necessidade de acessar duas TF e/ou dimensões)
70
Q

Como lidar com novos atributos na dimensão?

A
  • Analisar o grão do atributo
  • Se for igual ou mais alto, criar o novo atributo na dimensão e preencher os seus registros antigos com valores corretos.
  • Se os registros antigos do novo atributo não estiverem disponível, deve-se preenchê-lo com um texto significativo (ex: ‘indisponivel’).
71
Q

Como lidar com novas dimensões?

A
  • Criar a nova dimensão
  • Adicionar a nova FK na tabela de fatos e preenche-la corretamente com os valores da PK da nova dimensão.
  • Se os registros antigos da nova dimensão não estão disponíveis, deve-se preencher a FK da tabela de fatos com uma PK significativa (ex: 1=antes da adição da dimensão X)
72
Q

Como lidar com novas medidas?

A
  • Adicionar a nova medida na tabela de fatos e preenche-la/calcula-la corretamente
  • Se a nova medida tem granularidade diferente, criar uma nova tabela de fatos sem as medidas originais
  • Se os registros antigos da nova medida não estão disponíveis, deve-se preenche-la com NULL
73
Q

Como baixar a granularidade (aumentar o detalhamento) da dimensão?

A
  • Criar uma nova dimensão tentando aproveitar os atributos da dimensão original (menos detalhada), adicionar os atributos pertinentes e reconstruir a PK da nova dimensão.
  • Dimensões mais detalhadas podem afetar a tabela de fatos, neste caso, deve-se reconstruir a tabela de fatos (avaliar o impacto nas aplicações existentes)
74
Q

Como tratar uma nova fonte de dados?

A
  • Se a nova fonte de dados tem sua própria granularidade e dimensionalidade deve-se criar um novo DM
  • Caso contrário, tratar a nova fonte de dados no DM pertinente (ter cuidado para não forçar uma compatibilização espúria)
75
Q

O que é o SCD e quais são os tipos?

A
  • Slowly Changing Dimensions (SCD) é a técnica utilizada para fazer atualização de dados nas dimensões, existem diferentes técnicas.
    SCC0: Não faz nada
    SCD1: Sobrescrever o valor
    SCD2: Adiciona uma linha na dimensão
    SCD3: Adiciona uma coluna na dimensão
    SCD4: Criar uma minidimensão com os dados voláteis
    SCD5: SCD4 + SCD1
    SCD6 : SCD1 + SCD2 + SCD3
    SCD7: Duas FK na TF + SCD1 + SCD2
  • Os dois tipos de SDC mais usados são SC1 e SCD2, principalmente o SCD2
76
Q

Como funciona a técnica SCD1?

A
  • A técnica de atualização de dados nas dimensões SCD1 consiste em sobrescrever o valor antigo pelo novo, perdendo o histórico dos valores do atributo
  • Não exige um novo valor de PK para a dimensão e nem para a TF
  • É a estratégia mais simples e rápida de implementar mas não registra histórico
  • É indicada para a correção de cargas erradas de valores de atributos ou informações irrelevantes (ex. CPF e Telefone)
77
Q

Como funciona a técnica SCD2?

A
  • A técnica de atualização de dados nas dimensões SCD2 consiste em adicionar uma linha na dimensão, nesse caso as mudanças são registradas a partir da inserção de novas linhas (novas SKs na dimensão e na fatos)
  • Segmenta perfeitamente o histórico do DW
  • É a estratégia predominante para registrar o histórico do DW
  • Ter atenção quando aplicar em dimensões grandes (pode ser inapropriada/custosa)
78
Q

Como funciona a técnica SCD3?

A
  • A técnica de atualização de dados nas dimensões SCD3 consiste em criar uma nova coluna para cada informação que se deseja manter o valor atual ou prévio (se utiliza da SCD1 para atualizar o valor atual e prévio)
  • Não exige um novo valor de PK para a dimensão e nem para a TF
  • É indicada quando o usuário contenta-se com um histórico limitado (valor atual e valor prévio)
  • É útil para comparar simultaneamente o valor atual com o valor original ou prévio
79
Q

Como funciona a técnica SCD4?

A
  • A técnica de atualização de dados nas dimensões SCD4 consiste em criar uma minidimensão com os dados mais voláteis
  • As PKs da dimensão e minidimensão são geradas de forma independente e ambas devem estar registradas na TF
  • A dimensão base armazena os dados estáticos e o histórico é obtido a partir do relacionamento entre a MD e TF
  • É indicada para controlar o crescimento das dimensões
80
Q

Como funciona a técnica SCD5?

A
  • A técnica de atualização de dados nas dimensões SCD5 consiste em criar uma visão da minidimensão que vai corresponder a uma dimensão outrigger ou faz um relacionamento direto entre a minidimensão e a dimensão base (simulando uma dim outrigger)
  • As PKs da dimensão e minidimensão continuam sendo geradas de forma independente e ambas continuam sendo registradas na TF. Contudo, a PK da visão ou dimensão outrigger vai como FK para a dimensão base (a FK vai ser atualizada via SDC1)
  • É indicada para controlar o crescimento das dimensões e obter o valor atual via FK com a visão ou dimensão outrigger, evitando join com a TF.
81
Q

Como funciona a técnica SCD6?

A
  • A técnica de atualização de dados nas dimensões SCD6 consiste em usar as técnicas SCD3, SCD1 e SCD2 em conjunto.
  • Usar a SCD3 para manter os valores anteriores e atuais do atributo
  • Usar a SCD1 para substituir todos os registros da versão atual do atributo
  • Usar a SCD2 para manter o histórico do atributo
  • É indicada quando o usuário deseja comparar simultaneamente o valor atual com o valor original ou prévio, mantendo todo o histórico
  • Complexa de ser implementada
82
Q

Como funciona a técnica SCD7?

A
  • A técnica de atualização de dados nas dimensões SCD7 consiste em adotar duas FK na TF e as técnicas SCD1 e SCD2.
  • Entrega o mesmo resultado da SCD6, mas usando duas FK (histórico via SCD2 e atual via SCD1) na TF
  • É indicada quando o usuário deseja analisar o histórico e o valor atual (cuidado, pois não é 100% real) de maneira menos complexa
83
Q

Como saber qual SCD usar?

A
  • Deve-se perguntar e documentar:
  • Para quais atributos posso manter apenas o valor atual?
  • Para quais atributos devo manter o histórico completo?
  • Para quais atributos posso manter apenas as versões anteriores/atuais?
  • Qual é o volume de dados atualmente e para os próximos 5 anos?
  • Na dúvida sempre optar pelo SCD2 pois é o melhor para manter o histórico.
84
Q

O que é cubo de dados?

A
  • É uma metáfora para visualização e organização dos dados.
  • Onde várias dimensões podem ser analisadas simultaneamente
  • Os dados (membros) são manipulados mais rapidamente e facilmente (agregação em níveis de hierarquia)
85
Q

O que é e quais são as características do OLAP?

A
  • OLAP é um conjunto de tecnologias para analisar o DW/Cubo de Dados
  • Fornece dados em alto nível (totais, media, min…)
  • Tem alta performance e consultas fáceis e interativas
  • Lida com dados históricos (dimensão temporal)
  • Faz cruzamento de dados (cubo de dados)
  • Analisa dados em diferentes níveis de detalhes (hierarquia)
86
Q

Quais são as principais operações OLAP?

A
  • Drill Down e Roll Up -> São técnicas para caminhar pelos níveis de hierarquia dos dados e permitem ver diferentes níveis de detalhes. Drill Down -> do nivel de menos detalhe para mais detalhe. Roll Up/Drill -> Contrário
  • Rotação -> Técnica que gira o cubo, permitindo diferentes visões dos dados
  • Slice e Dice -> Técnicas que fatiam o cubo, permitindo restringir a análise aos dados, sem inversão de eixos (semelhante as cláusulas SELECT e WHERE de SQL)
87
Q

O que é treliça de agregados?

A
  • É uma estrutura que define a hierarquia de operações group-by no cubo
  • Cada cuboid (nó) é um agregado formado por uma agregação simples (select … from … group by …)
  • A treliça é um grafo direcionado onde uma aresta a, entre dois nós n e m, direcionada de n para m, indica que m pode ser obtido através de n.
88
Q

Quais são as arquiteturas OLAP?

A

As arquiteturas olap são:
- Relacional OLAP -> ROLAP
- Multidimensional OLAP -> MOLAP
- Híbrido OLAP -> HOLAP

89
Q

Como funciona a arquitetura ROLAP?

A
  • Utiliza BD relacional para fazer análise dos fatos
  • Utiliza SQL para manipular os dados de forma multidimensional
  • Lida com fatos atômicos assim como sumarizados
  • Trabalha em ambientes din micos e muitas dimensões
90
Q

Como funciona a arquitetura MOLAP?

A
  • Utiliza MDDB proprietários (com matrizes n-dimensionais) para manipular fatos agregados
  • Tem como premissa principal armazenar de forma multidimensional para visualizar de forma multidimensional
  • Tem como desvantagem o fato de que não manipula fatos atômicos, não trabalha com muitas dimensões e não gerencia um grande volume de dados.
91
Q

Como funciona a arquitetura HOLAP?

A
  • Mistura de MOLAP com ROLAP
  • Suporta manipulação de fatos atômicos e agregados
  • Utiliza MDDB para analisar os fatos agregados
  • Utiliza SQL para manipular fatos atômicos
  • É mais complexo para administrar e implementar
92
Q

Qual a diferença entre as arquiteturas MOLAP, HOLAP e ROLAP na questão de armazenamento e perspectiva do cliente?

A
  • Armazenamento dos Dados de Base -> M: Cubo H: Tabela Relacional R: Tabela Relacional
  • Armazenamento das Agregações -> M: Cubo H: Cubo R: Tabela Relacional
  • Perspectiva do cliente no quesito performance de consulta -> M: Imediato H: mais rápido R: rápido
  • Perspectiva do cliente no quesito consumo em disco -> M: Alto H: Médio R: Baixo
  • Perspectiva do cliente no quesito manutenção do cubo -> M: Alto H: Médio R: Baixo