Data Warehouse Flashcards
De que se trata um datawarehouse?
Data Warehouse é um sistema de gerenciamento de dados que tem como objetivo principal
armazenar e gerenciar grandes volumes de dados de uma organização.
O que é um data mart?
Data Mart é uma subdivisão ou um subconjunto de um Data Warehouse. Ele
é focado em um departamento específico ou em uma área de negócio. Por exemplo, um Data Mart de
vendas pode conter dados apenas relacionados às vendas e aos clientes. Os Data Marts são
geralmente mais fáceis de implementar devido ao seu escopo limitado e são eficazes em atender às
necessidades específicas de análise de dados de um departamento
Os Data Marts podem ser criados usando a abordagem top-down ou a abordagem bottom-up. Explique cada
Top-down = como parte de um Data Warehouse maior
bottom-up= (iniciando com Data Marts específicos e integrando-os posteriormente
Sobre a criação de data warehouse:
Explique a arquitetura de Inmon
A arquitetura de Inmon é baseada em um modelo de dados corporativo centralizado, onde
todos os dados são armazenados em um único local. Essa arquitetura é mais adequada para empresas
que têm uma grande quantidade de dados e precisam de uma visão única e consistente dos dados.
Essa é uma abordagem top-down, na qual primeiro é construído um modelo de dados normalizado,
que serve como um repositório centralizado de dados. Os Data Marts são então criados a partir deste
repositório central. Essa abordagem enfatiza a integridade e consistência dos dados, sendo ideal para
análises complexas e relatórios regulatórios.
Sobre a criação de data warehouse:
Explique a arquitetura de Kimball
A arquitetura de Kimball é baseada em um modelo dimensional, onde os dados são
organizados em torno de fatos e dimensões. Essa arquitetura é mais adequada para empresas que
precisam de uma visão analítica dos dados e desejam realizar análises mais complexas. Essa é uma
abordagem bottom-up, onde os Data Marts são construídos primeiro, com foco em necessidades de
negócios específicas, e posteriormente integrados para formar um Data Warehouse completo. Cada
Data Mart é dimensional, o que facilita a análise e compreensão dos dados pelos usuários de negócios.
Esta abordagem é geralmente mais rápida e menos custosa para implementar, porém pode levar a
inconsistências se os Data Marts não forem cuidadosamente coordenados.
Explique a matriz de barramento corporativo
A Matriz de Barramento Corporativo é uma ferramenta utilizada
para projetar e comunicar a arquitetura de um Data Warehouse. Na matriz, os processos de
negócios são listados nas linhas e as dimensões são listadas nas colunas, com células sombreadas
indicando associações. A matriz serve tanto para validar os processos e as dimensões, quanto para
apoiar na priorização de projetos de DW/BI, implementando uma linha de cada vez e integrando
considerações técnicas e de gestão empresarial
Sobre a criação de data warehouse:
Explique a Modelagem dimensional
é uma técnica de modelagem de dados que organiza os dados em
torno de fatos e dimensões, permitindo que os usuários realizem análises mais complexas
o Fatos: São as métricas quantitativas ou os resultados numéricos do negócio. Por
exemplo, vendas, lucro, ou horas trabalhadas. Os fatos são geralmente armazenados
em tabelas de fatos e são frequentemente acompanhados de chaves estrangeiras que
se referem a dimensões específicas.
o Dimensões: São os contextos qualitativos que descrevem os fatos. Eles fornecem
detalhes adicionais como tempo (dia, semana, mês), localização (cidade, estado, país),
ou detalhes do produto (categoria, fornecedor). As dimensões ajudam a entender o
“quê”, “quando”, “onde” e “como” dos fatos.
Sobre a criação de data warehouse:
Explique os cubos OLAP
são estruturas de dados multidimensionais que permitem que os usuários
analisem dados de várias perspectivas.
Imagine um cubo OLAP com três dimensões:
Tempo(ano. trimestre, mês),
Produto (categoria, sub-categoria, produto)
Região. (estado, país, cidade)
Cada dimensão possui várias hierarquias.O eixo horizontal pode representar a dimensão Tempo.
O eixo vertical pode representar a dimensão Produto.
A profundidade (para frente e para trás) pode representar a dimensão Região.
ada célula do cubo representa uma combinação específica de tempo, produto e região, e o valor nessa célula é a métrica associada, como vendas.
Usando essa estrutura, os usuários podem navegar no cubo para analisar as vendas ao longo do tempo, por produto e por região, e podem perfurar em diferentes níveis de detalhe em cada dimensão para obter insights mais profundos. Por exemplo, eles podem visualizar as vendas totais por ano em um determinado país ou as vendas por produto em um determinado trimestre.
Sobre a criação de data warehouse:
Explique o data mining
Data mining, ou mineração de dados, é o processo de descoberta e extração de padrões úteis, conhecimento e informações significativas a partir de grandes conjuntos de dados. Esses padrões e informações podem então ser usados para tomada de decisões, previsões, análises e outras atividades relacionadas ao negócio.
As principais tarefas de um Data Warehouse incluem:
Coleta de dados, Limpeza de dados, Transformação de dados, Armazenamento de dados, Análise de dados e Visualização de dados.
Explique cada
- Coleta de dados: é o processo de coletar dados de várias fontes e integrá-los em um único
local. - Limpeza de dados: é o processo de identificar e corrigir erros nos dados, como valores
ausentes ou inconsistentes. - Transformação de dados: é o processo de transformar os dados em um formato adequado para
análise. - Armazenamento de dados: é o processo de armazenar os dados em um Data Warehouse.
- Análise de dados: é o processo de analisar os dados para obter insights e tomar decisões
informadas. - Visualização de dados: é o processo de apresentar os dados de forma visual, como gráficos e
tabelas, para facilitar a compreensão e a tomada de decisões.