Business Intelligence Flashcards
Quais os principais objetivos do Business Intelligence?
- Permitir o acesso interativo (por vezes em tempo real) aos dados;
- Permitir a manipulação de dados;
- Dar aos gestores e analistas a capacidade de realizar análise adequada.
BI utiliza como principais ferramentas os softwares para consulta e relatórios de banco de dados, ferramentas para análise multidimensional de dados e o data mining.
Componentes de uma BI:
- O Data Warehouse (DW) com suas fontes de dados;
- O Business Analytics, uma coleção de ferramentas para manipulação, mineração,
análise de dedados do DW; - O Business Performance Management (BPM) para monitoramento e análise de
performance; - A Interface com o usuário, por exemplo, um dashboard.
Em BI, consultas criadas sob demanda especificamente para um conteúdo, layout ou cálculo, agilizando ou facilitando a tomada de decisão, são chamadas de:
Em Business Intelligence (BI), as consultas de dados que NÃO estão disponíveis em
relatórios periódicos, ou seja, consultas criadas sob demanda especificamente para um
conteúdo, layout ou cálculo, agilizando ou facilitando a tomada de decisão, são chamadas
de consultas ad hoc.
Defina Data Warehouse (DW):
Podemos definir um DW como um grande repositório de dados, não volátil e histórico, que tem como objetivo permitir consultas rápidas e complexas, principalmente através de ferramentas OLAP, a fim de auxiliar na manutenção do negócio e na tomada de decisão estratégica.
Banco de dados, com ferramentas de consulta e relatório, que armazena dados atuais e históricos extraídos de vários sistemas operacionais e consolidados para fins de análises e relatórios administrativos (Laudon&Laudon).
Quais as Caracterírsticas de um Data Warehouse?
- Orientado por Assuntos (Temas);
- Integrados;
- Não volátil;
- Variável no tempo (série temporal);
- Granularidade de dados.
DW: Orientado por assuntos (Temas)
- Os dados são organizados por assunto pormenorizado, como vendas, produtos ou
cliente. - Refere-se ao fato do DW armazenar informações sobre temas específicos importantes para o negócio da empresa.
- Exemplos típicos de temas são: produtos, atividades, contas, clientes, etc.
- A orientação por assunto proporciona uma visão mais abrangente da organização.
DW: Integrado
- Os data warehouses devem colocar os dados de diferentes fontes em um formato consistente.
- Refere-se à consistência de nomes, das unidades das variáveis, etc, no sentido de que os dados foram transformados até um estado uniforme.
- Se um elemento de dado é medido em centímetros em uma aplicação, em polegadas em outra, ele será convertido para uma representação única ao ser colocado no Data Warehouse (Campos, 1999).
Por exemplo, considere-se sexo como um elemento de dado.
Uma aplicação pode codificar sexo como M/F, outra como 1/0 e uma terceira como H/M. Conforme os dados são inseridos para o Data Warehouse, eles são convertidos para um estado uniforme, ou seja, sexo é codificado apenas de uma forma.
DW: Não-volátil
- Após os dados serem inseridos em um DW, os usuários não podem alterar ou atualizá-los.
- Significa que o Data Warehouse permite apenas a carga inicial dos dados e consultas a estes dados.
- Após serem integrados e transformados, os dados são carregados em bloco para o Data Warehouse para que estejam disponíveis aos usuários para acesso.
- No ambiente operacional, ao contrário, os dados são, em geral, atualizados registro a registro, em múltiplas transações.
DW: Variável no Tempo (Série Temporal)
- Um data warehouse mantém dados históricos.
- Segundo W.H.Inmon todos os dados no DW são precisos em algum instante no tempo, como eles podem estar corretos somente em um determinado momento, é dito que esses dados “variam com o tempo”.
- O tempo é um dimensão importante à qual todo DW deve oferecer suporte.
DW: Granularidade dos dados
- Refere-se ao nível de sumarização dos elementos e de detalhe disponíveis nos dados.
- Em um nível de granularidade muito alto, o espaço em disco e o número de índices necessários se tornam bem menores, há, porém, uma diminuição da possibilidade de utilização dos dados para atender a consultas detalhas.
- Quanto maior o nível de detalhes, menor o nível de granularidade.
- O nível de granularidade afeta diretamente o volume de dados armazenado no DW e ao mesmo tempo o tipo de consulta que pode ser respondida.
Cite algumas das principais diferenças entre Data Warehouses e Banco de Dados tradicionais:
Banco de Dados Tradicionais
- São transacionais (relacionais, OO, em rede ou hierárquicos).
- Têm suporte para o processamento de transação on-line (OLTP - Online Transaction Processing).
- Inclui inserções, atualizações e exclusões.
Data Warehouse
- Tem a característica de servir principalmente para aplicações de apoio à decisão.
- Eles são otimizados para recuperação de dados, e não para processamento de transação de rotina.
- Utiliza o online analytical processing (OLAP) para a análise de dados complexos.
- Contem quantidades muito grandes de dados de várias fontes, que podem incluir bancos de dados de diferentes modelos de dados e, às vezes, arquivos adquiridos e sistemas e plataformas independentes.
Formam a estrutura de um Data Warehouse:
- Sistemas operacionais de origem;
- Data Staging Area (DAS);
- Data Presentation Area (Apresentação dos Dados);
- Data Access Tools (Ferramentas de acesso a dados).
Sistemas operacionais de origem
- São considerados externos ao DW porque não existe pouco ou nenhum controle sobre o conteúdo e o formato dos dados.
- As principais propriedades desse sistema são o desempenho e a disponibilidade de processamento.
Data Staging Area (DAS)
- Parte do Data Warehouse responsável por receber a extração, transformação e carga (ETL) das informações dos sistemas transacionais
legados, para posterior geração dos Data Marts de destino. - A Staging Area é considerada área fora do acesso dos usuários, por isso não deve suportar consultas dos Usuários.
- Ela pode ser composta por arquivos textos ou tabelas de banco de dados normalizadas.
Passos de obtenção dos dados do Data Staging Area (DAS)
- Extração para o Staging Area
- Transformações
2.1. Filtragem dos dados
2.2. Combinação dos dados
2.3. Cancelamento de dados duplicados - Carga
Data Presentation Area (Apresentação dos Dados)
- Área responsável pela apresentação dos dados, não deve ser utilizada para limpeza ou transformação de dados.
- Organizada em Data Marts, orientados a processos de negócios, e não a unidades de negócio, departamentos ou funções específicas.
- Um Data Mart é composto por dados atômicos e dados sumarizados para uma melhor performance.
Data Access Tools (Ferramentas de acesso a dados)
- O último componente principal do ambiente de DW.
- O termo ferramenta refere-se à variedade de recursos com que usuários de negócio podem contar para melhorar a tomada de decisões analítica.
Ad Hoc query tools, report writers, aplicações analíticas, etc.
Conceito de Armazenamento Operacional de Dados (ODS)
- No âmbito dos DWs, representa um armazenamento intermediário que facilita a integração dos dados de ambiente operativo antes da sua atualização no DW.
- Os ODS são cópias bastante integradas e frequentemente atualizadas de dados operacionais.
- A frequência de atualização e o nível de integração de um ODS dependem das exigências especificas.
- Atualmente, alguns autores passaram a denominá-lo Dynamic Data Storage (DDS).
O ODS pode ser um terceiro sistema físico localizado entre os sistemas operacionais e o DW ou uma partição automática especialmente administrada do DW propriamente dito.
Inicialmente, um ODS era considerado um repositório temporário que armazenava apenas informações correntes antes de serem carregadas para o DW.
Data Mart
- Um data warehouse une bancos de dados de toda uma empresa;
- Os Data Marts (DM) são repositórios de dados especializados em uma determinada área ou departamento do negócio.
- Assim, o DM é um subconjunto dos dados de um Data Warehouse e, dependendo da abordagem, podem ser construídos antes ou depois do DW.
- É como se fossem DW departamentais, ou seja, categorizados por tema ou área.
- DM normalmente é menor e se concentra em um assunto ou departamento específico.
As principais distinções entre um data mart e um data warehouse são as de que um data mart é ESPECIALIZADO e VOLÁTIL.
- Por especializado entende-se que o data mart (ferramenta OLTP) possui uma estrutura baseada em um ambiente, tema, situação, área, setor ou aplicação específica, enquanto o DW (ferramenta OLAP) se baseia em várias fontes de diversas aplicações, fontes e situações para facilitar um suporte a decisão gerencial.
- Por volátil, entende-se que os dados do data mart são alterados frequentemente, enquanto os do DW, por guardarem histórico, só são alterados quando uma carga foi feita de forma errada, mas não frequentemente como em um data mart (que é baseado em aplicações)
Modelagem Multidimensional
- A modelagem multidimensional é um sistema baseado em recuperação que suporta acessos com alto volume de consultas.
- A representação multidimensional dos dados, junto com todos os agregados, é conhecida como cubo de dados, sendo este uma generalização do que é conhecido na terminologia estatística como tabulação cruzada.
Na modelagem dimensional (ou multidimensional) temos 2 tipos principais de tabelas. São elas:
Tabela Fato e Tabela Dimensão.
Tabela Fato
- Tabela central do projeto dimensional.
- Armazena atributos quantitativos (ou métricas) sobre um fato registrado.
- Ela contém chave(s) estrangeira(s) que aponta(m) para uma tabela dimensão.
- Servem para o armazenamento, medidas numéricas associadas a eventos de negócio.
- Cada uma das medições é obtida na interseção de todas as dimensões.
- Em consultas a tabela de fatos são usados centenas, milhares ou até milhões de
registros para a construção da resposta.
Tabela Dimensão
- Contém atributos qualitativos (ou descritivos) sobre os fatos registrados.
- Representa entidades de negócios e constituem as estruturas de entrada que servem para armazenar informações como tempo, geografia, produto, cliente, etc.
- Consiste em tuplas de atributos da dimensão.
- As tabelas dimensão têm uma relação 1:N com a tabela fato.
- A tabela de fatos contém os dados, e as dimensões identificam cada tupla nesses dados.
Medidas
- Aditivas: São as mais frequentes e são obtidas por meio da soma de valores gerados pela seleção de membros das dimensões. Exemplo: lucro líquido;
- Semi-aditivas: São medidas obtidas a partir da soma de apenas partes de suas dimensões. Exemplo: quantidade em estoque (não faz sentido somá-la através da dimensão tempo);
- Não-aditivas: São medidas que não podem ser somadas através de nenhuma de suas dimensões. O exemplo mais comum desse tipo de medidas são valores percentuais.
Dimensão
- Representação dos contextos relevantes para a análise de um fato.
- Exemplo:
▪ Fato: Vendas.
▪ Dimensões: Clientes, Produtos, Tempo, Locais, … - Uma dimensão pode conter membros; ser organizada em hierarquias.
Chave Surrogada (surrogate key)
- Tem as características de uma Primary Key;
- É utilizada para referenciar a dimensão na fato;
- É auto incremental;
- É uma chave artificial;
- É criada no Data Warehouse;
- Seu valor não é derivado dos dados
armazenados no banco de dados; - Não pode ser manipulável ou alterável pelo usuário;
- Não pode se repetir.