Big Data - BI Flashcards
Acerca de datawarehouse e datamining: o datawarehouse possibilita a análise de grandes volumes de dados, que, por sua vez, permitem a realização de uma melhor análise de eventos futuros.
Errado.
O Data Warehouse possibilita a análise de grandes volumes de dados, coletados dos sistemas
transacionais (OLTP - On-line Transaction Processing). São as chamadas séries históricas
que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas
de decisões presentes e a previsão de eventos futuros.
Um Data Warehouse, também chamado de armazém de dados, é um repositório de informações
colhidas de várias origens, armazenadas sob um esquema unificado, em um único local.
Quando reunidos, os dados são armazenados por muito tempo, permitindo o acesso a dados
históricos. Ainda, o desenho da base de dados favorece os relatórios, a análise de grandes
volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada
de decisão.
Algumas pessoas têm considerado que os Data Warehouses são uma extensão de visões de banco de dados. Porém, as visões fornecem apenas um subconjunto das funções e das capacidades dos Data Warehouses. Com relação às diferenças e similaridades entre as visões e os Data Warehouses, é correto afirmar que tanto os Data Warehouses quanto as visões fornecem, frequentemente, grandes quantidades de dados integrados e temporais, geralmente mais do que é contido em um banco de dados
Errado. Uma View não possui quantidade de dados maior do que o
próprio banco de dados em que ela está inserida.
Uma View (Visão) é uma tabela lógica, baseada em uma tabela ou em outra visão. Ela não
possui dados próprios, é somente uma interface para a manipulação de um conjunto de dados.
Ela pode ser utilizada para restringir o acesso a dados em uma tabela, facilitar consultas complexas
e também otimizar o tempo dos desenvolvedores.
A View é uma maneira alternativa de observação de dados de uma ou mais tabelas, que compõem
uma base de dados. Pode ser considerada como uma tabela virtual ou uma consulta armazenada. Como exemplo de utilização de view, cita-se a restrição usuário x domínio controlando
o acesso de um usuário específico a colunas de uma tabela.
Alguns benefícios da utilização das Views: economia de tempo com retrabalho; velocidade de
acesso às informações; mascara a complexidade do banco de dados; organiza dados a serem
exportados para outros aplicativos.
Um Data warehouse (ou armazém de dados) é um sistema de computação utilizado para armazenar
informação relativa às atividades de uma organização em banco de dados, de forma
consolidada. Ele possibilita a análise de grandes volumes de dados, coletados dos sistemas
transacionais. Por definição, os dados em um Data Warehouse não são voláteis, ou seja, eles
não mudam, são somente para leitura e não podem ser alterados.
Os Data Warehouses surgiram como conceito acadêmico na década de 80. Com o amadurecimento
dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram
paralelamente. Como os sistemas transacionais não conseguiam cumprir a tarefa de
análise com a simples geração de relatórios, os Data Warehouses são atualmente o núcleo dos
sistemas de informações gerenciais e apoio a decisão das principais soluções de Business
intelligence do mercado, devido a sua capacidade de sumarizar grandes volumes de dados e
de possibilitar análises.
As ferramentas OLAP (Online Analytical Processing) têm como função a navegação nos dados
de um Data Warehouse, possuindo uma estrutura adequada tanto para as pesquisas como
para a apresentação das informações.
A assertiva, portanto, é falsa, tendo-se em vista que a View não tem como objetivo fornecer
frequentemente grandes quantidades de dados integrados, e sim fornecer um subconjunto
dinâmico de dados (tabela virtual) a partir de uma ou mais tabelas.
Observem ainda que o item afirma indevidamente que a quantidade de dados ofertada é maior
do que em todo o banco de dados.
Um Data Warehouse é recomendado para armazenar dados
a) sumarizados de um departamento.
b) sumarizados de toda a empresa para apoio à decisão e utilização de ferramentas OLAP.
c) detalhados de toda a empresa para apoio à decisão e utilização de ferramentas OLAP.
d) detalhados gerados por sistemas de informação transacionais.
e) históricos detalhados de todas as transações realizadas em um determinado período
de tempo.
Letra b.
O DW, na definição de Barbieri (2001, p.49), é “um banco de dados, destinado a sistemas de
apoio à tomada de decisão e cujos dados foram armazenados em estruturas lógicas dimensionais,
possibilitando o seu processamento analítico por ferramentas especiais (OLAP e Mining)”. Características: Data Warehouse pode ser considerado como uma coleção de dados
orientada por assunto, integrada, não volátil, variante no tempo, que dá apoio às decisões da
administração.
A partir desta interpretação, pode-se afirmar que o DW é a fonte para a exploração dos dados,
enquanto o OLAP (On-line Transaction Processing) e o data mining são as técnicas utilizadas
para explorar e investigar os dados. Um Data Warehouse é recomendado para armazenar dados
sumarizados de toda a empresa para apoio à decisão e utilização de ferramentas OLAP.
Uma das técnicas utilizadas no projeto de um data warehouse
corporativo consiste no uso da chamada matriz de barramento, na qual as linhas e colunas
representam, respectivamente,
a) cubos e medições.
b) data staging e cubos.
c) cardinalidades e hierarquias.
d) dimensões e cardinalidades.
e) processos de negócio e dimensões.
Letra e.
A matriz de barramento, proposta por Kimball, é uma matriz de relação cruzada entre os processos
de negócio e suas dimensões, possibilitando visualizar aquelas dimensões que são
compartilhadas entre os vários processos de negócio.
Essa matriz de barramento dispõe, nas suas linhas, os processos de negócio da organização
e em suas colunas as dimensões comuns.
A principal atividade de EXTRAÇÃO é:
a) considerar logs de eventos e arquivos de controle.
b) coletar dados das fontes externas transferindo-os para o ambiente de DW.
c) carregar as dimensões considerando os tipos de hierarquias estáticas.
d) tratar as inconsistências de dados resultantes da transcrição de dados.
e) executar conversões de formatos para códigos geográficos dos países.
Letra b.
a) Errada. Considerar logs de eventos e arquivos de controle faz parte da etapa de Extração,
mas não podemos considerá-lo como a principal atividade desta etapa.
b) Certa. A figura apresentada na questão destaca um modelo geral de como os dados são
processados e armazenados em um Data Warehouse e em um Data Mart. Lembre-se de que
este processo é conhecido como ETL (do inglês Extract Transform and Load), cujas etapas
são as seguintes:
* O processo inicial é a extração de dados das bases de dados transacionais, dados de
sistemas ERP, dados locais, de fontes externas ou web;
* Após a extração, os dados devem ser transformados para que seja possível a carga dos dados
em um Data Warehouse ou Data Mart, dependendo do método de construção adotado.
Baseado nas etapas de Extração, Transformação e Carga, aqui apresentadas, tem-se que a
alternativa B é a resposta, pois é a que melhor descreve a principal atividade realizada durante
a etapa da Extração.
c) Errada. Retrata uma atividade realizada na etapa de Carga.
d/e) Erradas. Estão relacionados a atividades da etapa de Transformação.
Letra b.
A principal atividade de TRANSFORMAÇÃO é:
a) aplicar regras aos dados extraídos para ajustá-los antes de serem carregados.
b) analisar impactos das alternativas do código de aplicação no sistema fonte.
c) avaliar aspectos de performance por meio do uso de paralelismo.
d) obter dados de natureza estruturada e não estruturada.
e) carregar tabelas Fato e fazer mapeamento das chaves.
Letra a.
O processo ETL (do inglês Extract Transform and Load) consiste na extração (leitura de dados
de uma ou mais bases de dados), transformação (conversão dos dados extraídos de sua
forma anterior para a forma em que precisa estar para que possa ser colocado em um Data
Warehouse ou simplesmente em outro banco de dados), e carga (colocar os dados no Data
Warehouse).
Vamos aos comentários das assertivas:
a) Certa. No processo ETL, a etapa de Transformação vai manipular os dados para que eles
fiquem prontos para serem carregados na fonte de dados de destino. Para isso, faz uso de regras
predefinidas de formatação, validação ou alteração de dados para ajustar os dados antes de
serem carregados.
b) Errada. A análise de impacto e alternativas de código de aplicação, como apresentado nessa
assertiva, não está definida em nenhuma das etapas do processo ETL.
c) Errada. Também, a avaliação de aspectos de performance com paralelismo, indicada nessa
assertiva, não faz parte das etapas do ETL.
d) Errada. A obtenção de dados de natureza estruturada e não estruturada é realizada na etapa
de Extração.
e) Errada. A atividade de carregar tabelas Fato e fazer mapeamento das chaves é conduzida
durante a etapa de Carga.
A principal atividade de CARGA é:
a) realizar a limpeza dos dados extraídos para melhorar a qualidade dos dados.
b) definir a periodicidade da transcrição dos dados a serem coletados.
c) otimizar a qualidade dos dados por meio da conversão de formatos.
d) separar e concatenar dados visando eliminar inconsistências nos dados.
e) estruturar e carregar os dados para o DW seguindo o modelo dimensional.
Letra e.
a/c/d) Erradas. As atividades aqui elencadas são realizadas na etapa de Transformação.
b) Errada. A definição da periocidade de dados geralmente é associada com a etapa de Extração.
e) Certa. A etapa de Carga é a última do processo e sua responsabilidade é garantir que os
dados já transformados serão armazenados corretamente no modelo indicado na fonte de
dados de destino. Diferentes tipos de modelos podem ser utilizados para armazenar os dados durante a etapa de Carga, porém o modelo multidimensional é o mais comum em sistemas de
(Business intelligence).
É o conjunto de técnicas e procedimentos
para a extração de informações em dispositivos de armazenamento digital, que
não podem ser acessados de modo convencional pelo usuário ou pelo sistema. Com base no
exposto, é correto afirmar que essas informações apresentam o conceito de
a) recuperação de dados.
b) backup corrompido.
c) mineração de dados.
d) backup interrompido.
e) recuperação de dispositivos.
Letra a.
A mineração de dados (Data Mining) corresponde a processos usados para explorar e analisar
grandes volumes de dados, visando identificar padrões, previsões, erros e associações
etc. Esse conceito, geralmente, está associado ao aprendizado de máquina, que é uma área
da inteligência artificial que desenvolve algoritmos capazes de fazer com que o computador
aprenda a partir do passado, usando dados de eventos que já aconteceram. Este aprendizado
é capaz de identificar padrões que dificilmente seriam identificados por meio de técnicas triviais
de análise de dados, como filtros, junções, pivôs ou agrupamentos.
O conceito de recuperação de dados (Ou Data Recovery, em inglês) envolve o uso de um conjunto
de técnicas e procedimentos para a extração de informações em dispositivos de armazenamento
digital (HD, Storages, dentre outros), que não podem ser acessados de modo
convencional pelo usuário ou pelo sistema (Por exemplo, quando um dispositivo de armazenamento
apresenta falhas. Diante desse fato, para recuperar os arquivos do dispositivo é preciso
utilizar métodos não convencionais. Esses métodos não convencionais são conhecidos pelo
termo recuperação de dados).
Modelo de
banco de dados multidimensional está mais fortemente relacionado com:
a) data warehouse.
b) modelo relacional.
c) bancos hierárquicos.
d) modelo em 3 camadas.
e) banco de dados distribuídos.
Letra a.
O modelo de dados
denominado “multidimensional” se aplica para banco de dados com a tecnologia:
a) relacional.
b) hierárquica.
c) datamining.
d) distribuída
e) data warehouse.
Letra e.
Com relação aos conceitos de modelagem multidimensional de dados para inteligência
computacional, julgue o seguinte item. [Diferentemente da estrutura relacional, a
estrutura multidimensional oferece baixa redundância de dados e suporte a normalização até
a segunda forma normal].
Errado.
A estrutura multidimensional oferece alta redundância.
Em um modelo dimensional,
a tabela fatos armazena:
a) estatísticas sobre os metadados.
b) as restrições de domínio do negócio.
c) descrições textuais das dimensões.
d) medições numéricas do negócio.
e) o tempo de processamento das transações.
Letra d.
Em um modelo dimensional, a tabela fatos armazena medições numéricas de negócio.
Sobre modelagem multidimensional, o cubo:
I – é uma representação intuitiva, pois todas as dimensões coexistem para todo ponto no cubo
e são independentes umas das outras;
II – é, de fato, apenas uma metáfora visual;
III – serve para descrever requisitos funcionais.
Acerca dos itens acima mencionados, apenas;
a) I e III estão corretos;
b) Somente I está correto;
c) I e II estão corretos;
d) II e III estão corretos;
e) III está correto.
Letra c.
I - Certo. Os cubos são massas de dados que retornam das consultas feitas ao banco de
dados e podem ser manipulados e visualizados por inúmeros ângulos e diferentes níveis de agregação. É uma representação intuitiva do fato porque todas as dimensões coexistem para
todo ponto no cubo e são independentes uma das outras.
II - Certo. O cubo é, de fato, apenas uma representação conceitual ou uma metáfora visual.
III – Errado. A análise multidimensional é uma das grandes utilidades da tecnologia OLAP
(Online Analytical Processing), consistindo em ver determinados cubos de informações de
diferentes ângulos (perspectivas) para análise e de vários níveis de agregação.
Portanto, I e II estão corretos.
Em um banco de dados
multidimensional, os dados estão conceitualmente armazenados e organizados em:
a) classes e objetos.
b) cubos e hipercubos.
c) partições e índices.
d) consultas materializadas e sumários.
e) estrelas e constelações.
Letra b.
Um cubo de dados é a representação
multidimensional dos dados não agregados na qual é necessário que as dimensões tenham o
mesmo tamanho.
Errado.
Um cubo de dados é a representação multidimensional de dados agregados, mas não é necessário
que as dimensões tenham o mesmo tamanho!
A modelagem
multidimensional é uma técnica de concepção e visualização de um modelo de dados de
um conjunto de medidas que descrevem aspectos comuns de negócios. Um modelo multidimensional
é formado por três elementos básicos. Assinale-os:
a) Esquema, fatos e itens.
b) Fatos, dimensões e itens.
c) Medidas, esquema e fatos.
d) Fatos, dimensões e medidas
e) Dimensões, medidas e esquema.
Letra d.
Fatos = São os dados a serem agrupados, contendo os valores de cada
medida para cada combinação das dimensões existentes.
O tamanho da tabela que contém os fatos merece atenção especial do
analista.
Dimensões = Estabelecem a organização dos dados, determinando possíveis
consultas/cruzamentos.
Por exemplo: região, tempo, canal de venda,… Cada dimensão pode
ainda ter seus elementos, chamados membros, organizados em
diferentes níveis hierárquicos.
A dimensão tempo, por exemplo, pode possuir duas hierarquias:
calendário gregoriano (com os níveis ano, mês e dia) e calendário fiscal
(com os níveis ano, semana e dia).
Medidas = São os valores a serem analisados, como médias, totais e
quantidades.
Nesta arquitetura
a) Data Marts representam áreas de armazenamento intermediário criadas a partir do processo
de ETL. Auxiliam na transição dos dados das fontes OLTP para o destino final no Data
Warehouse.
b) OLAP é um subconjunto de informações extraído do Data Warehouse que pode ser identificado
por assuntos ou departamentos específicos. Utiliza uma modelagem multidimensional
conhecida como modelo estrela.
c) os dados armazenados no Data Warehouse são integrados na base única mantendo as
convenções de nomes, valores de variáveis e outros atributos físicos de dados como foram
obtidos das bases de dados originais.
d) o Data Warehouse não é volátil, permite apenas a carga inicial dos dados e consultas a estes
dados. Além disso, os dados nele armazenados são precisos em relação ao tempo, não
podendo ser atualizados.
e) Data Mining se refere ao processo que, na construção do Data Warehouse, é utilizado para
composição de análises e relatórios, armazenando dados descritivos e qualificando a respectiva
métrica associada.
Letra d.
a) Errada. Staging Area representa a área de armazenamento intermediário criada a partir do processo de ETL. Auxilia na transição dos dados das fontes OLTP para o destino final no Data Warehouse. Data Mart é um subconjunto de informações do DW que podem ser identificados
por assuntos ou departamentos específicos.
b) Errada. Data Mart é um subconjunto de informações extraído do Data Warehouse que pode
ser identificado por assuntos ou departamentos específicos. Utiliza uma modelagem multidimensional
conhecida como modelo estrela. OLAP (Online Analytical Processing) são ferramentas com capacidade de análise em múltiplas perspectivas das informações armazenadas.
c) Errada. Os dados armazenados no Data Warehouse são integrados na base única mantendo
as convenções de nomes, valores de variáveis e outros atributos físicos de dados. O processo
ETL (do inglês Extract Transform and Load) faz a extração, tratamento e limpeza dos dados
para inserção no DW.
d) Certa. O Data Warehouse não é volátil, permite apenas a carga inicial dos dados e consultas a estes dados. Além disso, os dados nele armazenados são precisos em relação ao tempo, não
podendo ser atualizados.
e) Errada. Dimensão se refere à tabela que, na construção do Data Warehouse, é utilizada para composição de análises e relatórios, armazenando dados descritivos e qualificando a respectiva métrica associada.
Uma das formas de apresentação de
um banco de dados multidimensional é através do modelo estrela. No centro de um modelo
estrela encontra‑se a tabela de:
a) dimensão e, ao seu redor, as tabelas de fatos.
b) dimensão, cuja chave primária deve ser composta.
c) núcleo e, ao seu redor, as tabelas de nível.
d) fatos, cuja chave primária deve ser simples.
e) fatos e, ao seu redor, as tabelas de dimensões.
Letra e.
O modelo Estrela (Star Schema) é formado por uma tabela central - tabela de fatos - e um conjunto
de tabelas organizadas ao redor dela, as tabelas de dimensões.
Um Analista está trabalhando
em um Data Warehouse − DW que utiliza no centro do modelo uma única tabela que armazena
as métricas e as chaves para as tabelas ao seu redor (que descrevem os dados que estão na
tabela central) às quais está ligada. O esquema de modelagem utilizado pelo DW, a denominação
da tabela central e a denominação das tabelas periféricas são, respectivamente,
a) floco de neve, base, granulares.
b) estrela, fato, dimensões.
c) constelação, fato, granulares.
d) atomic, base, branches.
e) anel, base, dimensões.
Letra b.
O modelo estrela, como estrutura básica
de um modelo de dados multidimensional, possui uma configuração típica composta de
uma entidade central:
a) mining e um conjunto de entidades fatos.
b) mining e um conjunto de entidades dimensões.
c) mining e um conjunto de entidades roll-up.
d) dimensão e um conjunto de entidades fatos.
e) fato e um conjunto de entidades dimensões.
Letra e.
O modelo
dimensional de um data warehouse, no qual todas as tabelas relacionam-se diretamente
com a tabela de fatos, de forma que as tabelas dimensionais devem conter todas as descrições
que são necessárias para se definir uma classe, é denominado de:
a) Floco de neve.
b) Estrela.
c) Barramento.
d) Árvore.
e) Anel.
Letra b.
No modelo Estrela (Star Schema) todas as tabelas relacionam-se diretamente com a tabela de fatos. Sendo assim, as tabelas dimensionais devem conter todas as descrições que são
necessárias para definir uma classe.
No modelo Floco de Neve (Snow Flake), as tabelas dimensionais relacionam‑se com a tabela de fatos, mas algumas dimensões relacionam-se apenas entre elas.
Com relação à modelagem dimensional e à otimização de bases de dados para business intelligence, julgue o item subsequente.
Na modelagem multidimensional utilizada em Data Warehouses para se prover melhor desempenho,
a tabela fato central deve relacionar-se às suas dimensões por meio da chave primária
oriunda da fonte de dados original. O valor dessa chave deve ser idêntico ao da fonte, para que tenha valor semântico e garanta que o histórico das transações seja mantido.
Errado.
Na modelagem multidimensional utilizada em Data Warehouses para se prover melhor desempenho,
a tabela fato central deve relacionar-se às suas dimensões por meio da chave substituta (ou surrogate key). O valor dessa chave
deve ser numérico e auto incremental,
não havendo valor semântico e garanta que o histórico das transações seja mantido.
Julgue o item
que se segue, a respeito de arquitetura e tecnologias de sistemas de informação.
A descoberta de novas regras e padrões em conjuntos de dados fornecidos, ou aquisição de conhecimento indutivo, é um dos objetivos de data mining.
Certa.
O conhecimento é classificado em indutivo e dedutivo. O conhecimento dedutivo deduz novas
informações baseadas na aplicação de regras lógicas predefinidas de dedução sobre dados existentes. O Data Mining apoia o conhecimento indutivo, que descobre novas regras e padrões nos dados fornecidos. (ELMASRI, NAVATHE, 2005).
Julgue o item a seguir, em relação a data warehouse e data mining.
No contexto de data mining, o processo de descoberta de conhecimento em base de dados consiste
na extração não trivial de conhecimento previamente desconhecido e potencialmente útil.
O Data Mining é considerado uma parte de um processo maior conhecido como KDD (Knowledge
Discovery in Databases) – em português, Descoberta de Conhecimento em Bases de
Dados –, que, segundo Eduardo Gimenes, busca extrair informação válida, previamente desconhecida
e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar de decisões cruciais.
Addrians & Zantinge (1996) cita que o Data Mining, ou Mineração de Dados, permite a extração
não trivial de conhecimento previamente desconhecido e potencialmente útil de um banco de dados.