Big Data - BI Flashcards
Acerca de datawarehouse e datamining: o datawarehouse possibilita a análise de grandes volumes de dados, que, por sua vez, permitem a realização de uma melhor análise de eventos futuros.
Errado.
O Data Warehouse possibilita a análise de grandes volumes de dados, coletados dos sistemas
transacionais (OLTP - On-line Transaction Processing). São as chamadas séries históricas
que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas
de decisões presentes e a previsão de eventos futuros.
Um Data Warehouse, também chamado de armazém de dados, é um repositório de informações
colhidas de várias origens, armazenadas sob um esquema unificado, em um único local.
Quando reunidos, os dados são armazenados por muito tempo, permitindo o acesso a dados
históricos. Ainda, o desenho da base de dados favorece os relatórios, a análise de grandes
volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada
de decisão.
Algumas pessoas têm considerado que os Data Warehouses são uma extensão de visões de banco de dados. Porém, as visões fornecem apenas um subconjunto das funções e das capacidades dos Data Warehouses. Com relação às diferenças e similaridades entre as visões e os Data Warehouses, é correto afirmar que tanto os Data Warehouses quanto as visões fornecem, frequentemente, grandes quantidades de dados integrados e temporais, geralmente mais do que é contido em um banco de dados
Errado. Uma View não possui quantidade de dados maior do que o
próprio banco de dados em que ela está inserida.
Uma View (Visão) é uma tabela lógica, baseada em uma tabela ou em outra visão. Ela não
possui dados próprios, é somente uma interface para a manipulação de um conjunto de dados.
Ela pode ser utilizada para restringir o acesso a dados em uma tabela, facilitar consultas complexas
e também otimizar o tempo dos desenvolvedores.
A View é uma maneira alternativa de observação de dados de uma ou mais tabelas, que compõem
uma base de dados. Pode ser considerada como uma tabela virtual ou uma consulta armazenada. Como exemplo de utilização de view, cita-se a restrição usuário x domínio controlando
o acesso de um usuário específico a colunas de uma tabela.
Alguns benefícios da utilização das Views: economia de tempo com retrabalho; velocidade de
acesso às informações; mascara a complexidade do banco de dados; organiza dados a serem
exportados para outros aplicativos.
Um Data warehouse (ou armazém de dados) é um sistema de computação utilizado para armazenar
informação relativa às atividades de uma organização em banco de dados, de forma
consolidada. Ele possibilita a análise de grandes volumes de dados, coletados dos sistemas
transacionais. Por definição, os dados em um Data Warehouse não são voláteis, ou seja, eles
não mudam, são somente para leitura e não podem ser alterados.
Os Data Warehouses surgiram como conceito acadêmico na década de 80. Com o amadurecimento
dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram
paralelamente. Como os sistemas transacionais não conseguiam cumprir a tarefa de
análise com a simples geração de relatórios, os Data Warehouses são atualmente o núcleo dos
sistemas de informações gerenciais e apoio a decisão das principais soluções de Business
intelligence do mercado, devido a sua capacidade de sumarizar grandes volumes de dados e
de possibilitar análises.
As ferramentas OLAP (Online Analytical Processing) têm como função a navegação nos dados
de um Data Warehouse, possuindo uma estrutura adequada tanto para as pesquisas como
para a apresentação das informações.
A assertiva, portanto, é falsa, tendo-se em vista que a View não tem como objetivo fornecer
frequentemente grandes quantidades de dados integrados, e sim fornecer um subconjunto
dinâmico de dados (tabela virtual) a partir de uma ou mais tabelas.
Observem ainda que o item afirma indevidamente que a quantidade de dados ofertada é maior
do que em todo o banco de dados.
Um Data Warehouse é recomendado para armazenar dados
a) sumarizados de um departamento.
b) sumarizados de toda a empresa para apoio à decisão e utilização de ferramentas OLAP.
c) detalhados de toda a empresa para apoio à decisão e utilização de ferramentas OLAP.
d) detalhados gerados por sistemas de informação transacionais.
e) históricos detalhados de todas as transações realizadas em um determinado período
de tempo.
Letra b.
O DW, na definição de Barbieri (2001, p.49), é “um banco de dados, destinado a sistemas de
apoio à tomada de decisão e cujos dados foram armazenados em estruturas lógicas dimensionais,
possibilitando o seu processamento analítico por ferramentas especiais (OLAP e Mining)”. Características: Data Warehouse pode ser considerado como uma coleção de dados
orientada por assunto, integrada, não volátil, variante no tempo, que dá apoio às decisões da
administração.
A partir desta interpretação, pode-se afirmar que o DW é a fonte para a exploração dos dados,
enquanto o OLAP (On-line Transaction Processing) e o data mining são as técnicas utilizadas
para explorar e investigar os dados. Um Data Warehouse é recomendado para armazenar dados
sumarizados de toda a empresa para apoio à decisão e utilização de ferramentas OLAP.
Uma das técnicas utilizadas no projeto de um data warehouse
corporativo consiste no uso da chamada matriz de barramento, na qual as linhas e colunas
representam, respectivamente,
a) cubos e medições.
b) data staging e cubos.
c) cardinalidades e hierarquias.
d) dimensões e cardinalidades.
e) processos de negócio e dimensões.
Letra e.
A matriz de barramento, proposta por Kimball, é uma matriz de relação cruzada entre os processos
de negócio e suas dimensões, possibilitando visualizar aquelas dimensões que são
compartilhadas entre os vários processos de negócio.
Essa matriz de barramento dispõe, nas suas linhas, os processos de negócio da organização
e em suas colunas as dimensões comuns.
A principal atividade de EXTRAÇÃO é:
a) considerar logs de eventos e arquivos de controle.
b) coletar dados das fontes externas transferindo-os para o ambiente de DW.
c) carregar as dimensões considerando os tipos de hierarquias estáticas.
d) tratar as inconsistências de dados resultantes da transcrição de dados.
e) executar conversões de formatos para códigos geográficos dos países.
Letra b.
a) Errada. Considerar logs de eventos e arquivos de controle faz parte da etapa de Extração,
mas não podemos considerá-lo como a principal atividade desta etapa.
b) Certa. A figura apresentada na questão destaca um modelo geral de como os dados são
processados e armazenados em um Data Warehouse e em um Data Mart. Lembre-se de que
este processo é conhecido como ETL (do inglês Extract Transform and Load), cujas etapas
são as seguintes:
* O processo inicial é a extração de dados das bases de dados transacionais, dados de
sistemas ERP, dados locais, de fontes externas ou web;
* Após a extração, os dados devem ser transformados para que seja possível a carga dos dados
em um Data Warehouse ou Data Mart, dependendo do método de construção adotado.
Baseado nas etapas de Extração, Transformação e Carga, aqui apresentadas, tem-se que a
alternativa B é a resposta, pois é a que melhor descreve a principal atividade realizada durante
a etapa da Extração.
c) Errada. Retrata uma atividade realizada na etapa de Carga.
d/e) Erradas. Estão relacionados a atividades da etapa de Transformação.
Letra b.
A principal atividade de TRANSFORMAÇÃO é:
a) aplicar regras aos dados extraídos para ajustá-los antes de serem carregados.
b) analisar impactos das alternativas do código de aplicação no sistema fonte.
c) avaliar aspectos de performance por meio do uso de paralelismo.
d) obter dados de natureza estruturada e não estruturada.
e) carregar tabelas Fato e fazer mapeamento das chaves.
Letra a.
O processo ETL (do inglês Extract Transform and Load) consiste na extração (leitura de dados
de uma ou mais bases de dados), transformação (conversão dos dados extraídos de sua
forma anterior para a forma em que precisa estar para que possa ser colocado em um Data
Warehouse ou simplesmente em outro banco de dados), e carga (colocar os dados no Data
Warehouse).
Vamos aos comentários das assertivas:
a) Certa. No processo ETL, a etapa de Transformação vai manipular os dados para que eles
fiquem prontos para serem carregados na fonte de dados de destino. Para isso, faz uso de regras
predefinidas de formatação, validação ou alteração de dados para ajustar os dados antes de
serem carregados.
b) Errada. A análise de impacto e alternativas de código de aplicação, como apresentado nessa
assertiva, não está definida em nenhuma das etapas do processo ETL.
c) Errada. Também, a avaliação de aspectos de performance com paralelismo, indicada nessa
assertiva, não faz parte das etapas do ETL.
d) Errada. A obtenção de dados de natureza estruturada e não estruturada é realizada na etapa
de Extração.
e) Errada. A atividade de carregar tabelas Fato e fazer mapeamento das chaves é conduzida
durante a etapa de Carga.
A principal atividade de CARGA é:
a) realizar a limpeza dos dados extraídos para melhorar a qualidade dos dados.
b) definir a periodicidade da transcrição dos dados a serem coletados.
c) otimizar a qualidade dos dados por meio da conversão de formatos.
d) separar e concatenar dados visando eliminar inconsistências nos dados.
e) estruturar e carregar os dados para o DW seguindo o modelo dimensional.
Letra e.
a/c/d) Erradas. As atividades aqui elencadas são realizadas na etapa de Transformação.
b) Errada. A definição da periocidade de dados geralmente é associada com a etapa de Extração.
e) Certa. A etapa de Carga é a última do processo e sua responsabilidade é garantir que os
dados já transformados serão armazenados corretamente no modelo indicado na fonte de
dados de destino. Diferentes tipos de modelos podem ser utilizados para armazenar os dados durante a etapa de Carga, porém o modelo multidimensional é o mais comum em sistemas de
(Business intelligence).
É o conjunto de técnicas e procedimentos
para a extração de informações em dispositivos de armazenamento digital, que
não podem ser acessados de modo convencional pelo usuário ou pelo sistema. Com base no
exposto, é correto afirmar que essas informações apresentam o conceito de
a) recuperação de dados.
b) backup corrompido.
c) mineração de dados.
d) backup interrompido.
e) recuperação de dispositivos.
Letra a.
A mineração de dados (Data Mining) corresponde a processos usados para explorar e analisar
grandes volumes de dados, visando identificar padrões, previsões, erros e associações
etc. Esse conceito, geralmente, está associado ao aprendizado de máquina, que é uma área
da inteligência artificial que desenvolve algoritmos capazes de fazer com que o computador
aprenda a partir do passado, usando dados de eventos que já aconteceram. Este aprendizado
é capaz de identificar padrões que dificilmente seriam identificados por meio de técnicas triviais
de análise de dados, como filtros, junções, pivôs ou agrupamentos.
O conceito de recuperação de dados (Ou Data Recovery, em inglês) envolve o uso de um conjunto
de técnicas e procedimentos para a extração de informações em dispositivos de armazenamento
digital (HD, Storages, dentre outros), que não podem ser acessados de modo
convencional pelo usuário ou pelo sistema (Por exemplo, quando um dispositivo de armazenamento
apresenta falhas. Diante desse fato, para recuperar os arquivos do dispositivo é preciso
utilizar métodos não convencionais. Esses métodos não convencionais são conhecidos pelo
termo recuperação de dados).
Modelo de
banco de dados multidimensional está mais fortemente relacionado com:
a) data warehouse.
b) modelo relacional.
c) bancos hierárquicos.
d) modelo em 3 camadas.
e) banco de dados distribuídos.
Letra a.
O modelo de dados
denominado “multidimensional” se aplica para banco de dados com a tecnologia:
a) relacional.
b) hierárquica.
c) datamining.
d) distribuída
e) data warehouse.
Letra e.
Com relação aos conceitos de modelagem multidimensional de dados para inteligência
computacional, julgue o seguinte item. [Diferentemente da estrutura relacional, a
estrutura multidimensional oferece baixa redundância de dados e suporte a normalização até
a segunda forma normal].
Errado.
A estrutura multidimensional oferece alta redundância.
Em um modelo dimensional,
a tabela fatos armazena:
a) estatísticas sobre os metadados.
b) as restrições de domínio do negócio.
c) descrições textuais das dimensões.
d) medições numéricas do negócio.
e) o tempo de processamento das transações.
Letra d.
Em um modelo dimensional, a tabela fatos armazena medições numéricas de negócio.
Sobre modelagem multidimensional, o cubo:
I – é uma representação intuitiva, pois todas as dimensões coexistem para todo ponto no cubo
e são independentes umas das outras;
II – é, de fato, apenas uma metáfora visual;
III – serve para descrever requisitos funcionais.
Acerca dos itens acima mencionados, apenas;
a) I e III estão corretos;
b) Somente I está correto;
c) I e II estão corretos;
d) II e III estão corretos;
e) III está correto.
Letra c.
I - Certo. Os cubos são massas de dados que retornam das consultas feitas ao banco de
dados e podem ser manipulados e visualizados por inúmeros ângulos e diferentes níveis de agregação. É uma representação intuitiva do fato porque todas as dimensões coexistem para
todo ponto no cubo e são independentes uma das outras.
II - Certo. O cubo é, de fato, apenas uma representação conceitual ou uma metáfora visual.
III – Errado. A análise multidimensional é uma das grandes utilidades da tecnologia OLAP
(Online Analytical Processing), consistindo em ver determinados cubos de informações de
diferentes ângulos (perspectivas) para análise e de vários níveis de agregação.
Portanto, I e II estão corretos.
Em um banco de dados
multidimensional, os dados estão conceitualmente armazenados e organizados em:
a) classes e objetos.
b) cubos e hipercubos.
c) partições e índices.
d) consultas materializadas e sumários.
e) estrelas e constelações.
Letra b.
Um cubo de dados é a representação
multidimensional dos dados não agregados na qual é necessário que as dimensões tenham o
mesmo tamanho.
Errado.
Um cubo de dados é a representação multidimensional de dados agregados, mas não é necessário
que as dimensões tenham o mesmo tamanho!
A modelagem
multidimensional é uma técnica de concepção e visualização de um modelo de dados de
um conjunto de medidas que descrevem aspectos comuns de negócios. Um modelo multidimensional
é formado por três elementos básicos. Assinale-os:
a) Esquema, fatos e itens.
b) Fatos, dimensões e itens.
c) Medidas, esquema e fatos.
d) Fatos, dimensões e medidas
e) Dimensões, medidas e esquema.
Letra d.
Fatos = São os dados a serem agrupados, contendo os valores de cada
medida para cada combinação das dimensões existentes.
O tamanho da tabela que contém os fatos merece atenção especial do
analista.
Dimensões = Estabelecem a organização dos dados, determinando possíveis
consultas/cruzamentos.
Por exemplo: região, tempo, canal de venda,… Cada dimensão pode
ainda ter seus elementos, chamados membros, organizados em
diferentes níveis hierárquicos.
A dimensão tempo, por exemplo, pode possuir duas hierarquias:
calendário gregoriano (com os níveis ano, mês e dia) e calendário fiscal
(com os níveis ano, semana e dia).
Medidas = São os valores a serem analisados, como médias, totais e
quantidades.