2. Big Data E Data Warehouse Flashcards

1
Q

Big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para lidar com dados em volume, variedade e velocidade significativos.

Certo ou errado?

A

Certo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Entre dados estruturados, semi-estruturados e não estruturados, quais normalmente ocupam menos espaço de armazenamento?

A

Estruturados - pois dado estruturado em padrão, em tabela, é a menor parte da big data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Arquivos de áudio, fotos e PDFs são que tipos de dados?

A

Não estruturados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

É possível converter dados não estruturados para estruturados?

A

Sim, embora alguns dados possam não aceitar a conversão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Data warehouse é considerado um banco de dados convencional?
Armazena dados estruturados, semiestruturados e até não estruturados? Tem preferência por algum tipo de dado?

A

Sim, é considerado um banco de dados convencional

E sim, armazena dados estruturados, semiestruturados e não estruturados.
Mas preferencialmente armazena dados estruturados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Num data warehouse, os esquemas de armazenamento de dados são definidos antes, durante ou depois da coleta e armazenamento de dados?

A

Antes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Num data warehouse, o que vem antes: o armazenamento de dados ou o tratamento de dados?

A

O tratamento.
Os dados são antes tratados para então serem armazenados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qual é mais barato, um data warehouse ou um data lake?

A

Data lake, pois o data warehouse trata os dados antes de armazená-los, e isso é mais caro.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

O que faz o processo de data cleansing num data warehouse?

A

É o processo que detecta, valida e corrige erros dos dados. É aplicado normalmente a dados corrompidos ou desnecessários.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que é o data mart? Quais as vantagens?

A

São subdivisões da data warehouse. Armazenam dados específicos de cada setor (da empresa, por exemplo)

Dentre as vantagens: os dados ficam mais direcionados, auxiliando em tomadas de decisão (melhores e mais rápidas)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

O que é OLAP?

A

OnLine Analytical Processing

É o processo analítico em tempo real.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quem normalmente é o usuário final do data warehouse? E do data lake?

A

Data warehouse = usuário operacional

Data lake = cientista de dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quais são os 5 V da big data?

A
  • volume
  • velocidade
  • veracidade
  • valor
  • variabilidade (ou complexidade)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Big data não se refere somente aos dados tecnologias atuais, mas os dados que ainda virão?

A

Sim.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qual premissa da big data se relaciona com o combate à fake news?
A única preocupação é fake news?

A

Veracidade.
Não, a veracidade também atua no combate a dados desatualizados ou incompletos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Business intelligence preferencialmente trabalha com data warehouse ou data lakes?

A

Data warehouse.

17
Q

Flashcard para visualizar o print do esquema de business intelligence no álbum de fotos

A

Colocar 3 no feedback

18
Q

Em qual etapa do ciclo de business intelligence se dá o ETL?

A

O extract, transform and load se dá na etapa (2) de PROCESSAMENTO dos dados, antes de ir para o data warehouse.

19
Q

A análise OLAP e o uso de ferramentas de data mining ocorrem em que etapa do ciclo de business intelligence?

A

Na última (de análise!)

20
Q

Ferramentas de análise de dados busca novos dados? Aceita novos dados?

A

Não busca dados, ela simplesmente trabalha com os dados já existentes. Mas ela aceita novos dados, ela só não vai atrás deles, focando-se em trabalhar com o que elas já têm e com o que é entregue a elas.

21
Q

Qual a diferença entre análise:
-descritiva,
-diagnóstica,
-preditiva e
-prescritiva?

A

Descritiva = o que aconteceu
Diagnóstica = por que aconteceu
Preditiva = o que pode acontecer
Prescritiva = o que fazer

22
Q

Entre as análises descritiva, prescritiva, preditiva e diagnóstica, qual tem o maior valor e a maior complexidade?

A

A prescritiva.

23
Q

Entre as análises descritiva, diagnóstica, prescritiva e preditiva, qual delas possui mais e qual possui menos interferência humana?

A

Descritiva = maior interferência humana

Prescritiva = menos interferência humana

24
Q

Para que servem as arquiteturas kappa e lambda?

A

Para realizar processamento de grandes volumes de dados

25
Q

A arquitetura lambda vem para solucionar qual problema? Como faz isso?

A

O problema da latência de processos com dados em tempo real e que exigem MapReduce

Faz isso dividindo os dados em duas camadas:
Camada quente = dados em tempo real
Camada fria = dados que já estão lá.

26
Q

O que a arquitetura kappa faz de diferente da lambda? Ela é mais simples ou mais complexa?

A

A kappa unifica o processamento em tempo real e em lotes em uma única camada.

Portanto, é mais simples.

27
Q

Quais são os três componentes essenciais de uma arquitetura em batch (Hadoop)?

A

Armazenamento (HDFS), agendador (YARN) e processamento (MapReduce)

28
Q

O HDFS opera no conceito de WORM. O que isso significa?

A

WO - white once, RM - read many

Arquivo é gravado uma vez, mas pode ser lido várias vezes.

29
Q

Arquivos armazenados no HDFS podem ser alterados ou excluídos depois que são gravados?

A

Não. Pelo WORM, é write once = gravou, não altera mais.

30
Q

Qual projeto de Hadoop é uma camada de data warehouse? Que linguagem utiliza?

A

Hive.
Usa a HQL (Hive SQL ou Hive Query language), similar a SQL.

31
Q

Quais são as quatro habilidades de um BI?

A
  1. Memória organizacional
  2. Integração de informações
  3. Criação de conhecimento (insight)
  4. Apresentação
32
Q

Data warehouse é orientado por assunto, a produto ou a departamento?

A

Por assunto

33
Q

Data warehouse é focado em aspectos operacionais?

A

Não.

Ele tem dados extraídos de sites de natureza operacional

Mas é focado em aspectos estratégicos e táticos

34
Q

No âmbito dos data warehouses, que estrutura representa um armazenamento intermediário que facilita a integração de dados de ambiente operativo antes de sua atualização no data warehouse?

A

ODS (Operational data store)

35
Q

Quais são as cinco etapas do processo ETL?

A
  1. Seleção
  2. Extração
  3. Transformação
  4. Integração (uniformização)
  5. Load (carga)
36
Q

Quais são os componentes principais de um processo de data warehousing?

A
  1. Fontes de dados
  2. Extração de dados (ETL)
  3. Metadados
  4. Ferramentas de middleware
37
Q

Qual a diferença entre a abordagem de Inmon e Kimball sobre a construção de um data warehouse?

A

Inmon = construir o DW e depois dividi-lo em data marts (top-down, mãos caro, orientado a dados pois garante metadados padronizados)

Kimball = construir vários data marts e depois imtegra-los ao data warehouse (bottom-up, orientado a negócios, mais barato mas nãogarante padronização de metadados)

38
Q

Qual a diferença entre a utilidade de bancos de dados relacionais para banco de dados multidimensionais? Quais deles respondem a consultas em um Data Warehouse?

A

Relacionais = mais úteis para representar transações

Multidimensionais = mais úteis para extrair dos dados as informações de BI = SÃO ESTES QUE RESPONDEM ÀS CONSULTAS EM UM DATA WAREHOUSE