[TI] Big Data Flashcards

1
Q

Tópico: Data lake

O que é um datalake?

A

É um repositório centralizado de todos os dados que necessitam ser trabalhados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Tópico: Data lake

Quais as funções de um datalake?

A

Ingerir, armazenar e processar dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Tópico: Data lake

Quais as diferenças entre um data lake e um data warehouse?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Tópico: Tipos de dados

Quais são os tipos de dados que existem?

A

Estruturados, não estruturados, semiestruturados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Tópico: Tipos de dados

O que são dados estruturados?

A

São dados que necessitam de uma estrutura prévia.

Ex: Banco de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Tópico: Tipos de dados

O que são dados não estruturados

A

São dados que não possuem uma restrição de estrutura.

Ex: Texto, vídeo, áudio.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Tópico: Tipos de dados

O que são dados semiestruturados?

A

São dados que possuem uma estrutura simples mas flexível.

Ex: HTML, JSON.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Tópico: Tipos de dados

O que são dados transacionais?

A

Dados transacionais são informações capturadas de transações. Eles podem registrar a hora, local, preço, forma de pagamento, descontos, e outras quantidades e qualidades associadas à transação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Tópico: V’s do Big Data

Quais são os V’s do Big Data e o que cada um deles representa?

A

3 V’s
Volume, velocidade e variedade.

5 V’s
Veracidade e valor.

7 V’s
Viralidade e viscosidade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Tópico: NoSQL

Quais as principais características de um banco NoSQL?

A

Esquemas dinâmicos, manipulação através de APIs orientadas a objeto, escalabilidade e armazenamento de vários tipos de dados diferentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Tópico: Pipeline

O que é um pipeline?

A

É a série de consecutivas automações dos passos de processamento de dados crus coletados de várias fontes em direção a um destino.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Tópico: Pipeline

Quais as principais vantagens de um pipeline?

A

Velocidade, confiabilidade e redução de latência.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Tópico: Pipeline

Quais são as operações mais comuns em pipelines?

A

Extração, junção, estandardização (padronização), validação, correção, carregamento dos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Tópico: Pipeline

Quais são os tipos de pipeline existentes?

A

Lotes (batch), tempo real (streaming), Cloud native e Open source.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Tópico: Pipeline

Qual a diferença entre ETL e ELT?

A

No ETL o processo de transformação dos dados acontece na staging, uma área intermediária localizada na própria fonte dos dados, já em ELT a transformação acontece no destino, idealmente um datalake.

Com a transformação acontecendo no datalake, isso exclui a necessidade de um profissional altamente especializado (engenheiro de dados), possibilitando que a transformação seja feita pelos analistas de negócios e analistas de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Tópico: Pipeline

Quais as características de um ETL?

A

Utiliza área de transição (staging), processo caro, consome dados já processados, necessita de um engenheiro de dados, usado em datawarehouses.

17
Q

Tópico: Pipeline

Quais as características de um ELT?

A

É veloz pois possui um rápido carregamento, transformação de dados é feita pelo analista, usado em big data.

18
Q

Tópico: NoSQL

O que são esquemas dinâmicos?

A

A estrutura do schema pode ser alterada a qualquer momento, não necessitando de uma estrutura pré-definida.

19
Q

Tópico: NoSQL

O que são APIs orientadas a objeto?

A

São APIs que vem integradas ao banco para que são usadas para facilitar o CRUD.

20
Q

Tópico: NoSQL

Porque um banco NoSQL é escalável?

A

Como possuem um sistema de armazenamento distribuído e esquemas dinâmicos a inserção de novas bases se torna muito mais fácil.

21
Q

Tópico: NoSQL

Quais são os modelos de bancos NoSQL?

A

Modelo baseado em grafos, modelo chave-valor, modelo orientado a colunas, modelo orientado a documentos.

22
Q

Tópico: NoSQL

Quais as características de um banco NoSQL baseado em grafos?

A

As informações estão representadas por meio de
grafos e nós. É extremamente útil quando se os dados estão intimamente correlacionados, pois as a correlação não precisa existir nas queries, elas já estão representadas no banco.

23
Q

Tópico: NoSQL

Quais são os exemplos de bancos orientados a grafos?

A

Neo4J e Titan.

24
Q

Tópico: NoSQL

Quais as características de um banco NoSQL baseado em chave-valor?

A

Esses bancos possuem um par de chave-valor e todos os dados podem ser armazenados dessa maneira. Tanto a chave quanto o valor podem ser qualquer coisa, desde objetos simples até a composição de objetos complexos.

25
Q

Tópico: NoSQL

Quais os exemplos de banco de dados baseados em chave-valor?

A

Amazon Dynamo DB, Cassandra e Oracle.

26
Q

Tópico: NoSQL

Quais as características de um banco NoSQL orientado a colunas?

A

É um banco aonde os dados são serializados na forma de colunas em vez de linhas, desse jeito as queries são muito mais rápidas pois não precisam varrer toda a base para verificar uma condição específica.

27
Q

Tópico: NoSQL

Quais exemplos de bancos orientados a colunas?

A

Apache Hbase e Google Big Table, *Cassandra.

28
Q

Tópico: NoSQL

Quais as características de um banco NoSQL orientado a documentos?

A

É um banco que possui registros que armazenam informações de um objeto e seus metadados. É um banco distribuído, possui esquema flexível, as queries podem ser realizadas via API ou query language.

29
Q

Tópico: NoSQL

Quais exemplos de bancos orientados a documentos?

A

MongoDB e CouchDB.