Big Data Flashcards

1
Q

Qual é a diferença entre dado e informação?

A

O dado é o valor bruto armazenado, enquanto a informação é o dado com uma lógica semântica, um significado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O que significa o conceito de Big Data?

A

É um conjunto de dados de grande Volume, que possuem uma Variedade de tipos e fontes e são processados com precisão e alta Velocidade

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O que são dados estruturados?

A

São dados que possuem uma estrutura rígida, que seu formato é conhecido previamente com uma formatação e estrutura previamente definida. Ex: bancos de dados relacionais

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

O que são dados não estruturados?

A

Dado em forma bruta, com uma estrutura totalmente flexível e sem previsibilidade quando ao seu formato. Ex: Fotos, Videos, Textos…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que são dados semi-estruturados?

A

Eles são organizados, mas não seguem uma estrutura rígida como os dados estruturados. Em vez disso, eles têm um formato predefinido que permite a consulta e análise. Esses dados são geralmente armazenados em formatos como XML, JSON e YAML

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quais são os 7 Vs do Big Data?

A

3v: Definem big data:
- Volume
- Velocidade
- Variedade
5v:
- Veracidade
- Valor
7v:
- Viscosidade: Dificuldade de integração com diferentes base de dados.
- Viralidade: Os dados se espalham rapidamente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

No campo de Big Data, o que é a pipeline?

A

É uma série de etapas do processamento de dados, levando o dado da sua origem ao seu destino, levando em consideração:
- Velocidade (Quantos são processados por unidade de tempo)
- Confiabilidade (recuperação a falhas)
- Latência (Tempo que o dado atravessa a pipeline)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que é Data Lake?

A

Um data lake é um repositório centralizado que permite armazenar todos os seus dados estruturados e não estruturados em qualquer escala. Você pode armazenar seus dados como estão, sem precisar primeiro estruturá-los e executar diferentes tipos de análise.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

O que significa ETL?

A

Extract: Extrair o dado da sua base de dados
Transform: Processa o dado
Load: Carrega em uma plataforma de analise

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que significa ELT?

A

Extract: Extrair o dado, podendo ser de diversas bases de dados
Load: Carrega os dados extraídos em um data lake
Transform: Processa o dado

Muito presente em Big Data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qual a definição de data staging?

A

É o armazenamento de dados provenientes de diversas fontes para serem transformados e, por fim, carregados (ETL).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quais são as vantagens do ELT frente ao ETL?

A
  • Velocidade de carregamento e transformação
  • Seleção de dados a posteriori
  • menor custo de manutenção
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quais são os tipos de bancos de dados NoSQL?

A
  • Graph: Neo4j e Titan
  • Key Value: Amazon DynamoDB, Cassandra, Oracle Berkeley DB, Redis
  • Column: Apache Hbase, Google Big Table, (Cassanda pode ser considerado tbm)
  • Document: MongoDB, CouchDB.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

O que é um banco de dados NoSQL?

A

Os bancos de dados NoSQL são criados especificamente para modelos de dados específicos e armazenam dados em esquemas flexíveis que se escalam facilmente para aplicações modernas. Os bancos de dados NoSQL são amplamente reconhecidos por sua facilidade de desenvolvimento, funcionalidade e performance em escala.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly