Big Data Flashcards
Qual é a diferença entre dado e informação?
O dado é o valor bruto armazenado, enquanto a informação é o dado com uma lógica semântica, um significado.
O que significa o conceito de Big Data?
É um conjunto de dados de grande Volume, que possuem uma Variedade de tipos e fontes e são processados com precisão e alta Velocidade
O que são dados estruturados?
São dados que possuem uma estrutura rígida, que seu formato é conhecido previamente com uma formatação e estrutura previamente definida. Ex: bancos de dados relacionais
O que são dados não estruturados?
Dado em forma bruta, com uma estrutura totalmente flexível e sem previsibilidade quando ao seu formato. Ex: Fotos, Videos, Textos…
O que são dados semi-estruturados?
Eles são organizados, mas não seguem uma estrutura rígida como os dados estruturados. Em vez disso, eles têm um formato predefinido que permite a consulta e análise. Esses dados são geralmente armazenados em formatos como XML, JSON e YAML
Quais são os 7 Vs do Big Data?
3v: Definem big data:
- Volume
- Velocidade
- Variedade
5v:
- Veracidade
- Valor
7v:
- Viscosidade: Dificuldade de integração com diferentes base de dados.
- Viralidade: Os dados se espalham rapidamente
No campo de Big Data, o que é a pipeline?
É uma série de etapas do processamento de dados, levando o dado da sua origem ao seu destino, levando em consideração:
- Velocidade (Quantos são processados por unidade de tempo)
- Confiabilidade (recuperação a falhas)
- Latência (Tempo que o dado atravessa a pipeline)
O que é Data Lake?
Um data lake é um repositório centralizado que permite armazenar todos os seus dados estruturados e não estruturados em qualquer escala. Você pode armazenar seus dados como estão, sem precisar primeiro estruturá-los e executar diferentes tipos de análise.
O que significa ETL?
Extract: Extrair o dado da sua base de dados
Transform: Processa o dado
Load: Carrega em uma plataforma de analise
O que significa ELT?
Extract: Extrair o dado, podendo ser de diversas bases de dados
Load: Carrega os dados extraídos em um data lake
Transform: Processa o dado
Muito presente em Big Data.
Qual a definição de data staging?
É o armazenamento de dados provenientes de diversas fontes para serem transformados e, por fim, carregados (ETL).
Quais são as vantagens do ELT frente ao ETL?
- Velocidade de carregamento e transformação
- Seleção de dados a posteriori
- menor custo de manutenção
Quais são os tipos de bancos de dados NoSQL?
- Graph: Neo4j e Titan
- Key Value: Amazon DynamoDB, Cassandra, Oracle Berkeley DB, Redis
- Column: Apache Hbase, Google Big Table, (Cassanda pode ser considerado tbm)
- Document: MongoDB, CouchDB.
O que é um banco de dados NoSQL?
Os bancos de dados NoSQL são criados especificamente para modelos de dados específicos e armazenam dados em esquemas flexíveis que se escalam facilmente para aplicações modernas. Os bancos de dados NoSQL são amplamente reconhecidos por sua facilidade de desenvolvimento, funcionalidade e performance em escala.