[TI] Big Data Flashcards
Tópico: Data lake
O que é um datalake?
É um repositório centralizado de todos os dados que necessitam ser trabalhados.
Tópico: Data lake
Quais as funções de um datalake?
Ingerir, armazenar e processar dados.
Tópico: Tipos de dados
Quais são os tipos de dados que existem?
Estruturados, não estruturados, semiestruturados.
Tópico: Tipos de dados
O que são dados estruturados?
São dados que necessitam de uma estrutura prévia.
Ex: Banco de dados.
Tópico: Tipos de dados
O que são dados não estruturados
São dados que não possuem uma restrição de estrutura.
Ex: Texto, vídeo, áudio.
Tópico: Tipos de dados
O que são dados semiestruturados?
São dados que possuem uma estrutura simples mas flexível.
Ex: HTML, JSON.
Tópico: Tipos de dados
O que são dados transacionais?
Dados transacionais são informações capturadas de transações. Eles podem registrar a hora, local, preço, forma de pagamento, descontos, e outras quantidades e qualidades associadas à transação.
Tópico: V’s do Big Data
Quais são os V’s do Big Data e o que cada um deles representa?
3 V’s
Volume, velocidade e variedade.
5 V’s
Veracidade e valor.
7 V’s
Viralidade e viscosidade.
Tópico: NoSQL
Quais as principais características de um banco NoSQL?
Esquemas dinâmicos, manipulação através de APIs orientadas a objeto, escalabilidade e armazenamento de vários tipos de dados diferentes.
Tópico: Pipeline
O que é um pipeline?
É a série de consecutivas automações dos passos de processamento de dados crus coletados de várias fontes em direção a um destino.
Tópico: Pipeline
Quais as principais vantagens de um pipeline?
Velocidade, confiabilidade e redução de latência.
Tópico: Pipeline
Quais são as operações mais comuns em pipelines?
Extração, junção, estandardização (padronização), validação, correção, carregamento dos dados.
Tópico: Pipeline
Quais são os tipos de pipeline existentes?
Lotes (batch), tempo real (streaming), Cloud native e Open source.
Tópico: Pipeline
Qual a diferença entre ETL e ELT?
No ETL o processo de transformação dos dados acontece na staging, uma área intermediária localizada na própria fonte dos dados, já em ELT a transformação acontece no destino, idealmente um datalake.
Com a transformação acontecendo no datalake, isso exclui a necessidade de um profissional altamente especializado (engenheiro de dados), possibilitando que a transformação seja feita pelos analistas de negócios e analistas de dados.