Módulo 3 - Engenharia de Dados & Analytics Flashcards
O que é Engenharia de Dados?
O que faz um engenheiro de dados?
É a atribuição que faz com que trabalha, processa e enriquece os dados disponibilizando a informação em um repositório acessível (Data Werehouse).
O que é Engenharia de Dados?
O que é um “Data Werehouse”?
Repositório central de dados confiável, seguro e acessivel de toda empresa.
O que é Engenharia de Dados?
Como é feita a subida de informações no Data Werehouse?
É feita através de Data Pipelines.
O que é Engenharia de Dados?
O que é um “Data Pipelines”?
É o processamento (extração, enriquecimento, carregamento de informação) da informação para o Data Werehouse ou Data Lake.
O que é Engenharia de Dados?
O que é um Data Lake?
Semelhante ao Data Werehouse, só que ao invés de informação tratada, ele armazena informações brutas em um repositório em núvem.
O que é Engenharia de Dados?
Quantos tipos de Data Pipelines existem e quais são eles?
Existem dois tipos: Batch e Streaming
O que é Engenharia de Dados?
Como funciona a pipeline de batch?
Funciona com horários agendados, disparando uma rotina com base neste tipo agendamento.
O que é Engenharia de Dados?
Como funciona a pipeline de streaming?
Funciona com base em eventos, disparando uma rotina com base neste tipo agendamento.
O que é Big Data
O que é o big data?
Um grande emaranhado de dados (estruturados ou não) que precisa de tratamento para ser interpretado.
Engenharia de Analytics e Storytelling de Dados
O que é engenharia de analytics?
Especialidade que, baseado nas necessidades de negócio e utilizando as melhores práticas de engenharia software, cria e evolui produtos de dados e Analytics no contexto de Data Driven.
Engenharia de Analytics e Storytelling de Dados
O que significa a sigla SOR?
Source of Record - Cópia fiel dos dados que estão no sistema origem.
Engenharia de Analytics e Storytelling de Dados
O que significa SoT
Source of Truth - É a camada que possuí as bases tratadas do sistema origem. Pronta para ser consumida pelo Engenheiro de Analytics para gerar a camada Espec.
Data Lake, Data Mesh e Datawarehouse
O que é um Data warehouse?
É um armazém de dados. Indicado para o armazenamento de dados internos, onde não existe muitos fluxos de informação externa. Os dados são estruturados, processados e tratados (SoT).
Data Lake, Data Mesh e Datawarehouse
O que é um Data Lake?
É um lago de dados. Indicado para o armazenamento empresas que possuí fluxo de informação com meio externo. Os dados são armazenados de maneira bruta e podem ser não estruturados (SoR)
Data Lake, Data Mesh e Datawarehouse
O que é o Data Mesh?