[TI] Big Data Flashcards
Tópico: Data lake
O que é um datalake?
É um repositório centralizado de todos os dados que necessitam ser trabalhados.
Tópico: Data lake
Quais as funções de um datalake?
Ingerir, armazenar e processar dados.
Tópico: Tipos de dados
Quais são os tipos de dados que existem?
Estruturados, não estruturados, semiestruturados.
Tópico: Tipos de dados
O que são dados estruturados?
São dados que necessitam de uma estrutura prévia.
Ex: Banco de dados.
Tópico: Tipos de dados
O que são dados não estruturados
São dados que não possuem uma restrição de estrutura.
Ex: Texto, vídeo, áudio.
Tópico: Tipos de dados
O que são dados semiestruturados?
São dados que possuem uma estrutura simples mas flexível.
Ex: HTML, JSON.
Tópico: Tipos de dados
O que são dados transacionais?
Dados transacionais são informações capturadas de transações. Eles podem registrar a hora, local, preço, forma de pagamento, descontos, e outras quantidades e qualidades associadas à transação.
Tópico: V’s do Big Data
Quais são os V’s do Big Data e o que cada um deles representa?
3 V’s
Volume, velocidade e variedade.
5 V’s
Veracidade e valor.
7 V’s
Viralidade e viscosidade.
Tópico: NoSQL
Quais as principais características de um banco NoSQL?
Esquemas dinâmicos, manipulação através de APIs orientadas a objeto, escalabilidade e armazenamento de vários tipos de dados diferentes.
Tópico: Pipeline
O que é um pipeline?
É a série de consecutivas automações dos passos de processamento de dados crus coletados de várias fontes em direção a um destino.
Tópico: Pipeline
Quais as principais vantagens de um pipeline?
Velocidade, confiabilidade e redução de latência.
Tópico: Pipeline
Quais são as operações mais comuns em pipelines?
Extração, junção, estandardização (padronização), validação, correção, carregamento dos dados.
Tópico: Pipeline
Quais são os tipos de pipeline existentes?
Lotes (batch), tempo real (streaming), Cloud native e Open source.
Tópico: Pipeline
Qual a diferença entre ETL e ELT?
No ETL o processo de transformação dos dados acontece na staging, uma área intermediária localizada na própria fonte dos dados, já em ELT a transformação acontece no destino, idealmente um datalake.
Com a transformação acontecendo no datalake, isso exclui a necessidade de um profissional altamente especializado (engenheiro de dados), possibilitando que a transformação seja feita pelos analistas de negócios e analistas de dados.
Tópico: Pipeline
Quais as características de um ETL?
Utiliza área de transição (staging), processo caro, consome dados já processados, necessita de um engenheiro de dados, usado em datawarehouses.
Tópico: Pipeline
Quais as características de um ELT?
É veloz pois possui um rápido carregamento, transformação de dados é feita pelo analista, usado em big data.
Tópico: NoSQL
O que são esquemas dinâmicos?
A estrutura do schema pode ser alterada a qualquer momento, não necessitando de uma estrutura pré-definida.
Tópico: NoSQL
O que são APIs orientadas a objeto?
São APIs que vem integradas ao banco para que são usadas para facilitar o CRUD.
Tópico: NoSQL
Porque um banco NoSQL é escalável?
Como possuem um sistema de armazenamento distribuído e esquemas dinâmicos a inserção de novas bases se torna muito mais fácil.
Tópico: NoSQL
Quais são os modelos de bancos NoSQL?
Modelo baseado em grafos, modelo chave-valor, modelo orientado a colunas, modelo orientado a documentos.
Tópico: NoSQL
Quais as características de um banco NoSQL baseado em grafos?
As informações estão representadas por meio de
grafos e nós. É extremamente útil quando se os dados estão intimamente correlacionados, pois as a correlação não precisa existir nas queries, elas já estão representadas no banco.
Tópico: NoSQL
Quais são os exemplos de bancos orientados a grafos?
Neo4J e Titan.
Tópico: NoSQL
Quais as características de um banco NoSQL baseado em chave-valor?
Esses bancos possuem um par de chave-valor e todos os dados podem ser armazenados dessa maneira. Tanto a chave quanto o valor podem ser qualquer coisa, desde objetos simples até a composição de objetos complexos.
Tópico: NoSQL
Quais os exemplos de banco de dados baseados em chave-valor?
Amazon Dynamo DB, Cassandra e Oracle.
Tópico: NoSQL
Quais as características de um banco NoSQL orientado a colunas?
É um banco aonde os dados são serializados na forma de colunas em vez de linhas, desse jeito as queries são muito mais rápidas pois não precisam varrer toda a base para verificar uma condição específica.
Tópico: NoSQL
Quais exemplos de bancos orientados a colunas?
Apache Hbase e Google Big Table, *Cassandra.
Tópico: NoSQL
Quais as características de um banco NoSQL orientado a documentos?
É um banco que possui registros que armazenam informações de um objeto e seus metadados. É um banco distribuído, possui esquema flexível, as queries podem ser realizadas via API ou query language.
Tópico: NoSQL
Quais exemplos de bancos orientados a documentos?
MongoDB e CouchDB.