2. Big Data E Data Warehouse Flashcards
Big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para lidar com dados em volume, variedade e velocidade significativos.
Certo ou errado?
Certo.
Entre dados estruturados, semi-estruturados e não estruturados, quais normalmente ocupam menos espaço de armazenamento?
Estruturados - pois dado estruturado em padrão, em tabela, é a menor parte da big data
Arquivos de áudio, fotos e PDFs são que tipos de dados?
Não estruturados.
É possível converter dados não estruturados para estruturados?
Sim, embora alguns dados possam não aceitar a conversão.
Data warehouse é considerado um banco de dados convencional?
Armazena dados estruturados, semiestruturados e até não estruturados? Tem preferência por algum tipo de dado?
Sim, é considerado um banco de dados convencional
E sim, armazena dados estruturados, semiestruturados e não estruturados.
Mas preferencialmente armazena dados estruturados
Num data warehouse, os esquemas de armazenamento de dados são definidos antes, durante ou depois da coleta e armazenamento de dados?
Antes.
Num data warehouse, o que vem antes: o armazenamento de dados ou o tratamento de dados?
O tratamento.
Os dados são antes tratados para então serem armazenados.
Qual é mais barato, um data warehouse ou um data lake?
Data lake, pois o data warehouse trata os dados antes de armazená-los, e isso é mais caro.
O que faz o processo de data cleansing num data warehouse?
É o processo que detecta, valida e corrige erros dos dados. É aplicado normalmente a dados corrompidos ou desnecessários.
O que é o data mart? Quais as vantagens?
São subdivisões da data warehouse. Armazenam dados específicos de cada setor (da empresa, por exemplo)
Dentre as vantagens: os dados ficam mais direcionados, auxiliando em tomadas de decisão (melhores e mais rápidas)
O que é OLAP?
OnLine Analytical Processing
É o processo analítico em tempo real.
Quem normalmente é o usuário final do data warehouse? E do data lake?
Data warehouse = usuário operacional
Data lake = cientista de dados
Quais são os 5 V da big data?
- volume
- velocidade
- veracidade
- valor
- variabilidade (ou complexidade)
Big data não se refere somente aos dados tecnologias atuais, mas os dados que ainda virão?
Sim.
Qual premissa da big data se relaciona com o combate à fake news?
A única preocupação é fake news?
Veracidade.
Não, a veracidade também atua no combate a dados desatualizados ou incompletos.
Business intelligence preferencialmente trabalha com data warehouse ou data lakes?
Data warehouse.
Flashcard para visualizar o print do esquema de business intelligence no álbum de fotos
Colocar 3 no feedback
Em qual etapa do ciclo de business intelligence se dá o ETL?
O extract, transform and load se dá na etapa (2) de PROCESSAMENTO dos dados, antes de ir para o data warehouse.
A análise OLAP e o uso de ferramentas de data mining ocorrem em que etapa do ciclo de business intelligence?
Na última (de análise!)
Ferramentas de análise de dados busca novos dados? Aceita novos dados?
Não busca dados, ela simplesmente trabalha com os dados já existentes. Mas ela aceita novos dados, ela só não vai atrás deles, focando-se em trabalhar com o que elas já têm e com o que é entregue a elas.
Qual a diferença entre análise:
-descritiva,
-diagnóstica,
-preditiva e
-prescritiva?
Descritiva = o que aconteceu
Diagnóstica = por que aconteceu
Preditiva = o que pode acontecer
Prescritiva = o que fazer
Entre as análises descritiva, prescritiva, preditiva e diagnóstica, qual tem o maior valor e a maior complexidade?
A prescritiva.
Entre as análises descritiva, diagnóstica, prescritiva e preditiva, qual delas possui mais e qual possui menos interferência humana?
Descritiva = maior interferência humana
Prescritiva = menos interferência humana
Para que servem as arquiteturas kappa e lambda?
Para realizar processamento de grandes volumes de dados
A arquitetura lambda vem para solucionar qual problema? Como faz isso?
O problema da latência de processos com dados em tempo real e que exigem MapReduce
Faz isso dividindo os dados em duas camadas:
Camada quente = dados em tempo real
Camada fria = dados que já estão lá.
O que a arquitetura kappa faz de diferente da lambda? Ela é mais simples ou mais complexa?
A kappa unifica o processamento em tempo real e em lotes em uma única camada.
Portanto, é mais simples.
Quais são os três componentes essenciais de uma arquitetura em batch (Hadoop)?
Armazenamento (HDFS), agendador (YARN) e processamento (MapReduce)
O HDFS opera no conceito de WORM. O que isso significa?
WO - white once, RM - read many
Arquivo é gravado uma vez, mas pode ser lido várias vezes.
Arquivos armazenados no HDFS podem ser alterados ou excluídos depois que são gravados?
Não. Pelo WORM, é write once = gravou, não altera mais.
Qual projeto de Hadoop é uma camada de data warehouse? Que linguagem utiliza?
Hive.
Usa a HQL (Hive SQL ou Hive Query language), similar a SQL.
Quais são as quatro habilidades de um BI?
- Memória organizacional
- Integração de informações
- Criação de conhecimento (insight)
- Apresentação
Data warehouse é orientado por assunto, a produto ou a departamento?
Por assunto
Data warehouse é focado em aspectos operacionais?
Não.
Ele tem dados extraídos de sites de natureza operacional
Mas é focado em aspectos estratégicos e táticos
No âmbito dos data warehouses, que estrutura representa um armazenamento intermediário que facilita a integração de dados de ambiente operativo antes de sua atualização no data warehouse?
ODS (Operational data store)
Quais são as cinco etapas do processo ETL?
- Seleção
- Extração
- Transformação
- Integração (uniformização)
- Load (carga)
Quais são os componentes principais de um processo de data warehousing?
- Fontes de dados
- Extração de dados (ETL)
- Metadados
- Ferramentas de middleware
Qual a diferença entre a abordagem de Inmon e Kimball sobre a construção de um data warehouse?
Inmon = construir o DW e depois dividi-lo em data marts (top-down, mãos caro, orientado a dados pois garante metadados padronizados)
Kimball = construir vários data marts e depois imtegra-los ao data warehouse (bottom-up, orientado a negócios, mais barato mas nãogarante padronização de metadados)
Qual a diferença entre a utilidade de bancos de dados relacionais para banco de dados multidimensionais? Quais deles respondem a consultas em um Data Warehouse?
Relacionais = mais úteis para representar transações
Multidimensionais = mais úteis para extrair dos dados as informações de BI = SÃO ESTES QUE RESPONDEM ÀS CONSULTAS EM UM DATA WAREHOUSE