7. Big Data - Hadoop Ecosystem Flashcards
DataNode function
Store data
NameNode function
- Store metadata 2. Know what DataNode each block is located
Qual era o volume de dados no mundo em 2013
4.4 x 10^21
Qual é o problema dos discos para processar grande volume de dados?
A velocidade de leitura de um disco de 1TB é de no máximo 100 MB/s
O que é Hive?
SQL que roda com dados no HDFS
What is Spark?
Processamento interativo na memória
Solr
Search de dados no HDFS
Qual é o primeiro passo do cientista de dados?
Definir bem a questão, o que busca responder com os dados.
Fases do MapReduce
- Map - filtra o que precisa 2. Reduce - junta os dados em um resumo
MapReduce Jobs (components)
Input Data + MapReduce Program + Config Info
O que são distributed filesystems?
Filesystems that manage the storage across a network of machines are called distributed filesystems.
Quais são os componentes em mente no desenho do HDFS?
- Very large files
- Streaming data access
- Commodity hardware
Em quais situações o HDFS não se encaixa bem?
- Low-latency data access 2. Lots of small files 3. Multiple writers, arbitrary file modifications
Qual é o tamanho padrão do “block” do HDFS?
128 MB
Para quantos servidores tipicamente é replicado um “block” de dados?
Três servidores