A Dinamica Operacional Do Hadoop Flashcards
Quais são os três principais componentes do Hadoop Core?
- HDFS
- MapReduce
- YARN
HDFS é o sistema de armazenamento distribuído, MapReduce é o modelo de programação para processamento paralelo, e YARN é o gerenciador de recursos do cluster Hadoop.
Defina um job de MapReduce.
Uma unidade de trabalho submetida pelo client composta por dados de entrada, um programa de MapReduce e informações de configuração.
O job é executado dividindo-o em tarefas de mapeamento e redução.
O que ocorre se uma tarefa falha durante a execução de um job no Hadoop?
Ela é automaticamente reagendada para executar em um recurso distinto.
Isso garante a continuidade do processamento no cluster.
Como o Hadoop otimiza a execução de tarefas de mapeamento?
Atribui tarefas de mapeamento no mesmo recurso computacional onde os dados residem no HDFS.
Isso é conhecido como data locality optimization.
Quais são os três cenários de alocação de tarefas de mapeamento no Hadoop?
- Data-local: tarefa de mapeamento no mesmo nó onde o bloco de dados reside
- Rack-local: tarefa em um nó diferente, mas no mesmo rack
- Off-rack: tarefa em um nó em um rack diferente
Cada cenário impacta na latência da transferência de dados.
Qual é a importância do tamanho do split em relação ao tamanho do bloco no HDFS?
Um bom tamanho de split tende a ser igual ao tamanho do bloco (128MB ou 256MB) para otimizar o processamento paralelo.
Isso garante um melhor aproveitamento dos recursos do cluster.
As saídas das tarefas de mapeamento são armazenadas em qual local?
Em disco, e não no HDFS.
Isso é porque os resultados intermediários são descartados após a conclusão do job.
Como as tarefas de redução se diferenciam das tarefas de mapeamento?
As tarefas de redução não possuem a vantagem da localidade dos dados, pois lidam com dados intermediários de diferentes nós.
Isso requer transferência de dados pela rede para o nó onde a função de redução será executada.
Em que situações um job de MapReduce não necessita de tarefas de redução?
Quando a aplicação não precisa de etapas relacionadas à agregação de dados.
Nesse caso, o job é resolvido apenas com tarefas de mapeamento.
O que acontece com os dados intermediários das fases de mapeamento?
Eles precisam ser transferidos através da rede para o nó onde a função de redução será executada.
Isso é necessário para combinar as saídas das funções de mapeamento.
Quais são os fluxos de MapReduce possíveis?
- Apenas tarefas de Map
- Múltiplas tarefas de Map e uma única tarefa de Reduce
- Múltiplas tarefas de Map e múltiplas tarefas de Reduce
Esses fluxos ilustram diferentes cenários de processamento no Hadoop.