A Dinamica Operacional Do Hadoop Flashcards

1
Q

Quais são os três principais componentes do Hadoop Core?

A
  • HDFS
  • MapReduce
  • YARN

HDFS é o sistema de armazenamento distribuído, MapReduce é o modelo de programação para processamento paralelo, e YARN é o gerenciador de recursos do cluster Hadoop.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Defina um job de MapReduce.

A

Uma unidade de trabalho submetida pelo client composta por dados de entrada, um programa de MapReduce e informações de configuração.

O job é executado dividindo-o em tarefas de mapeamento e redução.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O que ocorre se uma tarefa falha durante a execução de um job no Hadoop?

A

Ela é automaticamente reagendada para executar em um recurso distinto.

Isso garante a continuidade do processamento no cluster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Como o Hadoop otimiza a execução de tarefas de mapeamento?

A

Atribui tarefas de mapeamento no mesmo recurso computacional onde os dados residem no HDFS.

Isso é conhecido como data locality optimization.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quais são os três cenários de alocação de tarefas de mapeamento no Hadoop?

A
  • Data-local: tarefa de mapeamento no mesmo nó onde o bloco de dados reside
  • Rack-local: tarefa em um nó diferente, mas no mesmo rack
  • Off-rack: tarefa em um nó em um rack diferente

Cada cenário impacta na latência da transferência de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qual é a importância do tamanho do split em relação ao tamanho do bloco no HDFS?

A

Um bom tamanho de split tende a ser igual ao tamanho do bloco (128MB ou 256MB) para otimizar o processamento paralelo.

Isso garante um melhor aproveitamento dos recursos do cluster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

As saídas das tarefas de mapeamento são armazenadas em qual local?

A

Em disco, e não no HDFS.

Isso é porque os resultados intermediários são descartados após a conclusão do job.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Como as tarefas de redução se diferenciam das tarefas de mapeamento?

A

As tarefas de redução não possuem a vantagem da localidade dos dados, pois lidam com dados intermediários de diferentes nós.

Isso requer transferência de dados pela rede para o nó onde a função de redução será executada.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Em que situações um job de MapReduce não necessita de tarefas de redução?

A

Quando a aplicação não precisa de etapas relacionadas à agregação de dados.

Nesse caso, o job é resolvido apenas com tarefas de mapeamento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que acontece com os dados intermediários das fases de mapeamento?

A

Eles precisam ser transferidos através da rede para o nó onde a função de redução será executada.

Isso é necessário para combinar as saídas das funções de mapeamento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quais são os fluxos de MapReduce possíveis?

A
  • Apenas tarefas de Map
  • Múltiplas tarefas de Map e uma única tarefa de Reduce
  • Múltiplas tarefas de Map e múltiplas tarefas de Reduce

Esses fluxos ilustram diferentes cenários de processamento no Hadoop.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly