Apache Hadoop Flashcards
O que faz o Apache Hadoop?
É um framework open source utilizado para armazenar, processar e analisar grande conjunto
de dados. O ecossistema Hadoop provê um ambiente de computação distribuída, escalável e tolerante
a falhas. Ele é composto por diversos componentes que trabalham juntos para permitir o
armazenamento, processamento e análise de dados em larga escala.
Explique cada forma de execução hadoop:
Modo Local (Standalone)
Modo Pseudo-Distribuído
Modo Distribuído Totalmente
As formas mais comuns incluem:
Modo Local (Standalone), onde o
Hadoop é executado em uma única máquina Java sem usar o HDFS, ideal para depuração;
Modo Pseudo-Distribuído, no qual cada componente do Hadoop é executado em uma única máquina,
simulando um cluster distribuído; e o
Modo Distribuído Totalmente, a forma mais robusta, onde o
Hadoop é executado em um cluster real de máquinas, aproveitando a distribuição de dados e
processamento para operações em larga escala.
A escolha do modo de execução depende das
necessidades específicas do projeto, do volume de dados a serem processados e da infraestrutura
disponível.
O que é HDFS?
O HDFS é um componente central do ecossistema Hadoop, projetado para armazenar grandes
volumes de dados de forma distribuída e confiável.
Como funciona o processamento do componente MapReduce?
( Map, Shuffle e Reduce)
Map:
Nesta fase inicial, o grande conjunto de dados de entrada é dividido em fragmentos menores.
Funções de mapeamento são aplicadas a cada fragmento, processando os dados e produzindo
pares chave-valor como saída.
Exemplo de Saída: (Olá, 1), (Mundo, 1), (Olá, 1)
- Shuffle:
Depois do mapeamento, ocorre a fase de Shuffle. Aqui, os pares chave-valor são redistribuídos
pelos Reducers de forma que todos os valores associados a uma mesma chave estejam juntos,
preparando-os para a fase de redução.
Exemplo de Agrupamento: (Olá, [1, 1]), (Mundo, [1]) - Reduce:
Na fase final, os Reducers processam cada grupo de pares chave-valor. As funções de redução
são aplicadas para realizar operações como somas, médias, etc., e produzir o resultado final.
Exemplo de Saída: (Olá, 2), (Mundo, 1)
Aspectos técnicos do HDFS:
Arquitetura Master/Slave NameNode(Master), o que faz?
NameNode (Master): Gerencia o namespace do sistema de arquivos, controlando o acesso
aos arquivos e diretórios. O NameNode armazena metadados, como a localização dos blocos
de dados nos DataNodes, mas não armazena dados reais.
Aspectos técnicos do HDFS:
Arquitetura Master/Slave DataNodes (Slaves), o que faz?
DataNodes (Slaves): Responsáveis por armazenar os dados reais em blocos. Os DataNodes
gerenciam o armazenamento e a recuperação dos blocos de dados conforme as instruções do
NameNode.