Hadoop 20250112-1 Flashcards
¿Qué es Hadoop y cuál es su propósito principal?
Hadoop es un framework de software de código abierto diseñado para el almacenamiento y procesamiento distribuido de grandes conjuntos de datos utilizando clústeres de hardware común.
¿Cuáles son los componentes principales del ecosistema Hadoop?
Los componentes principales son HDFS (Hadoop Distributed File System), MapReduce, YARN (Yet Another Resource Negotiator), Hive, Pig, HBase, y Zookeeper.
¿Qué es HDFS y cómo funciona en Hadoop?
HDFS es el sistema de archivos distribuido de Hadoop que almacena datos en múltiples nodos, dividiéndolos en bloques y replicándolos para asegurar la tolerancia a fallos.
¿Qué es MapReduce en el ecosistema Hadoop?
MapReduce es un modelo de programación y procesamiento de datos que divide tareas en fases de mapeo y reducción, permitiendo el procesamiento paralelo de grandes volúmenes de datos.
¿Para qué se utiliza YARN en Hadoop?
YARN gestiona los recursos del clúster y coordina la ejecución de aplicaciones, permitiendo múltiples procesos de procesamiento de datos de manera eficiente.
¿Qué es Hive y cómo se integra con Hadoop?
Hive es una herramienta de data warehousing que permite consultar y analizar grandes conjuntos de datos almacenados en HDFS utilizando un lenguaje similar a SQL llamado HiveQL.
¿Qué es Pig en el ecosistema Hadoop?
Pig es una plataforma de alto nivel para crear programas MapReduce utilizando un lenguaje de scripts llamado Pig Latin, facilitando el procesamiento de datos complejos.
¿Qué es HBase y cuáles son sus principales características?
HBase es una base de datos NoSQL distribuida y escalable que funciona sobre HDFS, proporcionando almacenamiento en tiempo real y acceso aleatorio a grandes cantidades de datos.
¿Qué rol desempeña Zookeeper en Hadoop?
Zookeeper es un servicio centralizado para mantener información de configuración, nombrar, proporcionar sincronización distribuida y servicios de grupo para aplicaciones Hadoop.
¿Qué es Sqoop y para qué se utiliza en Hadoop?
Sqoop es una herramienta diseñada para transferir datos entre Hadoop y bases de datos relacionales de manera eficiente, facilitando la importación y exportación de datos.
¿Qué es Flume y cómo se integra con Hadoop?
Flume es una herramienta para la ingestión de grandes volúmenes de datos de registro en HDFS, facilitando la captura y transporte de datos en tiempo real.
¿Qué es Oozie y cuál es su función en el ecosistema Hadoop?
Oozie es un sistema de workflow que permite la programación y gestión de trabajos Hadoop, coordinando tareas como MapReduce, Pig, Hive y otras aplicaciones.
¿Cómo se diferencia Pig de Hive en Hadoop?
Pig está diseñado para procesamiento de datos mediante scripts más flexibles y programables usando Pig Latin, mientras que Hive está orientado a consultas SQL-like para análisis de datos estructurados.
¿Qué es el concepto de ‘data locality’ en Hadoop?
Data locality se refiere a la estrategia de mover las tareas de procesamiento de datos cerca de donde están almacenados los datos en HDFS, minimizando el movimiento de datos y mejorando el rendimiento.
¿Qué es un clúster de Hadoop?
Un clúster de Hadoop es un conjunto de nodos conectados que trabajan juntos para almacenar y procesar grandes volúmenes de datos utilizando los componentes del ecosistema Hadoop.
¿Cómo asegura Hadoop la tolerancia a fallos?
Hadoop asegura la tolerancia a fallos mediante la replicación de datos en HDFS y la reejecución de tareas fallidas en nodos alternativos.
¿Qué es el Balanceador de Carga en YARN y cómo funciona?
El Balanceador de Carga en YARN distribuye los recursos del clúster de manera equitativa entre las aplicaciones, asegurando una utilización óptima y evitando la congestión.
¿Qué es la escalabilidad horizontal en el contexto de Hadoop?
La escalabilidad horizontal en Hadoop implica añadir más nodos al clúster para manejar mayores volúmenes de datos y aumentar la capacidad de procesamiento de manera eficiente.
¿Qué son los bloques de datos en HDFS y cuál es su tamaño predeterminado?
Los bloques de datos en HDFS son unidades de almacenamiento divididas para distribuir datos en el clúster, y su tamaño predeterminado es generalmente de 128 MB o 256 MB.
¿Qué es el NameNode en HDFS y cuál es su función?
El NameNode es el componente central de HDFS que gestiona el sistema de archivos, manteniendo la información sobre la ubicación de los bloques de datos y supervisando el estado del clúster.
¿Qué es el DataNode en HDFS y cuál es su función?
Los DataNodes son los nodos en HDFS que almacenan los bloques de datos y responden a las solicitudes de lectura y escritura de los clientes.
¿Qué es una réplica en HDFS y por qué es importante?
Una réplica es una copia de un bloque de datos en HDFS, y es importante para asegurar la disponibilidad y la tolerancia a fallos en caso de que un nodo falle.
¿Qué es el JobTracker en MapReduce y cuál es su rol?
El JobTracker es el componente que coordina los trabajos MapReduce, asignando tareas a los TaskTrackers y gestionando el seguimiento y la recuperación de trabajos fallidos.
¿Qué es el TaskTracker en MapReduce y cuál es su rol?
El TaskTracker es el componente que ejecuta las tareas Map y Reduce en los nodos del clúster, reportando el progreso y el estado de las tareas al JobTracker.