Hadoop 20250112-1 Flashcards
¿Qué es Hadoop y cuál es su propósito principal?
Hadoop es un framework de software de código abierto diseñado para el almacenamiento y procesamiento distribuido de grandes conjuntos de datos utilizando clústeres de hardware común.
¿Cuáles son los componentes principales del ecosistema Hadoop?
Los componentes principales son HDFS (Hadoop Distributed File System), MapReduce, YARN (Yet Another Resource Negotiator), Hive, Pig, HBase, y Zookeeper.
¿Qué es HDFS y cómo funciona en Hadoop?
HDFS es el sistema de archivos distribuido de Hadoop que almacena datos en múltiples nodos, dividiéndolos en bloques y replicándolos para asegurar la tolerancia a fallos.
¿Qué es MapReduce en el ecosistema Hadoop?
MapReduce es un modelo de programación y procesamiento de datos que divide tareas en fases de mapeo y reducción, permitiendo el procesamiento paralelo de grandes volúmenes de datos.
¿Para qué se utiliza YARN en Hadoop?
YARN gestiona los recursos del clúster y coordina la ejecución de aplicaciones, permitiendo múltiples procesos de procesamiento de datos de manera eficiente.
¿Qué es Hive y cómo se integra con Hadoop?
Hive es una herramienta de data warehousing que permite consultar y analizar grandes conjuntos de datos almacenados en HDFS utilizando un lenguaje similar a SQL llamado HiveQL.
¿Qué es Pig en el ecosistema Hadoop?
Pig es una plataforma de alto nivel para crear programas MapReduce utilizando un lenguaje de scripts llamado Pig Latin, facilitando el procesamiento de datos complejos.
¿Qué es HBase y cuáles son sus principales características?
HBase es una base de datos NoSQL distribuida y escalable que funciona sobre HDFS, proporcionando almacenamiento en tiempo real y acceso aleatorio a grandes cantidades de datos.
¿Qué rol desempeña Zookeeper en Hadoop?
Zookeeper es un servicio centralizado para mantener información de configuración, nombrar, proporcionar sincronización distribuida y servicios de grupo para aplicaciones Hadoop.
¿Qué es Sqoop y para qué se utiliza en Hadoop?
Sqoop es una herramienta diseñada para transferir datos entre Hadoop y bases de datos relacionales de manera eficiente, facilitando la importación y exportación de datos.
¿Qué es Flume y cómo se integra con Hadoop?
Flume es una herramienta para la ingestión de grandes volúmenes de datos de registro en HDFS, facilitando la captura y transporte de datos en tiempo real.
¿Qué es Oozie y cuál es su función en el ecosistema Hadoop?
Oozie es un sistema de workflow que permite la programación y gestión de trabajos Hadoop, coordinando tareas como MapReduce, Pig, Hive y otras aplicaciones.
¿Cómo se diferencia Pig de Hive en Hadoop?
Pig está diseñado para procesamiento de datos mediante scripts más flexibles y programables usando Pig Latin, mientras que Hive está orientado a consultas SQL-like para análisis de datos estructurados.
¿Qué es el concepto de ‘data locality’ en Hadoop?
Data locality se refiere a la estrategia de mover las tareas de procesamiento de datos cerca de donde están almacenados los datos en HDFS, minimizando el movimiento de datos y mejorando el rendimiento.
¿Qué es un clúster de Hadoop?
Un clúster de Hadoop es un conjunto de nodos conectados que trabajan juntos para almacenar y procesar grandes volúmenes de datos utilizando los componentes del ecosistema Hadoop.