Hadoop 20250112-1 Flashcards by Xabier Ochotorena

¿Qué es Hadoop y cuál es su propósito principal?

Hadoop es un framework de software de código abierto diseñado para el almacenamiento y procesamiento distribuido de grandes conjuntos de datos utilizando clústeres de hardware común.

How well did you know this?

Not at all

Perfectly

¿Cuáles son los componentes principales del ecosistema Hadoop?

Los componentes principales son HDFS (Hadoop Distributed File System), MapReduce, YARN (Yet Another Resource Negotiator), Hive, Pig, HBase, y Zookeeper.

How well did you know this?

Not at all

Perfectly

¿Qué es HDFS y cómo funciona en Hadoop?

HDFS es el sistema de archivos distribuido de Hadoop que almacena datos en múltiples nodos, dividiéndolos en bloques y replicándolos para asegurar la tolerancia a fallos.

How well did you know this?

Not at all

Perfectly

¿Qué es MapReduce en el ecosistema Hadoop?

MapReduce es un modelo de programación y procesamiento de datos que divide tareas en fases de mapeo y reducción, permitiendo el procesamiento paralelo de grandes volúmenes de datos.

How well did you know this?

Not at all

Perfectly

¿Para qué se utiliza YARN en Hadoop?

YARN gestiona los recursos del clúster y coordina la ejecución de aplicaciones, permitiendo múltiples procesos de procesamiento de datos de manera eficiente.

How well did you know this?

Not at all

Perfectly

¿Qué es Hive y cómo se integra con Hadoop?

Hive es una herramienta de data warehousing que permite consultar y analizar grandes conjuntos de datos almacenados en HDFS utilizando un lenguaje similar a SQL llamado HiveQL.

How well did you know this?

Not at all

Perfectly

¿Qué es Pig en el ecosistema Hadoop?

Pig es una plataforma de alto nivel para crear programas MapReduce utilizando un lenguaje de scripts llamado Pig Latin, facilitando el procesamiento de datos complejos.

How well did you know this?

Not at all

Perfectly

¿Qué es HBase y cuáles son sus principales características?

HBase es una base de datos NoSQL distribuida y escalable que funciona sobre HDFS, proporcionando almacenamiento en tiempo real y acceso aleatorio a grandes cantidades de datos.

How well did you know this?

Not at all

Perfectly

¿Qué rol desempeña Zookeeper en Hadoop?

Zookeeper es un servicio centralizado para mantener información de configuración, nombrar, proporcionar sincronización distribuida y servicios de grupo para aplicaciones Hadoop.

How well did you know this?

Not at all

Perfectly

¿Qué es Sqoop y para qué se utiliza en Hadoop?

Sqoop es una herramienta diseñada para transferir datos entre Hadoop y bases de datos relacionales de manera eficiente, facilitando la importación y exportación de datos.

How well did you know this?

Not at all

Perfectly

¿Qué es Flume y cómo se integra con Hadoop?

Flume es una herramienta para la ingestión de grandes volúmenes de datos de registro en HDFS, facilitando la captura y transporte de datos en tiempo real.

How well did you know this?

Not at all

Perfectly

¿Qué es Oozie y cuál es su función en el ecosistema Hadoop?

Oozie es un sistema de workflow que permite la programación y gestión de trabajos Hadoop, coordinando tareas como MapReduce, Pig, Hive y otras aplicaciones.

How well did you know this?

Not at all

Perfectly

¿Cómo se diferencia Pig de Hive en Hadoop?

Pig está diseñado para procesamiento de datos mediante scripts más flexibles y programables usando Pig Latin, mientras que Hive está orientado a consultas SQL-like para análisis de datos estructurados.

How well did you know this?

Not at all

Perfectly

¿Qué es el concepto de ‘data locality’ en Hadoop?

Data locality se refiere a la estrategia de mover las tareas de procesamiento de datos cerca de donde están almacenados los datos en HDFS, minimizando el movimiento de datos y mejorando el rendimiento.

How well did you know this?

Not at all

Perfectly

¿Qué es un clúster de Hadoop?

Un clúster de Hadoop es un conjunto de nodos conectados que trabajan juntos para almacenar y procesar grandes volúmenes de datos utilizando los componentes del ecosistema Hadoop.

How well did you know this?

Not at all

Perfectly

¿Cómo asegura Hadoop la tolerancia a fallos?

Hadoop asegura la tolerancia a fallos mediante la replicación de datos en HDFS y la reejecución de tareas fallidas en nodos alternativos.

¿Qué es el Balanceador de Carga en YARN y cómo funciona?

El Balanceador de Carga en YARN distribuye los recursos del clúster de manera equitativa entre las aplicaciones, asegurando una utilización óptima y evitando la congestión.

¿Qué es la escalabilidad horizontal en el contexto de Hadoop?

La escalabilidad horizontal en Hadoop implica añadir más nodos al clúster para manejar mayores volúmenes de datos y aumentar la capacidad de procesamiento de manera eficiente.

¿Qué son los bloques de datos en HDFS y cuál es su tamaño predeterminado?

Los bloques de datos en HDFS son unidades de almacenamiento divididas para distribuir datos en el clúster, y su tamaño predeterminado es generalmente de 128 MB o 256 MB.

¿Qué es el NameNode en HDFS y cuál es su función?

El NameNode es el componente central de HDFS que gestiona el sistema de archivos, manteniendo la información sobre la ubicación de los bloques de datos y supervisando el estado del clúster.

¿Qué es el DataNode en HDFS y cuál es su función?

Los DataNodes son los nodos en HDFS que almacenan los bloques de datos y responden a las solicitudes de lectura y escritura de los clientes.

¿Qué es una réplica en HDFS y por qué es importante?

Una réplica es una copia de un bloque de datos en HDFS, y es importante para asegurar la disponibilidad y la tolerancia a fallos en caso de que un nodo falle.

¿Qué es el JobTracker en MapReduce y cuál es su rol?

El JobTracker es el componente que coordina los trabajos MapReduce, asignando tareas a los TaskTrackers y gestionando el seguimiento y la recuperación de trabajos fallidos.

¿Qué es el TaskTracker en MapReduce y cuál es su rol?

El TaskTracker es el componente que ejecuta las tareas Map y Reduce en los nodos del clúster, reportando el progreso y el estado de las tareas al JobTracker.

¿Qué es Hadoop Common y qué incluye?

Hadoop Common es el conjunto de utilidades, bibliotecas y herramientas necesarias para soportar los otros módulos de Hadoop, incluyendo APIs y scripts necesarios para ejecutar Hadoop.

¿Qué es la arquitectura de Hadoop y cuáles son sus capas principales?

La arquitectura de Hadoop se basa en una capa de almacenamiento distribuido (HDFS) y una capa de procesamiento distribuido (MapReduce), complementadas por otras capas de servicios y herramientas como YARN, Hive, Pig y HBase.

¿Cómo se implementa la seguridad en Hadoop?

La seguridad en Hadoop se implementa mediante autenticación Kerberos, autorización basada en roles, cifrado de datos en tránsito y en reposo, y controles de acceso a nivel de archivo y aplicación.

¿Qué es el ecosistema Hadoop y por qué es tan amplio?

El ecosistema Hadoop es amplio porque incluye una variedad de herramientas y tecnologías complementarias diseñadas para diferentes aspectos del procesamiento y análisis de big data, permitiendo soluciones integrales y flexibles.

¿Qué es HiveQL y cómo se relaciona con Hive?

HiveQL es un lenguaje de consulta similar a SQL utilizado en Hive para realizar consultas y análisis de datos almacenados en HDFS, facilitando a los usuarios trabajar con datos estructurados sin necesidad de programar en MapReduce.

¿Qué es el procesamiento en tiempo real en el ecosistema Hadoop y qué herramientas lo soportan?

El procesamiento en tiempo real en Hadoop se refiere al análisis y procesamiento de datos a medida que son generados. Herramientas como Apache Storm, Apache Flink y Apache Spark soportan el procesamiento en tiempo real dentro del ecosistema Hadoop.

¿Qué es Apache Spark y cómo se integra con Hadoop?

Apache Spark es un motor de procesamiento de datos de alto rendimiento que se puede integrar con Hadoop para ofrecer procesamiento en memoria, lo que acelera tareas como análisis de datos, aprendizaje automático y procesamiento en tiempo real.

¿Qué es el procesamiento batch y cómo se maneja en Hadoop?

El procesamiento batch es el procesamiento de grandes volúmenes de datos en lotes, manejado por MapReduce en Hadoop, permitiendo la ejecución de tareas complejas de análisis y transformación de datos de manera eficiente.

¿Qué es Apache HBase y para qué se utiliza?

Apache HBase es una base de datos NoSQL distribuida que se ejecuta sobre HDFS, utilizada para almacenar grandes volúmenes de datos no estructurados y proporcionar acceso aleatorio y en tiempo real a estos datos.

¿Cómo facilita Hadoop el almacenamiento y procesamiento de big data?

Hadoop facilita el almacenamiento mediante HDFS, que distribuye y replica datos en múltiples nodos, y el procesamiento mediante MapReduce y otras herramientas, que permiten el análisis distribuido y paralelo de grandes conjuntos de datos.