Big Data Flashcards
Hadoop HDFS
Hadoop Distributed File System -> Sistema de ficheros distribuidos
MODULO PRINCIPAL
Hadoop YARN
Marco de trabajo para planificación y gestión de recursos de clúster
MODULO PRINCIPAL
Hadoop Common
Utilidades comunes
MODULO PRINCIPAL
Apache PIG
Plataforma de análisis de datos
Apache Hive
sistema de almacenamiento de datos que proporciona acceso a los archivos almacenados en distintas fuentes, herramientas ETL, etc.
Apache Zookeeper
Sistema para coordinación de diferentes servicios en aplicaciones distribuidas
Apache Kafka
Sistema de mensajería distribuido de alto rendimiento.
Apache Storm
Framework para el procesamiento de flujos distribuidos, transformando Hadoop en un sistema de tiempo real
Apache Spark
Framework que proporciona una interfaz para la programación de clústeres completos con paralelismo de datos y tolerancia a fallos.
JobTracker
Servidor maestro en el paradigma Map/Reduce
TaskTracker
Servidor esclavo en el paradigma MapReduce
Flume
Tecnología orientada a la recopilación de datos desde su origen
Sqoop
Tecnología orientada a la recopilación de datos desde su origen
Cassandra
Tecnología para guardar y gestionar grandes volúmenes de datos
MongoDB
sistema de BBDD noSQL orientado a documentos