Tecnologias de Procesamiento 2 Flashcards
Porque es Spark tan rapido?
La mayoria de sus tareas las realiza en memoria
Por que surgio Spark?
Surgio como respuesta a la ineficiencia de Map reduce en tareas iterativas, debido a su escritura a disco
En que consiste Apache Spark?
En el spark Core
Que es el Spark Core?
Motor de ejecucion distribuido y un conjunto de librerias o modulos
Cual es el punto de entrada a la API de Spark?
El SparkContext
Que es un RDD?
La unidad fundamental de datos en Spark, coleccion distribuida e inmutable de objetos como una tabla en Hive
Que es un Dags?
Aplica transformaciones y acciones sobre un RDD, siendo un grafo que crea Spark
Que dispara la creaccion de un DAG?
Una accion
Se escribe a disco en los estados intermedios deun DAG?
No en map reduce si
Que es una transformacion?
Se contruye un nuevo RDD a partir de uno creado previamente
Que es una accion?
Calcula un resultado basandose en un RDD existente
Ejemplo de transformaciones?
map, filter
Ejemplo de acciones?
count, take, collect, saveAsTextFile
Como se pueden clasificar las transformaciones?
En narrow y en wide
Que es una transformacion narrow?
La logica de procesamiento depende solo de los datos de la particion (No hay movimiento entre particiones)