Tecnologias de Procesamiento 2 Flashcards
Porque es Spark tan rapido?
La mayoria de sus tareas las realiza en memoria
Por que surgio Spark?
Surgio como respuesta a la ineficiencia de Map reduce en tareas iterativas, debido a su escritura a disco
En que consiste Apache Spark?
En el spark Core
Que es el Spark Core?
Motor de ejecucion distribuido y un conjunto de librerias o modulos
Cual es el punto de entrada a la API de Spark?
El SparkContext
Que es un RDD?
La unidad fundamental de datos en Spark, coleccion distribuida e inmutable de objetos como una tabla en Hive
Que es un Dags?
Aplica transformaciones y acciones sobre un RDD, siendo un grafo que crea Spark
Que dispara la creaccion de un DAG?
Una accion
Se escribe a disco en los estados intermedios deun DAG?
No en map reduce si
Que es una transformacion?
Se contruye un nuevo RDD a partir de uno creado previamente
Que es una accion?
Calcula un resultado basandose en un RDD existente
Ejemplo de transformaciones?
map, filter
Ejemplo de acciones?
count, take, collect, saveAsTextFile
Como se pueden clasificar las transformaciones?
En narrow y en wide
Que es una transformacion narrow?
La logica de procesamiento depende solo de los datos de la particion (No hay movimiento entre particiones)
Que es una transformaion wide?
La logica del procesamiento requiere que se mezclen datos de varias particiones
Ejemplo de tranformaciones wide?
reduceByKey()
groupByKey()
Que es un pair RDD?
Una tupla (key,value)
Que funciones solo se pueden aplicar a un RDD de tipo (key,value)
Join, Sort, Group By
Que es Confluent?
Una capa por encima de Kafka que permite abstraernos y hace el ecosistema user friendly
Caracteristicas de Kafka
Distribuido, multicliente, persistente y real time
Algunos inputs de Kafka
Adaptadores, logs, proxies
Que es un topic en kafka?
Una cola especifica donde un producer publica mensajes.
Que es un broker en kafka
Cada servidor de kafka
Que rol maneja zookeeper en kafka
Es el coordinador entre los broker y el consumer
Ventajas que permite el particionamiento de topics?
Escalabilidad horizontal (Los topics se particionan en el conjunto de tus brokers) Se puede lanzar varios hilos de un mismo consumer contra un topic.
Quien tiene que poner la logica para la ordenacion de mensajes en Kafka?
El consumidor
Se asigna una particion a un unico consumer?
Si para evitar duplicidad de datos.
De que se encarga el Broker?
Recibe los mensajes de los producers, les asigna un offset y almacena en disco.
Clases principales del API del Producer?
KafkaProducer, Producer Record
Que tengo que hacer cuando la escritura de mensajes en un topic es mas rapida que la lectura
Agrupo varios consumers en un Cosumer Group
Que es zookeper en kafka?
Interfaz de coordinacion entre los brokers de Kafka y los consumidores
Como se llama los nodos de zookeeper?
Znode
El tipo de almacenamiento de AVRO esta orientado a?
Filas
El tipo de almacenamiento de Parquet es?
Columnar
El tipo de almacenamiento de ORC?
Columnar
Recomendaciones de Compresion
AVRO con SNAPPY
PARQUET con SNAPPY