Tecnologias de Procesamiento 2 Flashcards

1
Q

Porque es Spark tan rapido?

A

La mayoria de sus tareas las realiza en memoria

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Por que surgio Spark?

A

Surgio como respuesta a la ineficiencia de Map reduce en tareas iterativas, debido a su escritura a disco

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

En que consiste Apache Spark?

A

En el spark Core

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Que es el Spark Core?

A

Motor de ejecucion distribuido y un conjunto de librerias o modulos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Cual es el punto de entrada a la API de Spark?

A

El SparkContext

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Que es un RDD?

A

La unidad fundamental de datos en Spark, coleccion distribuida e inmutable de objetos como una tabla en Hive

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Que es un Dags?

A

Aplica transformaciones y acciones sobre un RDD, siendo un grafo que crea Spark

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Que dispara la creaccion de un DAG?

A

Una accion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Se escribe a disco en los estados intermedios deun DAG?

A

No en map reduce si

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Que es una transformacion?

A

Se contruye un nuevo RDD a partir de uno creado previamente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Que es una accion?

A

Calcula un resultado basandose en un RDD existente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Ejemplo de transformaciones?

A

map, filter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Ejemplo de acciones?

A

count, take, collect, saveAsTextFile

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Como se pueden clasificar las transformaciones?

A

En narrow y en wide

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Que es una transformacion narrow?

A

La logica de procesamiento depende solo de los datos de la particion (No hay movimiento entre particiones)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Que es una transformaion wide?

A

La logica del procesamiento requiere que se mezclen datos de varias particiones

17
Q

Ejemplo de tranformaciones wide?

A

reduceByKey()

groupByKey()

18
Q

Que es un pair RDD?

A

Una tupla (key,value)

19
Q

Que funciones solo se pueden aplicar a un RDD de tipo (key,value)

A

Join, Sort, Group By

20
Q

Que es Confluent?

A

Una capa por encima de Kafka que permite abstraernos y hace el ecosistema user friendly

21
Q

Caracteristicas de Kafka

A

Distribuido, multicliente, persistente y real time

22
Q

Algunos inputs de Kafka

A

Adaptadores, logs, proxies

23
Q

Que es un topic en kafka?

A

Una cola especifica donde un producer publica mensajes.

24
Q

Que es un broker en kafka

A

Cada servidor de kafka

25
Que rol maneja zookeeper en kafka
Es el coordinador entre los broker y el consumer
26
Ventajas que permite el particionamiento de topics?
Escalabilidad horizontal (Los topics se particionan en el conjunto de tus brokers) Se puede lanzar varios hilos de un mismo consumer contra un topic.
27
Quien tiene que poner la logica para la ordenacion de mensajes en Kafka?
El consumidor
28
Se asigna una particion a un unico consumer?
Si para evitar duplicidad de datos.
29
De que se encarga el Broker?
Recibe los mensajes de los producers, les asigna un offset y almacena en disco.
30
Clases principales del API del Producer?
KafkaProducer, Producer Record
31
Que tengo que hacer cuando la escritura de mensajes en un topic es mas rapida que la lectura
Agrupo varios consumers en un Cosumer Group
32
Que es zookeper en kafka?
Interfaz de coordinacion entre los brokers de Kafka y los consumidores
33
Como se llama los nodos de zookeeper?
Znode
34
El tipo de almacenamiento de AVRO esta orientado a?
Filas
35
El tipo de almacenamiento de Parquet es?
Columnar
36
El tipo de almacenamiento de ORC?
Columnar
37
Recomendaciones de Compresion
AVRO con SNAPPY | PARQUET con SNAPPY