Tema 2: Aproximación a Big Data Flashcards

Question

¿Qué es la replicación?

Answer 1

Consiste en vigilar en que los paquetes de datos se encuentren almacenados en varias máquinas (duplicados) en todo momento para que haya tolerancia a fallos.

Answer 2

Que todas las copias de un paquete sean iguales.

Answer 3

- Sincronización parcia: actualizaciones periódicas o sin prioridad. Asume la existencia de inconsistencias puntuales. La eficiencia prima sobre la exactitud. - Sincronización total: permite mantener las propiedades ACID. Es un servicio muy poco ágil y el coste de estos sistemas es muy elevado y poco rentable.

Answer 4

- C: Consistencia - A: Disponibilidad - P: Tolerancia a fallos

Answer 5

El teorema postula que solo se pueden alcanzar 2 de las 3 propiedades en un sistema. - Cassandra prescinde de la consistencia, MongoDB de la disponibilidad. - En sistema Big Data la tolerancia a fallos es sagrada.

Answer 6

La persistencia es la acción de preservar la información de un objeto de forma permanente (guardado), pero a su vez también se refiere a poder recuperar la información del mismo (leerlo) para que pueda ser nuevamente utilizado.

Answer 7

• Escalable: para escribir datos en múltiples almacenes simultáneamente obviando características físicas, y producir después recuperación de información eficiente. • Modelo de datos y consultas: soltar el lastre de la estructura (y parcialmente, del diseño) con marcos de definición especiales para almacenar y acceder a los datos. • Diseño de la persistencia: para aumentar la eficiencia, utiliza motores “in memory” (la BD es copiada total o parcialmente en memoria; mecanismos especiales de actualización). • Consistencia eventual: sustituye ACID por BASE (Basically Available, Soft state & Eventually consistent).

Answer 8

Orientados a clave-valor: almacén básico (fácilmente fragmentable) • Orientados a columna: eficiente en operaciones analíticas • Documentales: facilitan la compartición de información • en Grafo: estructura en red • NewSQL: se refiere a SGBD relacionales pero con capacidades mayores, y que ofrecen algunas ventajas de los NoSQL. • La tecnología relacional mejorada (NewSQL) puede ser considerada como una opción válida para la implantación de sistemas BigData.

Answer 9

- Cada elemento tiene una clave identificadora y un valor en un dominio (dominio sin diseño fijo). • Ventajas: • almacenamiento de gran flexibilidad e independencia. • alta escalabilidad • Desventajas: eficiencia según qué proceso

Answer 10

- Cada columna se almacena por separado. Ej Cassandra - Si datos se agrupan en cluster, se ahorra espacio. - Cálculo de agregaciones es eficiente (no se recuperan columnas que no se necesiten).

Answer 11

- Orientada a almacenar documentos (JSON, BSON, XML, ...). Ej MongoDB - Proporciona máxima flexibilidad. Es intuitivo y de fácil manejo y además es escalable. - Implica mayores volúmenes de datos. Perder estructura complica la consulta.

Answer 12

- Tan flexible como los documentos pero con relaciones entre nodos. - Las relaciones pueden ser muy numerosas y tienen semántica. - Puede dotarse de estructura y prescindir de esta en las consultas.

Answer 13

- Relacional (SQL) - No-SQL: orientado a documento, clave-valor, familia de columnas, grafos. - NewSQL: en memoria