2 - Problemas de escalabilidad en Big Data Flashcards

1
Q
  1. ¿Cuáles son los principales problemas de escalabilidad en sistemas de Big Data?
A

Manejo de grandes volúmenes de datos: La cantidad de datos puede crecer exponencialmente, y el sistema debe ser capaz de procesarlos sin degradación significativa del rendimiento.

Procesamiento en tiempo real: La latencia en la lectura y actualización de datos es un desafío, especialmente cuando se requiere procesamiento en tiempo real.

Escalabilidad horizontal: Distribuir los datos y el procesamiento en múltiples servidores puede ser complicado, especialmente cuando hay dependencias fuertes entre los datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q
  1. ¿Qué es el sharding y cómo afecta a los sistemas de Big Data?
A

Sharding es una técnica para distribuir datos en varias bases de datos físicas o servidores, permitiendo que las operaciones se realicen en paralelo.

Esto ayuda a mejorar la escalabilidad horizontal y manejar grandes volúmenes de datos.

Sin embargo, el sharding introduce complejidad en la gestión de los datos, como en:
- La consistencia
- La recomposición de los datos dispersos en diferentes shards.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. ¿Qué principios definen un sistema robusto y tolerante a fallos en Big Data?
A

Inmutabilidad: Los datos no se modifican una vez escritos; en lugar de ello, se agregan nuevas versiones, lo que facilita la recuperación en caso de errores.

Recomputación: En lugar de intentar corregir los datos en el momento, se pueden recalcular en base a los datos originales, lo que reduce la complejidad en la corrección de errores.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. ¿Por qué es importante la inmutabilidad en sistemas de Big Data?
A

La inmutabilidad es crucial porque asegura que los datos históricos permanezcan inalterados, lo que simplifica la auditoría, depuración y recuperación de errores.
Además, permite el procesamiento paralelo y en tiempo real sin problemas de concurrencia, ya que no hay conflictos de actualización.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. ¿Cómo se maneja la latencia de lectura y actualización en sistemas de Big Data?
A

Indexación eficiente: Facilita las búsquedas rápidas en grandes conjuntos de datos.

Procesamiento en memoria lo que reduce significativamente el tiempo de acceso (por ejemplo, utilizando tecnologías como Apache Spark).

Replicación de datos en múltiples nodos para asegurar disponibilidad y rápida recuperación en caso de fallos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
  1. ¿Qué se entiende por escalabilidad horizontal en una arquitectura de Big Data?
A

La escalabilidad horizontal implica agregar más servidores o nodos para distribuir la carga de trabajo y los datos. En lugar de mejorar las capacidades de un solo servidor (escalabilidad vertical), se distribuyen los datos y el procesamiento entre varios servidores, lo que permite manejar grandes volúmenes de datos y aumentar la capacidad del sistema.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
  1. ¿Cómo se diferencia la arquitectura Lambda de otras arquitecturas de Big Data?
A

La arquitectura Lambda combina:
- procesamiento en tiempo real
- por lotes.
Y lo hace en dos capas: una capa de procesamiento en tiempo real que maneja los datos inmediatamente al llegar y una capa de procesamiento por lotes que procesa grandes volúmenes de datos históricos.

Esto contrasta con otras arquitecturas que solo se enfocan en uno de los dos métodos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q
  1. ¿Qué significa que un sistema sea generalizado y cómo beneficia esto a Big Data?
A

Un sistema generalizado en Big Data significa que puede manejar diferentes tipos de datos (estructurados, semiestructurados, no estructurados) y soportar múltiples aplicaciones.
Este enfoque flexible beneficia a Big Data al permitir una integración más amplia de fuentes de datos diversas, lo que resulta en un análisis más completo y robusto.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q
  1. ¿Qué ventajas ofrece la extensibilidad en un sistema de Big Data?
A

La extensibilidad permite que el sistema pueda adaptarse a nuevos requerimientos, tecnologías o volúmenes de datos sin necesidad de una reestructuración completa. Esto es importante en Big Data, donde los tipos de datos y las necesidades de procesamiento cambian constantemente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
  1. ¿Qué son las consultas ad hoc y cuál es su papel en Big Data?
A

Las consultas ad hoc son consultas que no están predefinidas o planificadas con antelación. Son importantes en Big Data porque permiten explorar los datos de manera flexible y descubrir patrones inesperados o tendencias en tiempo real sin depender de consultas predefinidas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Por qué es importante el mantenimiento mínimo en un sistema de Big Data?

A

Un sistema de Big Data con mantenimiento mínimo reduce los costos operativos y el riesgo de errores humanos. Además, permite escalar y gestionar los datos más fácilmente sin necesidad de intervenciones constantes, lo que es crucial para sistemas que manejan grandes volúmenes de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Cómo contribuye la programación funcional al procesamiento de datos en Apache Spark?

A

La programación funcional es fundamental en Apache Spark porque permite tratar los datos como flujos inmutables y aplicar transformaciones de manera declarativa. Esto facilita la paralelización y escalabilidad de las operaciones de procesamiento de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Qué desafíos presenta la compactación de datos en arquitecturas incrementales?

A

La compactación en arquitecturas incrementales, como Cassandra, puede ser problemática porque requiere consolidar múltiples versiones de datos en una única representación, lo que consume tiempo y recursos. Además, si no se hace correctamente, puede afectar negativamente el rendimiento del sistema.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Qué es el teorema CAP y cómo se aplica a sistemas distribuidos?

A

El teorema CAP establece que en un sistema distribuido solo se pueden garantizar dos de las siguientes tres propiedades al mismo tiempo:
* Consistencia (todos los nodos ven los mismos datos al mismo tiempo).
* Disponibilidad (el sistema responde siempre a las solicitudes).
* Tolerancia a particiones (el sistema sigue funcionando a pesar de la pérdida de comunicación entre nodos).

Este teorema es clave en la arquitectura de sistemas distribuidos, como las bases de datos de Big Data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q
  1. ¿Cuál es la parte del teorema CAP más relevante para redes sociales y sistemas bancarios?
A
  • En redes sociales, la disponibilidad es más importante que la consistencia perfecta. Es mejor que el sistema esté siempre disponible y los usuarios reciban actualizaciones eventualmente consistentes.
  • En sistemas bancarios, la consistencia es crítica, ya que las transacciones financieras requieren precisión y sincronización inmediata entre los nodos.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Cómo impacta la falta de tolerancia a errores humanos en sistemas de Big Data?

A

La falta de tolerancia a errores humanos puede causar interrupciones, pérdida de datos o corrupción en sistemas de Big Data. Debido a la complejidad y el volumen de los datos gestionados, un sistema robusto debe minimizar los riesgos de errores humanos mediante automatización y controles rigurosos.

17
Q

¿Qué es MapReduce y cómo optimiza el procesamiento paralelo en Big Data?

A

MapReduce es un modelo de programación que divide las tareas de procesamiento de datos en dos fases:
* Map: Divide el trabajo en pequeñas sub-tareas que se procesan en paralelo.
* Reduce: Combina los resultados de las sub-tareas para producir una salida final.

Esto optimiza el procesamiento paralelo y es clave en el manejo de grandes volúmenes de datos en sistemas distribuidos como Hadoop.

18
Q

¿Cómo influye IaaS (Infraestructura como Servicio) en el manejo de Big Data?

A

IaaS proporciona recursos de computación, almacenamiento y redes en la nube bajo demanda. En Big Data, esto permite escalar la infraestructura fácilmente sin necesidad de inversiones en hardware, y facilita la integración con herramientas de análisis y procesamiento en la nube.

19
Q

¿Qué nuevas fuentes de datos emergen con el Internet de las Cosas (IoT)?

A

El IoT genera una gran cantidad de datos en tiempo real a partir de sensores, dispositivos conectados, y sistemas de automatización. Estas fuentes de datos son valiosas para el análisis en tiempo real y la optimización de procesos industriales, de salud, y del hogar.

20
Q

¿Cómo están utilizando las redes sociales y el blockchain como fuentes de datos en Big Data?

A
  • Las redes sociales generan enormes cantidades de datos no estructurados (tweets, publicaciones, comentarios) que pueden ser analizados para comprender el comportamiento del usuario y las tendencias sociales.
  • El blockchain produce datos en forma de registros inmutables distribuidos que son útiles para rastrear transacciones y asegurar la integridad en sectores como las finanzas y la cadena de suministro.