1 - Big Data Flashcards
- Definición: ¿Cómo se define el Big Data y qué características lo distinguen de otros conjuntos de datos?
El Big Data se define como conjuntos de datos que, debido a su volumen, velocidad y variedad, no pueden ser gestionados y procesados con las herramientas tradicionales de bases de datos. Estas tres características —volumen (cantidad masiva de datos), velocidad (rapidez con la que los datos se generan y procesan) y variedad (diversidad de formatos, estructurados y no estructurados)— son los principales factores que distinguen el Big Data.
- Historia: ¿Cómo ha evolucionado la gestión de datos desde los primeros sistemas de bases de datos hasta las tecnologías modernas de Big Data?
La evolución de la gestión de datos ha pasado por varias fases:
- Bases de datos relacionales (RDBMS) en los 70-80: Organizan datos estructurados en tablas.
- Data Warehousing en los 90: Centraliza datos estructurados de múltiples fuentes para análisis empresariales.
- Big Data en los 2000: Surgen nuevas tecnologías como Hadoop y Spark para manejar datos masivos y no estructurados, distribuyendo el procesamiento en múltiples servidores.
- Importancia: ¿Por qué el Big Data es crucial en la toma de decisiones en sectores como la salud, finanzas y marketing?
El Big Data permite analizar grandes cantidades de información en tiempo real, lo que facilita la toma de decisiones informadas en sectores como:
- Salud: Análisis de datos de pacientes para mejorar diagnósticos y tratamientos personalizados.
- Finanzas: Identificación de patrones para la predicción de mercados y la detección de fraudes.
- Marketing: Análisis de comportamiento de los consumidores para personalizar ofertas y campañas.
- Antecedentes: ¿Cuáles son los antecedentes históricos que dieron lugar al concepto de Big Data?
El concepto de Big Data tiene sus raíces en los primeros sistemas de bases de datos relacionales, que gestionaban datos estructurados.
En los 90, con el crecimiento de Internet y la digitalización de la información, surgió la necesidad de procesar volúmenes masivos de datos no estructurados, lo que impulsó el desarrollo de tecnologías especializadas.
- Factores de crecimiento: ¿Qué factores impulsaron el crecimiento del Big Data en las últimas décadas?
Los factores principales incluyen:
- Digitalización masiva de procesos y registros.
- Crecimiento de Internet y redes sociales, generando volúmenes masivos de datos en tiempo real.
- Proliferación de dispositivos IoT, que aportan grandes cantidades de datos desde sensores y dispositivos conectados.
- Avances tecnológicos que facilitan el almacenamiento y procesamiento de grandes volúmenes de datos.
- Tecnologías: ¿Cómo han evolucionado las tecnologías de almacenamiento y procesamiento de datos desde los primeros data warehouses hasta plataformas como Hadoop y Spark?
Los Data Warehouses fueron diseñados para almacenar datos estructurados para análisis. Posteriormente, tecnologías como Hadoop introdujeron el procesamiento distribuido de datos en grandes volúmenes (usando MapReduce), mientras que Spark añadió procesamiento en memoria, permitiendo un análisis más rápido y en tiempo real.
- Relacionales: ¿Cuáles son las principales diferencias entre las bases de datos relacionales y no relacionales?
- Bases de datos relacionales (RDBMS): Organizan datos en tablas y usan SQL para las consultas. Están optimizadas para datos estructurados y relaciones entre entidades. Ejemplos: MySQL, PostgreSQL, Oracle.
- Bases de datos no relacionales (NoSQL): Permiten una estructura más flexible, donde los datos pueden almacenarse en documentos, grafos, o clave-valor. Son más escalables y manejan datos no estructurados y semiestructurados. Ejemplos: MongoDB, Cassandra.
- Consultas SQL: Explica con un ejemplo cómo se realiza una consulta en una base de datos relacional.
Ejemplo de una consulta SQL que selecciona empleados con salario mayor a 50,000:
~~~
SELECT E.FirstName, E.LastName, E.Email, J.JobTitle, D.DepartmentName
FROM Employees E
JOIN Jobs J ON E.JobID = J.JobID
JOIN Departments D ON E.DepartmentID = D.DepartmentID
WHERE E.Salary > 50000;
~~~
- No Relacionales: ¿Qué ventajas ofrecen las bases de datos no relacionales como MongoDB frente a las tradicionales bases de datos relacionales?
- Flexibilidad: MongoDB permite almacenar datos en formatos JSON/BSON, sin esquemas fijos, lo que facilita la evolución de las aplicaciones.
- Escalabilidad: Las bases NoSQL están diseñadas para escalar horizontalmente (agregando más servidores), algo que es más difícil en RDBMS.
- Manejo de datos no estructurados: MongoDB puede gestionar grandes volúmenes de datos no estructurados como texto, imágenes y videos.
- Data Warehousing: ¿Qué es un Data Warehouse y cómo se diferencia de un Data Lake?
Un Data Warehouse es un sistema que integra y almacena datos estructurados de diferentes fuentes para análisis históricos. Los Data Lakes almacenan datos tanto estructurados como no estructurados en su formato original, lo que los hace más flexibles, pero más difíciles de gestionar y organizar para análisis específicos.
- Comparación: ¿Cuáles son las ventajas y desafíos de usar un Data Lake en lugar de un Data Warehouse?
- Ventajas: Los Data Lakes permiten almacenar datos en su formato original (estructurados y no estructurados), facilitando un análisis más flexible.
- Desafíos: La falta de estructura puede hacer que los datos en un Data Lake sean difíciles de gestionar y analizar sin herramientas especializadas, lo que puede derivar en “lago de datos sucio”.
- Aplicaciones: ¿En qué situaciones sería más beneficioso utilizar un Data Mart en vez de un Data Warehouse completo?
Un Data Mart es un subconjunto de un Data Warehouse que está enfocado en un área o departamento específico, como marketing o finanzas. Es más eficiente en términos de tiempo y recursos cuando se necesita análisis rápidos en áreas específicas, sin necesidad de cargar todo el Data Warehouse.
- In Memory: ¿Qué es el almacenamiento In Memory y cuáles son sus principales aplicaciones?
El almacenamiento In Memory utiliza la memoria RAM para almacenar datos en lugar de discos, lo que permite un acceso y procesamiento extremadamente rápidos. Es ideal para aplicaciones que requieren análisis en tiempo real, como transacciones financieras o análisis en tiempo real de datos de sensores IoT.
- Data Virtualization: ¿Cómo funciona la virtualización de datos y en qué situaciones es más útil?
La virtualización de datos permite acceder a datos de múltiples fuentes sin tener que moverlos o replicarlos físicamente. Es útil en situaciones donde los datos están distribuidos en varios sistemas y se requiere una vista consolidada para el análisis o la toma de decisiones.
- Online Warehousing: ¿Qué beneficios aporta el almacenamiento de datos en línea para el análisis continuo de información?
El Online Warehousing permite acceder y procesar datos en la nube, lo que facilita el análisis continuo y en tiempo real. Este enfoque es escalable, flexible y no requiere una infraestructura física local costosa. Herramientas como Google BigQuery permiten realizar análisis en grandes volúmenes de datos sin necesidad de administrar la infraestructura subyacente.