1 - Big Data Flashcards

1
Q
  1. Definición: ¿Cómo se define el Big Data y qué características lo distinguen de otros conjuntos de datos?
A

El Big Data se define como conjuntos de datos que, debido a su volumen, velocidad y variedad, no pueden ser gestionados y procesados con las herramientas tradicionales de bases de datos. Estas tres características —volumen (cantidad masiva de datos), velocidad (rapidez con la que los datos se generan y procesan) y variedad (diversidad de formatos, estructurados y no estructurados)— son los principales factores que distinguen el Big Data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q
  1. Historia: ¿Cómo ha evolucionado la gestión de datos desde los primeros sistemas de bases de datos hasta las tecnologías modernas de Big Data?
A

La evolución de la gestión de datos ha pasado por varias fases:
- Bases de datos relacionales (RDBMS) en los 70-80: Organizan datos estructurados en tablas.
- Data Warehousing en los 90: Centraliza datos estructurados de múltiples fuentes para análisis empresariales.
- Big Data en los 2000: Surgen nuevas tecnologías como Hadoop y Spark para manejar datos masivos y no estructurados, distribuyendo el procesamiento en múltiples servidores.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. Importancia: ¿Por qué el Big Data es crucial en la toma de decisiones en sectores como la salud, finanzas y marketing?
A

El Big Data permite analizar grandes cantidades de información en tiempo real, lo que facilita la toma de decisiones informadas en sectores como:
- Salud: Análisis de datos de pacientes para mejorar diagnósticos y tratamientos personalizados.
- Finanzas: Identificación de patrones para la predicción de mercados y la detección de fraudes.
- Marketing: Análisis de comportamiento de los consumidores para personalizar ofertas y campañas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. Antecedentes: ¿Cuáles son los antecedentes históricos que dieron lugar al concepto de Big Data?
A

El concepto de Big Data tiene sus raíces en los primeros sistemas de bases de datos relacionales, que gestionaban datos estructurados.
En los 90, con el crecimiento de Internet y la digitalización de la información, surgió la necesidad de procesar volúmenes masivos de datos no estructurados, lo que impulsó el desarrollo de tecnologías especializadas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. Factores de crecimiento: ¿Qué factores impulsaron el crecimiento del Big Data en las últimas décadas?
A

Los factores principales incluyen:
- Digitalización masiva de procesos y registros.
- Crecimiento de Internet y redes sociales, generando volúmenes masivos de datos en tiempo real.
- Proliferación de dispositivos IoT, que aportan grandes cantidades de datos desde sensores y dispositivos conectados.
- Avances tecnológicos que facilitan el almacenamiento y procesamiento de grandes volúmenes de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
  1. Tecnologías: ¿Cómo han evolucionado las tecnologías de almacenamiento y procesamiento de datos desde los primeros data warehouses hasta plataformas como Hadoop y Spark?
A

Los Data Warehouses fueron diseñados para almacenar datos estructurados para análisis. Posteriormente, tecnologías como Hadoop introdujeron el procesamiento distribuido de datos en grandes volúmenes (usando MapReduce), mientras que Spark añadió procesamiento en memoria, permitiendo un análisis más rápido y en tiempo real.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
  1. Relacionales: ¿Cuáles son las principales diferencias entre las bases de datos relacionales y no relacionales?
A
  • Bases de datos relacionales (RDBMS): Organizan datos en tablas y usan SQL para las consultas. Están optimizadas para datos estructurados y relaciones entre entidades. Ejemplos: MySQL, PostgreSQL, Oracle.
  • Bases de datos no relacionales (NoSQL): Permiten una estructura más flexible, donde los datos pueden almacenarse en documentos, grafos, o clave-valor. Son más escalables y manejan datos no estructurados y semiestructurados. Ejemplos: MongoDB, Cassandra.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q
  1. Consultas SQL: Explica con un ejemplo cómo se realiza una consulta en una base de datos relacional.
A

Ejemplo de una consulta SQL que selecciona empleados con salario mayor a 50,000:
~~~
SELECT E.FirstName, E.LastName, E.Email, J.JobTitle, D.DepartmentName
FROM Employees E
JOIN Jobs J ON E.JobID = J.JobID
JOIN Departments D ON E.DepartmentID = D.DepartmentID
WHERE E.Salary > 50000;
~~~

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q
  1. No Relacionales: ¿Qué ventajas ofrecen las bases de datos no relacionales como MongoDB frente a las tradicionales bases de datos relacionales?
A
  • Flexibilidad: MongoDB permite almacenar datos en formatos JSON/BSON, sin esquemas fijos, lo que facilita la evolución de las aplicaciones.
  • Escalabilidad: Las bases NoSQL están diseñadas para escalar horizontalmente (agregando más servidores), algo que es más difícil en RDBMS.
  • Manejo de datos no estructurados: MongoDB puede gestionar grandes volúmenes de datos no estructurados como texto, imágenes y videos.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
  1. Data Warehousing: ¿Qué es un Data Warehouse y cómo se diferencia de un Data Lake?
A

Un Data Warehouse es un sistema que integra y almacena datos estructurados de diferentes fuentes para análisis históricos. Los Data Lakes almacenan datos tanto estructurados como no estructurados en su formato original, lo que los hace más flexibles, pero más difíciles de gestionar y organizar para análisis específicos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q
  1. Comparación: ¿Cuáles son las ventajas y desafíos de usar un Data Lake en lugar de un Data Warehouse?
A
  • Ventajas: Los Data Lakes permiten almacenar datos en su formato original (estructurados y no estructurados), facilitando un análisis más flexible.
  • Desafíos: La falta de estructura puede hacer que los datos en un Data Lake sean difíciles de gestionar y analizar sin herramientas especializadas, lo que puede derivar en “lago de datos sucio”.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q
  1. Aplicaciones: ¿En qué situaciones sería más beneficioso utilizar un Data Mart en vez de un Data Warehouse completo?
A

Un Data Mart es un subconjunto de un Data Warehouse que está enfocado en un área o departamento específico, como marketing o finanzas. Es más eficiente en términos de tiempo y recursos cuando se necesita análisis rápidos en áreas específicas, sin necesidad de cargar todo el Data Warehouse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q
  1. In Memory: ¿Qué es el almacenamiento In Memory y cuáles son sus principales aplicaciones?
A

El almacenamiento In Memory utiliza la memoria RAM para almacenar datos en lugar de discos, lo que permite un acceso y procesamiento extremadamente rápidos. Es ideal para aplicaciones que requieren análisis en tiempo real, como transacciones financieras o análisis en tiempo real de datos de sensores IoT.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q
  1. Data Virtualization: ¿Cómo funciona la virtualización de datos y en qué situaciones es más útil?
A

La virtualización de datos permite acceder a datos de múltiples fuentes sin tener que moverlos o replicarlos físicamente. Es útil en situaciones donde los datos están distribuidos en varios sistemas y se requiere una vista consolidada para el análisis o la toma de decisiones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q
  1. Online Warehousing: ¿Qué beneficios aporta el almacenamiento de datos en línea para el análisis continuo de información?
A

El Online Warehousing permite acceder y procesar datos en la nube, lo que facilita el análisis continuo y en tiempo real. Este enfoque es escalable, flexible y no requiere una infraestructura física local costosa. Herramientas como Google BigQuery permiten realizar análisis en grandes volúmenes de datos sin necesidad de administrar la infraestructura subyacente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q
  1. Tipos de Análisis: ¿Cuáles son las diferencias entre el análisis descriptivo, predictivo y prescriptivo en Data Mining?
A
  • Análisis descriptivo: Describe lo que ha ocurrido en el pasado. Ejemplo: estadísticas, resúmenes de ventas.
  • Análisis predictivo: Utiliza datos históricos para prever lo que sucederá en el futuro. Ejemplo: modelos de predicción de ventas o demanda.
  • Análisis prescriptivo: Recomienda acciones a tomar basadas en análisis predictivos. Ejemplo: simulaciones para optimizar procesos.
17
Q
  1. Aplicaciones: Proporciona un ejemplo de cómo se podría aplicar un análisis predictivo en un entorno empresarial.
A

En un entorno empresarial, un análisis predictivo se podría usar para prever la demanda de productos en función de las tendencias históricas de ventas, datos del mercado y factores externos, lo que permite a la empresa optimizar su inventario y mejorar su cadena de suministro.

18
Q
  1. Técnicas: ¿Qué técnicas de análisis prescriptivo pueden ser útiles para la optimización de procesos en una organización?
A
  • Simulación: Para modelar diferentes escenarios de negocio y predecir resultados.
  • Optimización matemática: Para
    encontrar la mejor solución a problemas complejos, como minimizar costos o maximizar eficiencia operativa.
19
Q

¿Cómo están impactando la inteligencia artificial y el machine learning en el campo del Big Data?

A

La Inteligencia Artificial (IA) y el Machine Learning (ML) han transformado el Big Data al permitir un análisis automatizado de grandes volúmenes de datos. Estas tecnologías son capaces de detectar patrones, hacer predicciones y optimizar procesos con precisión y a gran escala.

20
Q
  1. Big Data en la nube: ¿Qué ventajas ofrece el uso de plataformas de Big Data en la nube?
A

Las plataformas de Big Data en la nube ofrecen escalabilidad, flexibilidad y costos reducidos, eliminando la necesidad de invertir en infraestructuras físicas. Además, permiten procesar datos en tiempo real desde cualquier ubicación, facilitando la colaboración global.

21
Q
  1. IoT: ¿Cómo se integran los datos provenientes de dispositivos IoT en los sistemas de Big Data?
A

Los dispositivos IoT generan grandes cantidades de datos en tiempo real que se integran en sistemas de Big Data para análisis inmediato. Tecnologías como Hadoop y Spark permiten procesar estos datos a escala, ayudando en la toma de decisiones en tiempo real.

22
Q
  1. Definición: ¿Qué es Visual Discovery y por qué es importante en el análisis de Big Data?
A

Visual Discovery se refiere a la exploración de datos mediante representaciones visuales interactivas. Es importante porque permite identificar patrones, tendencias y anomalías de manera rápida y eficiente, facilitando la toma de decisiones informadas.

23
Q
  1. Herramientas: ¿Cuáles son algunas herramientas populares para la visualización de datos y qué beneficios ofrecen?
A
  • Tableau: Ofrece visualizaciones interactivas y fáciles de usar.
  • Power BI: Integración con otras herramientas de Microsoft y facilidad para compartir reportes.
  • QlikView: Permite un análisis más profundo de los datos con visualizaciones interactivas.
24
Q
  1. Casos de uso: Proporciona un ejemplo de cómo la visualización de datos puede ayudar en la toma de decisiones en el sector financiero.
A

En el sector financiero, una visualización interactiva de los flujos de caja y balances puede ayudar a los directivos a identificar tendencias de ingresos y gastos, permitiendo una mejor planificación financiera y la detección temprana de posibles problemas.