Parte 2 - Tema 49 Flashcards

Tecnologías y sistemas de explotación de datos

1
Q

¿Qué es un data lake?

A

Un data lake es un repositorio centralizado que almacena grandes volúmenes de datos estructurados, semiestructurados y no estructurados en su formato nativo. A diferencia de un data warehouse, no requiere un esquema predefinido, lo que permite mayor flexibilidad.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Cuál es la principal diferencia entre un data lake y un data warehouse?

A

El data lake almacena datos en bruto y sin procesar, mientras que el data warehouse almacena datos estructurados y transformados para análisis específicos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Para qué se utiliza un data lake?

A

Se utiliza para almacenar y procesar grandes cantidades de datos de diversas fuentes, permitiendo realizar análisis exploratorios y descubrir nuevos insights.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Cuáles son las principales características de un data lake?

A

Escalabilidad, flexibilidad, almacenamiento de datos en bruto, soporte para múltiples formatos de datos, capacidad de procesamiento de grandes volúmenes de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Cuáles son los beneficios de utilizar un data lake?

A

Mayor agilidad en el análisis de datos, reducción de costos, mejora en la toma de decisiones, descubrimiento de nuevos insights.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Qué tipos de datos se pueden almacenar en un data lake?

A

Datos estructurados (bases de datos relacionales), semiestructurados (JSON, XML) y no estructurados (texto, imágenes, videos).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Qué tecnologías se utilizan para implementar un data lake?

A

Hadoop, Spark, Amazon S3, Azure Data Lake Storage, Google Cloud Storage.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Qué herramientas se utilizan para procesar los datos en un data lake?

A

Apache Spark, Hive, Presto, Athena.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Qué herramientas se utilizan para visualizar los datos de un data lake?

A

Tableau, Power BI, Looker.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Cuáles son los principales desafíos al implementar un data lake?

A

Gestión de la calidad de los datos, seguridad de los datos, gobernanza de los datos, costos de almacenamiento y procesamiento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Qué es la gobernanza de datos en un data lake?

A

Es el conjunto de políticas, procesos y controles necesarios para garantizar la calidad, seguridad y accesibilidad de los datos en el data lake.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Qué es un data warehouse?

A

Un data warehouse es un repositorio centralizado que almacena una gran cantidad de datos históricos y detallados, provenientes de diversas fuentes, con el objetivo de apoyar la toma de decisiones estratégicas en una organización.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Cuál es la diferencia entre un data warehouse y una base de datos operacional?

A

Un data warehouse está optimizado para análisis y consulta, mientras que una base de datos operacional está diseñada para transacciones en tiempo real.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Para qué se utiliza un data warehouse?

A

Se utiliza para integrar datos de múltiples fuentes, analizar tendencias, identificar patrones y facilitar la toma de decisiones basadas en datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Cuáles son las principales características de un data warehouse?

A

Orientado a temas, integrado, no volátil, de grano fino, histórico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Cuáles son los beneficios de utilizar un data warehouse?

A

Mejora de la toma de decisiones, consolidación de datos, optimización de procesos, descubrimiento de conocimiento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

¿Cuáles son los componentes principales de un data warehouse?

A

Fuentes de datos, ETL (Extracción, Transformación, Carga), almacenamiento de datos, herramientas de consulta y análisis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

¿Qué es un proceso ETL?

A

Es un proceso que extrae datos de diversas fuentes, los transforma para unificarlos y los carga en el data warehouse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

¿Qué tecnologías se utilizan para implementar un data warehouse?

A

SQL Server, Oracle Database, Teradata, Google BigQuery, Amazon Redshift.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

¿Qué herramientas se utilizan para analizar los datos en un data warehouse?

A

SQL, herramientas de Business Intelligence (BI) como Tableau, Power BI, Qlik.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

¿Cuáles son los principales desafíos al implementar un data warehouse?

A

Calidad de los datos, complejidad del diseño, costos de implementación y mantenimiento, integración con sistemas existentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

¿Qué es la gobernanza de datos en un data warehouse?

A

Es el conjunto de políticas y procesos para garantizar la calidad, seguridad y accesibilidad de los datos en el data warehouse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

¿Qué es un data lakehouse?

A

Un data lakehouse combina las mejores características de un data lake y un data warehouse en una única plataforma. Ofrece almacenamiento sin esquemas para datos sin procesar y capacidades de procesamiento analítico estructurado, todo en un solo lugar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

¿Cuál es la principal diferencia entre un data lakehouse y un data lake o un data warehouse?

A

El data lakehouse une la flexibilidad de un data lake para almacenar datos sin estructura y la capacidad de procesamiento analítico de un data warehouse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

¿Cuáles son las principales características de un data lakehouse?

A

Unificación de datos estructurados y no estructurados, procesamiento en tiempo real y por lotes, escalabilidad, seguridad y gobernanza de datos.

26
Q

¿Cuáles son los beneficios de utilizar un data lakehouse?

A

Agilidad en el análisis de datos, reducción de costos, mejora de la toma de decisiones, capacidad para manejar grandes volúmenes de datos variados.

27
Q

¿Cuáles son los componentes principales de un data lakehouse?

A

Almacenamiento de objetos (como S3), motor de procesamiento analítico (como Spark), motor de procesamiento transaccional (como Delta Lake), capa de metadatos y herramientas de gestión.

28
Q

¿Qué es Delta Lake?

A

Delta Lake es una capa de almacenamiento de datos abierta que proporciona capacidades de ACID (Atomicidad, Consistencia, Aislamiento, Durabilidad) a un data lake, convirtiéndolo en un data lakehouse.

29
Q

¿Qué tecnologías se utilizan para implementar un data lakehouse?

A

Apache Spark, Delta Lake, Cloud Data Platform (CDP) de Cloudera, Databricks Lakehouse Platform.

30
Q

¿Qué herramientas se utilizan para analizar los datos en un data lakehouse?

A

SQL, Python, R, herramientas de visualización como Tableau, Power BI.

31
Q

¿Cuáles son los principales desafíos al implementar un data lakehouse?

A

Gestión de la complejidad, integración con sistemas existentes, seguridad de los datos, costos de almacenamiento y procesamiento.

32
Q

¿Qué es la gobernanza de datos en un data lakehouse?

A

Es el conjunto de políticas y procesos para garantizar la calidad, seguridad y accesibilidad de los datos en el data lakehouse.

33
Q

En resumen:

A
  • Data lake: Ideal para almacenar datos sin procesar y a bajo costo.
  • Data warehouse: Perfecto para análisis estructurados y generación de informes.
  • Data lakehouse: Ofrece un equilibrio entre flexibilidad y rendimiento, siendo una opción popular para las empresas modernas.
34
Q

¿Qué es un data fabric?

A

Un data fabric es una arquitectura de datos que proporciona una capa de abstracción unificada sobre múltiples fuentes de datos, permitiendo un acceso seguro y consistente a la información.

35
Q

¿Cuál es el objetivo principal de un data fabric?

A

Simplificar la gestión de datos, mejorar la calidad de los datos y acelerar el tiempo de llegada al mercado de los productos de datos

36
Q

¿Cuáles son las principales características de un data fabric?

A

Integración de diversas fuentes de datos, virtualización de datos, calidad de datos, gobernanza de datos.

37
Q

¿Qué es un data mesh?

A

Un data mesh es un enfoque descentralizado para la gestión de datos que empodera a los equipos de dominio para que sean propietarios de sus propios datos.

38
Q

¿Cuál es la diferencia entre un data mesh y un data fabric?

A

Mientras que un data fabric centraliza la gestión de datos, un data mesh distribuye la responsabilidad entre los equipos de dominio.

39
Q

¿Cuáles son los principios clave de un data mesh?

A

Dominio-orientado, datos como un producto, autonomía de los equipos, federación de datos.

40
Q

¿Cuáles son los beneficios de un Data Fabric y un Data Mesh?

A
  • Data Fabric: Mayor eficiencia en la gestión de datos, mejora de la calidad de los datos, aceleración del tiempo de llegada al mercado.
  • Data Mesh: Mayor agilidad, innovación y autonomía de los equipos, mejor alineación con los objetivos del negocio.
41
Q

¿Cuándo utilizar un Data Fabric o un Data Mesh?

A
  • Data Fabric: Ideal para organizaciones con una gran cantidad de datos dispersos y la necesidad de una vista unificada.
  • Data Mesh: Ideal para organizaciones que buscan fomentar la innovación y la autonomía de los equipos.
42
Q

¿Cuáles son las principales tecnologías utilizadas para proteger los datos?

A

Cifrado, firewalls, sistemas de detección de intrusos (IDS), prevención de pérdida de datos (DLP), gestión de identidades y accesos (IAM), tokenización, anonimización.

43
Q

¿Qué es el cifrado y cómo se utiliza en la protección de datos?

A

El cifrado convierte los datos en un código ininteligible para protegerlos durante su transmisión o almacenamiento.

44
Q

¿Cuál es la función de un firewall en la seguridad de los datos?

A

Un firewall actúa como un muro de seguridad, controlando el tráfico de entrada y salida de una red para prevenir ataques cibernéticos.

45
Q

¿Qué es la prevención de pérdida de datos (DLP)?

A

DLP son tecnologías que identifican, monitorean y protegen datos confidenciales para evitar su fuga accidental o intencional.

46
Q

¿Cuáles son los principales riesgos para la seguridad de los datos?

A

Ataques cibernéticos, errores humanos, desastres naturales, pérdida de dispositivos.

47
Q

¿Cómo pueden las tecnologías ayudar a mitigar estos riesgos?

A

Implementando medidas de seguridad robustas, realizando copias de seguridad periódicas y realizando pruebas de intrusión.

48
Q

¿Qué es un espacio de datos?

A

Un espacio de datos es un ecosistema donde se comparte información de manera voluntaria entre diferentes organizaciones, garantizando la seguridad, privacidad y soberanía de los datos.

49
Q

¿Cuál es el objetivo principal de un espacio de datos?

A

Facilitar la colaboración y el intercambio de datos entre diferentes actores, generando valor añadido y nuevos servicios.

50
Q

¿Cuáles son las tecnologías clave en un espacio de datos?

A

Identidad federada, catálogos de datos, estándares de interoperabilidad, infraestructura de datos distribuida, tecnologías de blockchain.

51
Q

¿Qué papel juega la identidad federada en un espacio de datos?

A

La identidad federada permite a los usuarios acceder a múltiples sistemas con una única credencial, asegurando la autenticación y autorización.

52
Q

¿Por qué son importantes los estándares de interoperabilidad en un espacio de datos?

A

Los estándares garantizan que los datos de diferentes fuentes puedan ser entendidos e integrados de manera eficiente.

53
Q

¿Qué aspectos organizativos son fundamentales para un espacio de datos?

A

Gobernanza de datos, políticas de privacidad, acuerdos de colaboración, modelos de negocio.

54
Q

¿Cómo se garantiza la seguridad y privacidad de los datos en un espacio de datos?

A

A través de mecanismos de cifrado, control de acceso, auditoría y cumplimiento de regulaciones como el RGPD.

55
Q

¿Qué papel juegan los modelos de negocio en un espacio de datos?

A

Los modelos de negocio definen cómo se genera valor a partir de los datos compartidos, como por ejemplo, a través de la creación de nuevos servicios o productos.

56
Q

¿Qué es una ciudad inteligente?

A

Una ciudad inteligente es aquella que utiliza tecnologías de la información y la comunicación para mejorar la calidad de vida de sus ciudadanos, optimizar los recursos y promover la sostenibilidad.

57
Q

¿Cuál es el papel del IoT en las ciudades inteligentes?

A

El IoT permite conectar dispositivos y objetos físicos a internet, generando grandes cantidades de datos que pueden ser utilizados para tomar decisiones más informadas y mejorar la gestión de la ciudad.

58
Q

¿Cuáles son algunas aplicaciones del IoT en las ciudades inteligentes?

A

Gestión del tráfico, alumbrado público inteligente, gestión de residuos, monitorización de la calidad del aire, sistemas de riego inteligentes.

59
Q

¿Cómo se utiliza el IoT para mejorar la movilidad urbana?

A

A través de sensores en vehículos, semáforos inteligentes y sistemas de transporte público conectados, se puede optimizar el flujo del tráfico y reducir la congestión.

60
Q

¿Qué tipos de datos se recopilan en una ciudad inteligente?

A

Datos de sensores (temperatura, humedad, ruido), datos de movilidad (tráfico, transporte público), datos de consumo energético, datos de servicios públicos.

61
Q

¿Cómo se analizan estos datos?

A

Se utilizan técnicas de big data y análisis predictivo para extraer patrones y tendencias, y tomar decisiones basadas en datos.