Parte 2 - Tema 49 Flashcards
Tecnologías y sistemas de explotación de datos
¿Qué es un data lake?
Un data lake es un repositorio centralizado que almacena grandes volúmenes de datos estructurados, semiestructurados y no estructurados en su formato nativo. A diferencia de un data warehouse, no requiere un esquema predefinido, lo que permite mayor flexibilidad.
¿Cuál es la principal diferencia entre un data lake y un data warehouse?
El data lake almacena datos en bruto y sin procesar, mientras que el data warehouse almacena datos estructurados y transformados para análisis específicos.
¿Para qué se utiliza un data lake?
Se utiliza para almacenar y procesar grandes cantidades de datos de diversas fuentes, permitiendo realizar análisis exploratorios y descubrir nuevos insights.
¿Cuáles son las principales características de un data lake?
Escalabilidad, flexibilidad, almacenamiento de datos en bruto, soporte para múltiples formatos de datos, capacidad de procesamiento de grandes volúmenes de datos.
¿Cuáles son los beneficios de utilizar un data lake?
Mayor agilidad en el análisis de datos, reducción de costos, mejora en la toma de decisiones, descubrimiento de nuevos insights.
¿Qué tipos de datos se pueden almacenar en un data lake?
Datos estructurados (bases de datos relacionales), semiestructurados (JSON, XML) y no estructurados (texto, imágenes, videos).
¿Qué tecnologías se utilizan para implementar un data lake?
Hadoop, Spark, Amazon S3, Azure Data Lake Storage, Google Cloud Storage.
¿Qué herramientas se utilizan para procesar los datos en un data lake?
Apache Spark, Hive, Presto, Athena.
¿Qué herramientas se utilizan para visualizar los datos de un data lake?
Tableau, Power BI, Looker.
¿Cuáles son los principales desafíos al implementar un data lake?
Gestión de la calidad de los datos, seguridad de los datos, gobernanza de los datos, costos de almacenamiento y procesamiento.
¿Qué es la gobernanza de datos en un data lake?
Es el conjunto de políticas, procesos y controles necesarios para garantizar la calidad, seguridad y accesibilidad de los datos en el data lake.
¿Qué es un data warehouse?
Un data warehouse es un repositorio centralizado que almacena una gran cantidad de datos históricos y detallados, provenientes de diversas fuentes, con el objetivo de apoyar la toma de decisiones estratégicas en una organización.
¿Cuál es la diferencia entre un data warehouse y una base de datos operacional?
Un data warehouse está optimizado para análisis y consulta, mientras que una base de datos operacional está diseñada para transacciones en tiempo real.
¿Para qué se utiliza un data warehouse?
Se utiliza para integrar datos de múltiples fuentes, analizar tendencias, identificar patrones y facilitar la toma de decisiones basadas en datos.
¿Cuáles son las principales características de un data warehouse?
Orientado a temas, integrado, no volátil, de grano fino, histórico.
¿Cuáles son los beneficios de utilizar un data warehouse?
Mejora de la toma de decisiones, consolidación de datos, optimización de procesos, descubrimiento de conocimiento.
¿Cuáles son los componentes principales de un data warehouse?
Fuentes de datos, ETL (Extracción, Transformación, Carga), almacenamiento de datos, herramientas de consulta y análisis.
¿Qué es un proceso ETL?
Es un proceso que extrae datos de diversas fuentes, los transforma para unificarlos y los carga en el data warehouse.
¿Qué tecnologías se utilizan para implementar un data warehouse?
SQL Server, Oracle Database, Teradata, Google BigQuery, Amazon Redshift.
¿Qué herramientas se utilizan para analizar los datos en un data warehouse?
SQL, herramientas de Business Intelligence (BI) como Tableau, Power BI, Qlik.
¿Cuáles son los principales desafíos al implementar un data warehouse?
Calidad de los datos, complejidad del diseño, costos de implementación y mantenimiento, integración con sistemas existentes.
¿Qué es la gobernanza de datos en un data warehouse?
Es el conjunto de políticas y procesos para garantizar la calidad, seguridad y accesibilidad de los datos en el data warehouse.
¿Qué es un data lakehouse?
Un data lakehouse combina las mejores características de un data lake y un data warehouse en una única plataforma. Ofrece almacenamiento sin esquemas para datos sin procesar y capacidades de procesamiento analítico estructurado, todo en un solo lugar.
¿Cuál es la principal diferencia entre un data lakehouse y un data lake o un data warehouse?
El data lakehouse une la flexibilidad de un data lake para almacenar datos sin estructura y la capacidad de procesamiento analítico de un data warehouse.
¿Cuáles son las principales características de un data lakehouse?
Unificación de datos estructurados y no estructurados, procesamiento en tiempo real y por lotes, escalabilidad, seguridad y gobernanza de datos.
¿Cuáles son los beneficios de utilizar un data lakehouse?
Agilidad en el análisis de datos, reducción de costos, mejora de la toma de decisiones, capacidad para manejar grandes volúmenes de datos variados.
¿Cuáles son los componentes principales de un data lakehouse?
Almacenamiento de objetos (como S3), motor de procesamiento analítico (como Spark), motor de procesamiento transaccional (como Delta Lake), capa de metadatos y herramientas de gestión.
¿Qué es Delta Lake?
Delta Lake es una capa de almacenamiento de datos abierta que proporciona capacidades de ACID (Atomicidad, Consistencia, Aislamiento, Durabilidad) a un data lake, convirtiéndolo en un data lakehouse.
¿Qué tecnologías se utilizan para implementar un data lakehouse?
Apache Spark, Delta Lake, Cloud Data Platform (CDP) de Cloudera, Databricks Lakehouse Platform.
¿Qué herramientas se utilizan para analizar los datos en un data lakehouse?
SQL, Python, R, herramientas de visualización como Tableau, Power BI.
¿Cuáles son los principales desafíos al implementar un data lakehouse?
Gestión de la complejidad, integración con sistemas existentes, seguridad de los datos, costos de almacenamiento y procesamiento.
¿Qué es la gobernanza de datos en un data lakehouse?
Es el conjunto de políticas y procesos para garantizar la calidad, seguridad y accesibilidad de los datos en el data lakehouse.
En resumen:
- Data lake: Ideal para almacenar datos sin procesar y a bajo costo.
- Data warehouse: Perfecto para análisis estructurados y generación de informes.
- Data lakehouse: Ofrece un equilibrio entre flexibilidad y rendimiento, siendo una opción popular para las empresas modernas.
¿Qué es un data fabric?
Un data fabric es una arquitectura de datos que proporciona una capa de abstracción unificada sobre múltiples fuentes de datos, permitiendo un acceso seguro y consistente a la información.
¿Cuál es el objetivo principal de un data fabric?
Simplificar la gestión de datos, mejorar la calidad de los datos y acelerar el tiempo de llegada al mercado de los productos de datos
¿Cuáles son las principales características de un data fabric?
Integración de diversas fuentes de datos, virtualización de datos, calidad de datos, gobernanza de datos.
¿Qué es un data mesh?
Un data mesh es un enfoque descentralizado para la gestión de datos que empodera a los equipos de dominio para que sean propietarios de sus propios datos.
¿Cuál es la diferencia entre un data mesh y un data fabric?
Mientras que un data fabric centraliza la gestión de datos, un data mesh distribuye la responsabilidad entre los equipos de dominio.
¿Cuáles son los principios clave de un data mesh?
Dominio-orientado, datos como un producto, autonomía de los equipos, federación de datos.
¿Cuáles son los beneficios de un Data Fabric y un Data Mesh?
- Data Fabric: Mayor eficiencia en la gestión de datos, mejora de la calidad de los datos, aceleración del tiempo de llegada al mercado.
- Data Mesh: Mayor agilidad, innovación y autonomía de los equipos, mejor alineación con los objetivos del negocio.
¿Cuándo utilizar un Data Fabric o un Data Mesh?
- Data Fabric: Ideal para organizaciones con una gran cantidad de datos dispersos y la necesidad de una vista unificada.
- Data Mesh: Ideal para organizaciones que buscan fomentar la innovación y la autonomía de los equipos.
¿Cuáles son las principales tecnologías utilizadas para proteger los datos?
Cifrado, firewalls, sistemas de detección de intrusos (IDS), prevención de pérdida de datos (DLP), gestión de identidades y accesos (IAM), tokenización, anonimización.
¿Qué es el cifrado y cómo se utiliza en la protección de datos?
El cifrado convierte los datos en un código ininteligible para protegerlos durante su transmisión o almacenamiento.
¿Cuál es la función de un firewall en la seguridad de los datos?
Un firewall actúa como un muro de seguridad, controlando el tráfico de entrada y salida de una red para prevenir ataques cibernéticos.
¿Qué es la prevención de pérdida de datos (DLP)?
DLP son tecnologías que identifican, monitorean y protegen datos confidenciales para evitar su fuga accidental o intencional.
¿Cuáles son los principales riesgos para la seguridad de los datos?
Ataques cibernéticos, errores humanos, desastres naturales, pérdida de dispositivos.
¿Cómo pueden las tecnologías ayudar a mitigar estos riesgos?
Implementando medidas de seguridad robustas, realizando copias de seguridad periódicas y realizando pruebas de intrusión.
¿Qué es un espacio de datos?
Un espacio de datos es un ecosistema donde se comparte información de manera voluntaria entre diferentes organizaciones, garantizando la seguridad, privacidad y soberanía de los datos.
¿Cuál es el objetivo principal de un espacio de datos?
Facilitar la colaboración y el intercambio de datos entre diferentes actores, generando valor añadido y nuevos servicios.
¿Cuáles son las tecnologías clave en un espacio de datos?
Identidad federada, catálogos de datos, estándares de interoperabilidad, infraestructura de datos distribuida, tecnologías de blockchain.
¿Qué papel juega la identidad federada en un espacio de datos?
La identidad federada permite a los usuarios acceder a múltiples sistemas con una única credencial, asegurando la autenticación y autorización.
¿Por qué son importantes los estándares de interoperabilidad en un espacio de datos?
Los estándares garantizan que los datos de diferentes fuentes puedan ser entendidos e integrados de manera eficiente.
¿Qué aspectos organizativos son fundamentales para un espacio de datos?
Gobernanza de datos, políticas de privacidad, acuerdos de colaboración, modelos de negocio.
¿Cómo se garantiza la seguridad y privacidad de los datos en un espacio de datos?
A través de mecanismos de cifrado, control de acceso, auditoría y cumplimiento de regulaciones como el RGPD.
¿Qué papel juegan los modelos de negocio en un espacio de datos?
Los modelos de negocio definen cómo se genera valor a partir de los datos compartidos, como por ejemplo, a través de la creación de nuevos servicios o productos.
¿Qué es una ciudad inteligente?
Una ciudad inteligente es aquella que utiliza tecnologías de la información y la comunicación para mejorar la calidad de vida de sus ciudadanos, optimizar los recursos y promover la sostenibilidad.
¿Cuál es el papel del IoT en las ciudades inteligentes?
El IoT permite conectar dispositivos y objetos físicos a internet, generando grandes cantidades de datos que pueden ser utilizados para tomar decisiones más informadas y mejorar la gestión de la ciudad.
¿Cuáles son algunas aplicaciones del IoT en las ciudades inteligentes?
Gestión del tráfico, alumbrado público inteligente, gestión de residuos, monitorización de la calidad del aire, sistemas de riego inteligentes.
¿Cómo se utiliza el IoT para mejorar la movilidad urbana?
A través de sensores en vehículos, semáforos inteligentes y sistemas de transporte público conectados, se puede optimizar el flujo del tráfico y reducir la congestión.
¿Qué tipos de datos se recopilan en una ciudad inteligente?
Datos de sensores (temperatura, humedad, ruido), datos de movilidad (tráfico, transporte público), datos de consumo energético, datos de servicios públicos.
¿Cómo se analizan estos datos?
Se utilizan técnicas de big data y análisis predictivo para extraer patrones y tendencias, y tomar decisiones basadas en datos.