Parte 2 - Tema 49 Flashcards
Tecnologías y sistemas de explotación de datos
¿Qué es un data lake?
Un data lake es un repositorio centralizado que almacena grandes volúmenes de datos estructurados, semiestructurados y no estructurados en su formato nativo. A diferencia de un data warehouse, no requiere un esquema predefinido, lo que permite mayor flexibilidad.
¿Cuál es la principal diferencia entre un data lake y un data warehouse?
El data lake almacena datos en bruto y sin procesar, mientras que el data warehouse almacena datos estructurados y transformados para análisis específicos.
¿Para qué se utiliza un data lake?
Se utiliza para almacenar y procesar grandes cantidades de datos de diversas fuentes, permitiendo realizar análisis exploratorios y descubrir nuevos insights.
¿Cuáles son las principales características de un data lake?
Escalabilidad, flexibilidad, almacenamiento de datos en bruto, soporte para múltiples formatos de datos, capacidad de procesamiento de grandes volúmenes de datos.
¿Cuáles son los beneficios de utilizar un data lake?
Mayor agilidad en el análisis de datos, reducción de costos, mejora en la toma de decisiones, descubrimiento de nuevos insights.
¿Qué tipos de datos se pueden almacenar en un data lake?
Datos estructurados (bases de datos relacionales), semiestructurados (JSON, XML) y no estructurados (texto, imágenes, videos).
¿Qué tecnologías se utilizan para implementar un data lake?
Hadoop, Spark, Amazon S3, Azure Data Lake Storage, Google Cloud Storage.
¿Qué herramientas se utilizan para procesar los datos en un data lake?
Apache Spark, Hive, Presto, Athena.
¿Qué herramientas se utilizan para visualizar los datos de un data lake?
Tableau, Power BI, Looker.
¿Cuáles son los principales desafíos al implementar un data lake?
Gestión de la calidad de los datos, seguridad de los datos, gobernanza de los datos, costos de almacenamiento y procesamiento.
¿Qué es la gobernanza de datos en un data lake?
Es el conjunto de políticas, procesos y controles necesarios para garantizar la calidad, seguridad y accesibilidad de los datos en el data lake.
¿Qué es un data warehouse?
Un data warehouse es un repositorio centralizado que almacena una gran cantidad de datos históricos y detallados, provenientes de diversas fuentes, con el objetivo de apoyar la toma de decisiones estratégicas en una organización.
¿Cuál es la diferencia entre un data warehouse y una base de datos operacional?
Un data warehouse está optimizado para análisis y consulta, mientras que una base de datos operacional está diseñada para transacciones en tiempo real.
¿Para qué se utiliza un data warehouse?
Se utiliza para integrar datos de múltiples fuentes, analizar tendencias, identificar patrones y facilitar la toma de decisiones basadas en datos.
¿Cuáles son las principales características de un data warehouse?
Orientado a temas, integrado, no volátil, de grano fino, histórico.
¿Cuáles son los beneficios de utilizar un data warehouse?
Mejora de la toma de decisiones, consolidación de datos, optimización de procesos, descubrimiento de conocimiento.
¿Cuáles son los componentes principales de un data warehouse?
Fuentes de datos, ETL (Extracción, Transformación, Carga), almacenamiento de datos, herramientas de consulta y análisis.
¿Qué es un proceso ETL?
Es un proceso que extrae datos de diversas fuentes, los transforma para unificarlos y los carga en el data warehouse.
¿Qué tecnologías se utilizan para implementar un data warehouse?
SQL Server, Oracle Database, Teradata, Google BigQuery, Amazon Redshift.
¿Qué herramientas se utilizan para analizar los datos en un data warehouse?
SQL, herramientas de Business Intelligence (BI) como Tableau, Power BI, Qlik.
¿Cuáles son los principales desafíos al implementar un data warehouse?
Calidad de los datos, complejidad del diseño, costos de implementación y mantenimiento, integración con sistemas existentes.
¿Qué es la gobernanza de datos en un data warehouse?
Es el conjunto de políticas y procesos para garantizar la calidad, seguridad y accesibilidad de los datos en el data warehouse.
¿Qué es un data lakehouse?
Un data lakehouse combina las mejores características de un data lake y un data warehouse en una única plataforma. Ofrece almacenamiento sin esquemas para datos sin procesar y capacidades de procesamiento analítico estructurado, todo en un solo lugar.
¿Cuál es la principal diferencia entre un data lakehouse y un data lake o un data warehouse?
El data lakehouse une la flexibilidad de un data lake para almacenar datos sin estructura y la capacidad de procesamiento analítico de un data warehouse.