Parcial I Flashcards
¿Qué es una base de datos relacional?
Una base de datos relacional es un tipo de base de datos que almacena y proporciona acceso a puntos de datos relacionados entre sí. Las bases de datos relacionales se basan en el modelo relacional, una forma intuitiva y directa de representar datos en tablas.
¿Qué tipo de modelos se utilizan en las bases de datos relacionales?
Modelo relacional: un conjunto de tablas, similares a las tablas de una hoja de cálculo, formadas por filas (registros) y columnas (campos). Los registros representan cada uno de los objetos descritos en la tabla y los campos los atributos (variables de cualquier tipo) de los objetos. En el modelo relacional de base de datos, las tablas comparten algún campo entre ellas. Estos campos compartidos van a servir para establecer relaciones entre las tablas que permitan consultas.
Modelo conceptual: son los orientados a la descripción de estructuras de datos y restricciones de integridad. Se usan fundamentalmente durante la etapa de Análisis de un problema dado y están orientados a representar los elementos que intervienen en ese problema y sus relaciones. Es el MODELO NTIDAD/RELACIÓN.
Modelo lógico: son orientados a las operaciones más que a la descripción de una realidad. Usualmente están implementados en algún Gestor de Base de Datos. El ejemplo más típico es el Modelo Relacional, que cuenta con la particularidad de contar también con buenas características conceptuales (Normalización de base de datos).
* DER Conceptual.
* DER Lógico.
* DER Físico.
¿Cuál es el papel que desempeña la normalización en las bases de datos relacionales?
La Normalización consiste en poder diseñar una base de datos, o conjunto de bases de datos, que tenga un esquema específico orientado a: la integridad de datos, evitar redundancias, inconsistencia de datos, animalias de la actualización y tratamiento de dato, redundancia, respetar la integridad de los datos, etc.
Todo esto permite que la estructura de los datos sea eficiente. Al tener una estructura de datos eficiente, permite una mejor performance. Esto permite hacer Querys adecuadas y performantes.
El fin de normalizar es:
* Evitar la redundancia de los datos.
* Disminuir problemas de actualización de los datos en las tablas.
* Proteger la integridad de los datos.
* Facilitar el acceso e interpretación de los datos.
* Reducir el tiempo y complejidad de revisión de las bases de datos.
* Optimizar el espacio de almacenamiento.
* Prevenir borrados indeseados de datos.
¿Es crítico el tipo de almacenamiento en este tipo de bases de datos?
Si, ya que afecta el rendimiento, la integridad de los datos y la escalabilidad. Un almacenamiento bien diseñado mejora la eficiencia y evita problemas de redundancia e inconsistencias.
¿Qué tipo de operaciones permiten y registran estas bases de datos?
Las operaciones que se pueden realizar en una base de datos pueden ser las siguientes:
* Crear. (A)
* Eliminar. (B)
* Modificar / Incorporar datos. (M)
* Consultas de extracción de datos. (C)
CRUD (Create, Read, Update, Delete).
Inclusive todas las del algebra relacional.
Fundamentales:
* Unión
* Intersección
* Diferencia
* Producto Cartesiano
Especiales:
* Selección
* Proyección
* Reunión
* División
¿Qué es una base de datos para tomar decisiones?
Una base de datos para tomar decisiones, como un data warehouse, está diseñada para almacenar y analizar grandes volúmenes de datos con el objetivo de apoyar el proceso de toma de decisiones.
¿Qué es OLTP?
OLTP es un sistema que gestiona aplicaciones orientadas a transacciones en Internet, por ejemplo, ATM.
¿Qué es OLAP?
OLAP es un sistema en línea que reporta a consultas analíticas multidimensionales como informes financieros, pronósticos, etc.
¿Qué diferencias existen entre ambos tipos de tecnologías?
- El punto que distingue a OLTP y OLAP es que OLTP es un sistema de transacciones en línea, mientras que OLAP es un sistema de recuperación y análisis de datos en línea.
- Los datos transaccionales en línea se convierten en la fuente de datos para OLTP. Sin embargo, la base de datos OLTPs diferente se convierte en la fuente de datos para OLAP.
- Las operaciones principales de OLTP son insertar, actualizar y eliminar, mientras que la operación principal de OLAP es extraer datos multidimensionales para su análisis.
¿Qué es un Data warehouse?
Es un repositorio estructurado, a nivel Empresa (datos globales de la empresa), de datos orientados hacia áreas de negocio. Contiene datos históricos y está preparado para facilitar la toma de decisiones. Está compuesto por una colección de Data Marts
¿Qué es un Data Mart?
Es un repositorio al igual que los Data Warehouse, difieren de ellos en el ámbito del alcance, ya que los Data Mart son un subconjunto temático de datos, orientado a un proceso o un área de negocio específica. Los Data Warehouse están compuestos por un conjunto de Data Marts.
¿Qué es un cubo multidimensional?
Son estructuras de datos multidimensionales (Una tabla es unidimensional) que permiten analizar, de forma performante, bases de datos relacionales con una gran complejidad, variedad y escalabilidad de sus datos. En este tipo de estructura, cada dimensión del cubo equivale a un campo de dimensiones en la tabla, mientras que la información almacenada en cada celda del cubo corresponde a los hechos.
¿Cuál es la utilidad de tener un Data warehouse?
El beneficio de utilizar Data Warehouse recae en la centralización de los datos globales y el almacenamiento de datos históricos. En los Data Warehouse se almacenan los datos en su estado listo para el análisis, en un sistema apartado de la base de datos operacional, de forma que no aumenta la carga en la misma. Los Data Warehouse permiten monitorear y predecir comportamientos, realizar analisis estadisticos, generar informes, mejorar la calidad de toma de decisiones de la empresa y optimizar la capacidad de respuesta.
¿Qué es un origen de datos?
Los lugares de donde las bases de datos multidimensionales extraen la información que almacenan, ya que estas no los generan por su cuenta. Se realiza mediante un proceso llamado ETL (Extract, Transform, Load)
¿Cuáles pueden ser los distintos tipos de orígenes de datos a través de los cuales se alimenta un Data warehouse?
Los orígenes de datos pueden ser:
- Bases de datos relacionales y no relacionales.
- Sistemas ERP (Enterprise Resource Planning), que integran y gestionan procesos empresariales.
- Sistemas CRM (Customer Relationship Management), son plataformas que gestionan información sobre los clientes, ventas y marketing.
- Archivos (texto, excel, json, etc.)
¿Cómo hago para conectarme a un origen de datos?
Esto dependerá de la herramienta utilizada para implementar nuestro DW y a su vez de los orígenes de datos que se necesiten.
* Seleccionar el tipo de origen de datos.
* Indicar información para la conexión. Por ejemplo, si seleccionamos base de datos, deberemos especificar el servidor de nuestra base de datos.
* Indicar las credenciales de acceso. Por ejemplo, de base de datos, usuario y contraseña.
* Seleccionar el origen concreto. Siguiendo el ejemplo, nuestra base de datos concreta de la cual leer la información para nuestro DW.
¿Qué es una interfaz?
Es un conjunto de herramientas, protocolos o puntos de acceso que permiten la conexión entre bases de datos, aplicaciones u otros sistemas. Permiten a acceder a funciones o datos de otro software sin necesidad de tener que modificar el codigo interno.
¿Qué es un proceso ETL?
Las siglas se refieren a Extraction, Transformation y Load, extracción, transformación y carga respectivamente. En la extracción se evalúan diferentes orígenes de datos. En la transformación se realizan las conversiones necesarias para garantizar homogeneidad en los
datos que serán almacenados. En la carga se realiza la inserción de los datos transformados hacia la tabla de destino para ser persistidos y luego consultados
ETL: que es un origen de datos
Un origen de datos se lo considera a cualquier fuente de datos de los cuales queremos extraer la información o datos.
Arme una lista de los posibles orígenes de datos que puede encontrarse cuando trabaja con un DW
A. Archivos de texto
B. Archivos de excel
C. Archivos de access
D. Otras bases de datos tanto internas como externas y/o de diferentes tecnologías
relacionales y no relacionales
E. Archivos json
F. Web scrapping y/o WebServices
G. Sistemas CRM y/o ERP
Como hace para tomar los datos presentes de un origen de datos y llevarlo al DW.
Mediante un proceso de ingesta y transformación conocido como ETL agrupando y organizando los datos relevantes para el objeto de estudio.
Fase de extracción. Consiste en captar datos de varias fuentes. Estos datos extraídos son guardados en su forma original en almacenes de datos, normalmente en sistemas cloud, para luego poder ser tratados.
Fase de transformación. Consiste en procesar los datos de forma que sean coherentes con el modelo de negocio de la organización. En la fase de extracción, los datos capturados pueden estar categorizados como datos estructurados o no estructurados, y todos ellos han de ser transformados para poder obtener información de ellos. Los datos no estructurados son mucho más complejos de transformar puesto que no poseen una estructura interna determinada. Ambos tipos de datos han de ser transformados de forma que sigan las reglas de negocio de la organización. Es decir, han de ser normalizados, clasificados y verificados según el tipo de empresa en particular.
Fase de carga. Consiste en almacenar los datos ya transformados en un sistema destino del que se puedan nutrir todas las áreas de la organización. Estos sistemas de almacenamiento reciben el nombre de DW y son el origen de datos para distintas herramientas.
¿Cuál es la diferencia entre un Sistema Transaccional (OLTP) y un sistema de Procesamiento Analítico en Línea (OLAP)?
La diferencia principal entre OLTP y OLAP radica en que en OLTP se usa en el día a día para el procesamiento de transacciones, mientras que en OLAP los datos quedan consolidados y resumidos a una fecha de corte determinada, sin la posibilidad (o con poca posibilidad) de
realizar modificaciones en los mismos, esto brinda una mayor agilidad al momento de consultar los datos cuando hablamos de datos históricos. En OLAP se busca el análisis de datos
para realizar una mejor planificación estratégica y toma de decisiones de la empresa
Enuncie que diseños de bases de datos multidimensionales conoce.
En el diseño de bases de datos multidimensionales se utilizan generalmente las medidas, las dimensiones y los cubos, cuentan también con funciones de agregación. El lenguaje usado se
lo llama MDX que significa Multi Dimensional Expressions.
Y cuenta con los diseños:
A. MOLAP utilizado con orígenes de datos multidimensionales
B. ROLAP utilizado con orígenes de datos relacionales
¿Cuáles son las características principales de un diseño estrella?
Las características principales de un diseño estrella son:
Estructura del esquema
➢ Tabla de Hechos: es la tabla central la cual va a contener los datos que se van a querer analizar. Incluye columnas con claves foráneas que referencian tabla dimensiones.
➢ Tabla de Dimensiones: son las tablas que rodean a la tabla de hechos y describen las entidades relacionadas. Estas tablas tienen una clave primaria única.
Relaciones. Las tablas de hechos están conectadas a varias tablas de dimensiones a través de claves foráneas, formando una relación de uno a muchos, desde la tabla de hechos hacia las tablas de dimensiones. Las tablas de dimensiones o están conectadas entre si
Desnormalización. Las tablas de dimensiones están desnormalizadas para poder tener datos redundantes para mejorar el rendimiento de las consultas.
¿Cuál es la diferencia entre el modelo estrella y el copo de nieve?
La diferencia entre el modelo estrella y el modelo copo de nieve es que el modelo estrella posee una sola capa de dimensiones. Es decir, cuando se crea el modelo estrella, se tiene una tabla de hechos y distintas tablas de dimensiones. En cambio, en el modelo copo de nieve, se tiene una tabla de hechos, dimensiones y subdimensiones, es decir, estas tablas se normalizan.
Esto se hace fundamentalmente para permitir distintos enfoques de análisis entre dimensiones. Por ejemplo, si tengo una dimensión de región donde están divididos los países, es muy difícil hacer agrupaciones a nivel de localidades. Sin embargo, si además de la
dimensión de región tengo otra subdimensión que represente las localidades, podría realizar distintos análisis tanto a nivel de localidades como de países. Una de las principales desventajas del modelo copo de nieve es que complica el tiempo de ejecución de las consultas debido a la normalización, lo que puede complejizar los joins
¿Por qué piensa que es más eficiente utilizar un sistema OLAP por sobre un sistema OLTP, cuando se requiere información consolidada para la toma de decisiones?
Un sistema OLAP es más eficiente para la toma de decisiones porque está optimizado para consultas complejas y agregaciones de datos históricos, permitiendo un análisis rápido y multidimensional. Esto evita afectar el rendimiento de las operaciones transaccionales diarias, algo que un sistema OLTP no puede manejar tan eficientemente.
¿Cuáles son los cuatro pasos principales para la creación de un Data warehouse?
- FUENTES: recolección de datos:
a) Externas.
b) Bases de datos.
c) Internas.
d) Etc.
En base a los requerimientos en la etapa inicial, donde se define las necesidades y objetivos, se identifican los posibles orígenes de datos. - ETL: Extracción, Transformación y Carga de datos.
Se encarga de llevar el dato del sistema origen al DW en el formato deseado, generando un dato de calidad. - ALMACENAMIENTO.
a) Data marts.
b) Bodega de datos.
c) Lagos de datos.
Se puede ver como el propio DW. El contenido es información que se puede traducir a datos que llegan con el máximo nivel de detalle. - AGREGACION.
- VISUALIZACION del DW ya creado.
Donde se provee una capa de acceso para los sistemas que se encarguen de generar conocimiento en de algún formato o representación visual (ej, dashboards) que permite realizar toma de decisiones.
V o F. El modelo estrella y el modelo copo de nieve poseen una tabla de hechos que se ubica en el centro.
VERDADERO. Ambos modelos usan una tabla de hechos que almacena los datos cuantitativos que se van a analizar. Las tablas de dimensiones rodean a la tabla de hechos y proporcionan contexto descriptivo. La diferencia se encuentra en la estructura de las tablas de dimensiones ya que el modelo copo de nieve las normaliza.
V o F. Una base de datos multidimensional se encuentra normalizada. F
FALSO. Las bases de datos multidimensionales suelen encontrarse desnormalizadas para mejorar el rendimiento de las consultas