Data Warehouse Flashcards
¿Que es Data Warehouse Manager?
Es una base de datos con estructura multidimensional, tiene una forma específica de almacenamiento en la cual se definen dos estructuras principales:
Tablas de Hechos y
Tablas de Dimensiones.
¿Que facilita la utilización de esta forma de almacenamiento ?
La utilización de tablas de Hechos y Dimensiones, facilita la creación de estructuras de datos (Cubos Multidimensionales, Business Models, etc.) y posibilita que las consultas al SGBD sean respondidas con mucha performance.
¿Que es Data Warehousing?
Proceso que reúne y ordena las tareas inherentesa:
La extracción, transformación, consolidación, integración y centralización de los datos internos y externos relacionados. Para almacenar estos datos se utiliza un Data Warehouse.
¿Que es Data Warehouse?
Un Data Warehouse es una colección de datos orientada al negocio, integrada, variante en el tiempo y no volátil para el soporte del proceso de toma de decisiones de la gerencia.
¿Que significa que DW es orientada al negocio?
Al DW solo ingresarán datos relevantes para el análisis y toma de decisiones.
La estructura será multidimensional, es decir que almacenará sus datos en tablas de Hechos y tablas de Dimensión.
¿Que significa que DW es integrada?
Implica que todos los datos provenientes de orígenes heterogéneos deben ser analizados a fin de asegurar su calidad y limpieza para luego ser consolidados en el DW. El proceso que permite esta consolidación, se denomina Integración de Datos, y cuenta con diversas técnicas. Una de estas técnicas es el proceso ETL: Extracción, Transformación y Carga de datos (Extraction, Transformation and Load).
¿Que significa que DW es variante en el tiempo?
En el DW los datos actuales son almacenados junto a los datos históricos, y cada dato es marcado con su correspondiente sello de tiempo (timestamps).
Mediante este sello de tiempo se podrá tener acceso a diferentes versiones de una misma situación.
¿Que significa que DW es no volatil?
Una vez que los datos ingresan NO cambian.
En DW solo existen dos tipos de acciones:
Insertar: esta acción la realizan de forma programada los procesos de Integración de Datos.
Consultar: esta es la única acción que l@s usuari@s pueden realizar sobre los datos.
¿Cualidades del DW?
-Maneja un gran volumen de datos, debido a que integra los datos recolectados durante años, proveniente de diversos orígenes y fuentes, en una sola base de datos centralizada.
-Almacena datos agregados, actuales e históricos.
-Estructura los datos de forma multidimensional.
¿Data source?
Representan los datos transaccionales que genera la empresa en su accionar diario, junto a otros datos internos y/o externos complementarios.
Los Data Sources poseen características muy disímiles entre sí, en formato, procedencia, función, etc. En la actualidad esto se ve potenciado gracias a los web services, redes sociales, y a la utilización cada vez más frecuente de bases de datos NoSQL.
¿Load Manager?
El componente Load Manager es el encargado de la ejecución y calendarización (scheduling) de los diferentes procesos de Integración de Datos a través de los cuales:
se extraerán los datos desde los Data Sources,
serán manipulados, integrados y transformados, para luego
cargar los resultados obtenidos en el DW.
¿Query manager?
Es el encargado de realizar las operaciones necesarias para soportar los procesos de gestión y ejecución de:
consultas relacionales: como JOIN y agregaciones (SUM, COUNT, AVG, etc), y
consultas propias del análisis de datos: como DRILL-UP y DRILL-DOWN.
¿Cual es el funcionamiento del query manager?
Recibe consultas de l@s usuari@s, que en general están escritas en un lenguaje de alto nivel (por ejemplo MDX);
lee los metadatos que describen los mapeos (Cubo Multidimensional, Business Models, etc.) y reescribe las consultas para que sean ejecutadas en el sistema destino (por lo general SQL);
una vez que obtiene los datos y utilizando, nuevamente, las estructuras de metadatos, éstos son transformados a un formato final de alto nivel que será interpretado y renderizado por las herramientas de visualización.
Las principales operaciones que se pueden realizar sobre modelos multidimensionales son:
Drill-down
Drill-up
Drill-across
Roll-across
Pivot
Page
Drill-through
¿Software Analytics?
Son todas aquellas herramientas de software mediante las cuales podremos explorar y explotar los datos almacenados en el DW.
¿Caracteristicas de la mayoria de los software Analytics?
-Accesibilidad a la información: el acceso a la información es transparente a l@s usuari@s finales
-Apoyo en la toma de decisiones: permiten la exploración de los datos, a fin de seleccionar, filtrar y personalizar los mismos, para la obtención de información oportuna, relevante y útil, para apoyar el proceso de toma de decisiones.