Data Warehouse Flashcards
¿Que es Data Warehouse Manager?
Es una base de datos con estructura multidimensional, tiene una forma específica de almacenamiento en la cual se definen dos estructuras principales:
Tablas de Hechos y
Tablas de Dimensiones.
¿Que facilita la utilización de esta forma de almacenamiento ?
La utilización de tablas de Hechos y Dimensiones, facilita la creación de estructuras de datos (Cubos Multidimensionales, Business Models, etc.) y posibilita que las consultas al SGBD sean respondidas con mucha performance.
¿Que es Data Warehousing?
Proceso que reúne y ordena las tareas inherentesa:
La extracción, transformación, consolidación, integración y centralización de los datos internos y externos relacionados. Para almacenar estos datos se utiliza un Data Warehouse.
¿Que es Data Warehouse?
Un Data Warehouse es una colección de datos orientada al negocio, integrada, variante en el tiempo y no volátil para el soporte del proceso de toma de decisiones de la gerencia.
¿Que significa que DW es orientada al negocio?
Al DW solo ingresarán datos relevantes para el análisis y toma de decisiones.
La estructura será multidimensional, es decir que almacenará sus datos en tablas de Hechos y tablas de Dimensión.
¿Que significa que DW es integrada?
Implica que todos los datos provenientes de orígenes heterogéneos deben ser analizados a fin de asegurar su calidad y limpieza para luego ser consolidados en el DW. El proceso que permite esta consolidación, se denomina Integración de Datos, y cuenta con diversas técnicas. Una de estas técnicas es el proceso ETL: Extracción, Transformación y Carga de datos (Extraction, Transformation and Load).
¿Que significa que DW es variante en el tiempo?
En el DW los datos actuales son almacenados junto a los datos históricos, y cada dato es marcado con su correspondiente sello de tiempo (timestamps).
Mediante este sello de tiempo se podrá tener acceso a diferentes versiones de una misma situación.
¿Que significa que DW es no volatil?
Una vez que los datos ingresan NO cambian.
En DW solo existen dos tipos de acciones:
Insertar: esta acción la realizan de forma programada los procesos de Integración de Datos.
Consultar: esta es la única acción que l@s usuari@s pueden realizar sobre los datos.
¿Cualidades del DW?
-Maneja un gran volumen de datos, debido a que integra los datos recolectados durante años, proveniente de diversos orígenes y fuentes, en una sola base de datos centralizada.
-Almacena datos agregados, actuales e históricos.
-Estructura los datos de forma multidimensional.
¿Data source?
Representan los datos transaccionales que genera la empresa en su accionar diario, junto a otros datos internos y/o externos complementarios.
Los Data Sources poseen características muy disímiles entre sí, en formato, procedencia, función, etc. En la actualidad esto se ve potenciado gracias a los web services, redes sociales, y a la utilización cada vez más frecuente de bases de datos NoSQL.
¿Load Manager?
El componente Load Manager es el encargado de la ejecución y calendarización (scheduling) de los diferentes procesos de Integración de Datos a través de los cuales:
se extraerán los datos desde los Data Sources,
serán manipulados, integrados y transformados, para luego
cargar los resultados obtenidos en el DW.
¿Query manager?
Es el encargado de realizar las operaciones necesarias para soportar los procesos de gestión y ejecución de:
consultas relacionales: como JOIN y agregaciones (SUM, COUNT, AVG, etc), y
consultas propias del análisis de datos: como DRILL-UP y DRILL-DOWN.
¿Cual es el funcionamiento del query manager?
Recibe consultas de l@s usuari@s, que en general están escritas en un lenguaje de alto nivel (por ejemplo MDX);
lee los metadatos que describen los mapeos (Cubo Multidimensional, Business Models, etc.) y reescribe las consultas para que sean ejecutadas en el sistema destino (por lo general SQL);
una vez que obtiene los datos y utilizando, nuevamente, las estructuras de metadatos, éstos son transformados a un formato final de alto nivel que será interpretado y renderizado por las herramientas de visualización.
Las principales operaciones que se pueden realizar sobre modelos multidimensionales son:
Drill-down
Drill-up
Drill-across
Roll-across
Pivot
Page
Drill-through
¿Software Analytics?
Son todas aquellas herramientas de software mediante las cuales podremos explorar y explotar los datos almacenados en el DW.
¿Caracteristicas de la mayoria de los software Analytics?
-Accesibilidad a la información: el acceso a la información es transparente a l@s usuari@s finales
-Apoyo en la toma de decisiones: permiten la exploración de los datos, a fin de seleccionar, filtrar y personalizar los mismos, para la obtención de información oportuna, relevante y útil, para apoyar el proceso de toma de decisiones.
¿Herramientas de consulta y análisis?
Reporting
OLAP
Dashboards
Data Mining
EIS
Herramientas de reporting
Las herramientas de Reporting ofrecen a l@s usuari@s, a través de pantallas gráficas intuitivas, la posibilidad de generar informes avanzados y detallados del tema de interés que se esté analizando.
OLAP
On Line Analytic Processing
Su principal objetivo es el de brindar respuestas rápidas a complejas preguntas, para interpretar la situación del negocio y tomar decisiones. Cabe destacar que lo que es realmente interesante en OLAP, NO es la ejecución de simples consultas tradicionales, sino la posibilidad de utilizar operadores tales como Drill-up, Drill-down,
Dashboards
Los Dashboards se pueden entender como una colección de componentes gráficos de análisis como: reportes, tablas, gráficos, consultas y análisis interactivos, etc; que hacen referencia a un tema en particular y que están relacionados entre sí.
Data Mining
Se emplea para analizar factores de influencia en determinados procesos, predecir comportamientos futuros, extraer conocimientos ocultos, agrupar ítems similares, obtener secuencias de eventos que provocan comportamientos específicos.
Rolap y Molap
Rolap y Molap son dos categorías de Olap. Si Rolap se centraba en el análisis de bases relacionales, Molap hace lo propio con el procesamiento analítico multidimensional. Para ello se nutre de bases de datos multidimensionales cuya particularidad es que da una única tabla más optimizada
Tercera forma normal
Busca es que todas las claves no primarias de la relación no posean dependencias funcionales con otros atributos que tampoco son claves primarias.
De modo que si deseo transformar una relación que no está en tercera forma normal, lo que deberá hacerse es remover los atributos no clave que dependen de otros atributos no clave.
Tablas de Dimensiones
Contienen datos cualitativos y
representan los aspectos de interés,
mediante los cuales l@s usuari@s podrán filtrar y manipular los Hechos almacenados en las tablas de Hechos.
Campos de una tabla de dimensión
-Clave principal.
-Claves foráneas (solo para esquemas copo de nieve y constelación).
-Datos de referencia primarios: datos que identifican la Dimensión. Por ejemplo: nombre del cliente.
-Datos de referencia secundarios: datos que complementan la descripción de la Dimensión. Por ejemplo: e-mail del cliente, celular del cliente, etc. Estos datos no son significativos para tomar decisiones, pero son potencialmente valiosos para implementarla.