Data Warehouse Flashcards

1
Q

¿Que es Data Warehouse Manager?

A

Es una base de datos con estructura multidimensional, tiene una forma específica de almacenamiento en la cual se definen dos estructuras principales:

Tablas de Hechos y
Tablas de Dimensiones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Que facilita la utilización de esta forma de almacenamiento ?

A

La utilización de tablas de Hechos y Dimensiones, facilita la creación de estructuras de datos (Cubos Multidimensionales, Business Models, etc.) y posibilita que las consultas al SGBD sean respondidas con mucha performance.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Que es Data Warehousing?

A

Proceso que reúne y ordena las tareas inherentesa:

La extracción, transformación, consolidación, integración y centralización de los datos internos y externos relacionados. Para almacenar estos datos se utiliza un Data Warehouse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Que es Data Warehouse?

A

Un Data Warehouse es una colección de datos orientada al negocio, integrada, variante en el tiempo y no volátil para el soporte del proceso de toma de decisiones de la gerencia.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Que significa que DW es orientada al negocio?

A

Al DW solo ingresarán datos relevantes para el análisis y toma de decisiones.
La estructura será multidimensional, es decir que almacenará sus datos en tablas de Hechos y tablas de Dimensión.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Que significa que DW es integrada?

A

Implica que todos los datos provenientes de orígenes heterogéneos deben ser analizados a fin de asegurar su calidad y limpieza para luego ser consolidados en el DW. El proceso que permite esta consolidación, se denomina Integración de Datos, y cuenta con diversas técnicas. Una de estas técnicas es el proceso ETL: Extracción, Transformación y Carga de datos (Extraction, Transformation and Load).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Que significa que DW es variante en el tiempo?

A

En el DW los datos actuales son almacenados junto a los datos históricos, y cada dato es marcado con su correspondiente sello de tiempo (timestamps).

Mediante este sello de tiempo se podrá tener acceso a diferentes versiones de una misma situación.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Que significa que DW es no volatil?

A

Una vez que los datos ingresan NO cambian.
En DW solo existen dos tipos de acciones:

Insertar: esta acción la realizan de forma programada los procesos de Integración de Datos.
Consultar: esta es la única acción que l@s usuari@s pueden realizar sobre los datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Cualidades del DW?

A

-Maneja un gran volumen de datos, debido a que integra los datos recolectados durante años, proveniente de diversos orígenes y fuentes, en una sola base de datos centralizada.
-Almacena datos agregados, actuales e históricos.
-Estructura los datos de forma multidimensional.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Data source?

A

Representan los datos transaccionales que genera la empresa en su accionar diario, junto a otros datos internos y/o externos complementarios.

Los Data Sources poseen características muy disímiles entre sí, en formato, procedencia, función, etc. En la actualidad esto se ve potenciado gracias a los web services, redes sociales, y a la utilización cada vez más frecuente de bases de datos NoSQL.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Load Manager?

A

El componente Load Manager es el encargado de la ejecución y calendarización (scheduling) de los diferentes procesos de Integración de Datos a través de los cuales:

se extraerán los datos desde los Data Sources,
serán manipulados, integrados y transformados, para luego
cargar los resultados obtenidos en el DW.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Query manager?

A

Es el encargado de realizar las operaciones necesarias para soportar los procesos de gestión y ejecución de:

consultas relacionales: como JOIN y agregaciones (SUM, COUNT, AVG, etc), y
consultas propias del análisis de datos: como DRILL-UP y DRILL-DOWN.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Cual es el funcionamiento del query manager?

A

Recibe consultas de l@s usuari@s, que en general están escritas en un lenguaje de alto nivel (por ejemplo MDX);
lee los metadatos que describen los mapeos (Cubo Multidimensional, Business Models, etc.) y reescribe las consultas para que sean ejecutadas en el sistema destino (por lo general SQL);
una vez que obtiene los datos y utilizando, nuevamente, las estructuras de metadatos, éstos son transformados a un formato final de alto nivel que será interpretado y renderizado por las herramientas de visualización.
Las principales operaciones que se pueden realizar sobre modelos multidimensionales son:

Drill-down
Drill-up
Drill-across
Roll-across
Pivot
Page
Drill-through

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Software Analytics?

A

Son todas aquellas herramientas de software mediante las cuales podremos explorar y explotar los datos almacenados en el DW.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Caracteristicas de la mayoria de los software Analytics?

A

-Accesibilidad a la información: el acceso a la información es transparente a l@s usuari@s finales
-Apoyo en la toma de decisiones: permiten la exploración de los datos, a fin de seleccionar, filtrar y personalizar los mismos, para la obtención de información oportuna, relevante y útil, para apoyar el proceso de toma de decisiones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Herramientas de consulta y análisis?

A

Reporting
OLAP
Dashboards
Data Mining
EIS

17
Q

Herramientas de reporting

A

Las herramientas de Reporting ofrecen a l@s usuari@s, a través de pantallas gráficas intuitivas, la posibilidad de generar informes avanzados y detallados del tema de interés que se esté analizando.

18
Q

OLAP

A

On Line Analytic Processing
Su principal objetivo es el de brindar respuestas rápidas a complejas preguntas, para interpretar la situación del negocio y tomar decisiones. Cabe destacar que lo que es realmente interesante en OLAP, NO es la ejecución de simples consultas tradicionales, sino la posibilidad de utilizar operadores tales como Drill-up, Drill-down,

19
Q

Dashboards

A

Los Dashboards se pueden entender como una colección de componentes gráficos de análisis como: reportes, tablas, gráficos, consultas y análisis interactivos, etc; que hacen referencia a un tema en particular y que están relacionados entre sí.

20
Q

Data Mining

A

Se emplea para analizar factores de influencia en determinados procesos, predecir comportamientos futuros, extraer conocimientos ocultos, agrupar ítems similares, obtener secuencias de eventos que provocan comportamientos específicos.

21
Q

Rolap y Molap

A

Rolap y Molap son dos categorías de Olap. Si Rolap se centraba en el análisis de bases relacionales, Molap hace lo propio con el procesamiento analítico multidimensional. Para ello se nutre de bases de datos multidimensionales cuya particularidad es que da una única tabla más optimizada

22
Q

Tercera forma normal

A

Busca es que todas las claves no primarias de la relación no posean dependencias funcionales con otros atributos que tampoco son claves primarias.
De modo que si deseo transformar una relación que no está en tercera forma normal, lo que deberá hacerse es remover los atributos no clave que dependen de otros atributos no clave.

23
Q

Tablas de Dimensiones

A

Contienen datos cualitativos y
representan los aspectos de interés,
mediante los cuales l@s usuari@s podrán filtrar y manipular los Hechos almacenados en las tablas de Hechos.

24
Q

Campos de una tabla de dimensión

A

-Clave principal.
-Claves foráneas (solo para esquemas copo de nieve y constelación).
-Datos de referencia primarios: datos que identifican la Dimensión. Por ejemplo: nombre del cliente.
-Datos de referencia secundarios: datos que complementan la descripción de la Dimensión. Por ejemplo: e-mail del cliente, celular del cliente, etc. Estos datos no son significativos para tomar decisiones, pero son potencialmente valiosos para implementarla.

25
Q

Tablas de Hechos

A

Contienen los Hechos que serán utilizados por l@s usuari@s del DW para analizar y responder preguntas de negocio.

Los Hechos (o Dato agregado):

son datos cuantitativos,
que son filtrados, agrupados y explorados a través de condiciones definidas en las tablas de Dimensiones.
Los datos presentes en las tablas de Hechos constituyen el volumen del DW, y pueden estar compuestos por millones de registros dependiendo de su granularidad y la antigüedad de la organización.

El registro del Hecho posee una clave primaria que está compuesta por las claves primarias de las tablas de Dimensiones relacionadas a éste.

Algunos ejemplos de Hechos y su constitución:

importeTotal = precioProducto * cantidadVendida

26
Q

Cubo multidimensional

A

Un Cubo Multidimensional, representa los datos planos (que se encuentran en filas y columnas), en una matriz de N Dimensiones.

Los componentes más importantes que se pueden incluir en un Cubo Multidimensional son:

Indicadores,
Atributos y
Jerarquías.

27
Q

Modelos del DW

A

Esquema en Estrella (Star Scheme).
Esquema Copo de Nieve (Snowflake Scheme).
Esquema Constelación (Starflake Scheme).

28
Q

El Esquema en Estrella (Star Scheme) está formado por:

A

-una tabla de Hechos y
-una o más tablas de Dimensiones relacionadas a través de sus respectivas claves.

Las tablas de Dimensiones de este modelo, se encuentran desnormalizadas, es decir que no se presentan en tercera forma normal (3ra FN).

Evitar uniones (JOIN) entre las tablas cuando se realizan consultas, procurando así un mejor tiempo de respuesta y una mayor sencillez con respecto a su utilización.
Y la desventaja de la normalización es:

redundancia y
consumo adicional de espacio de almacenamiento.

29
Q

El Esquema Copo de Nieve (Snowflake Scheme) es:

A

Una extensión del modelo en Estrella, y
se caracteriza por poseer tablas de Dimensiones organizadas en Jerarquías de Dimensiones.
Este modelo se parece más al modelo transaccional ya que algunas tablas de Dimensiones están normalizadas.

principales características del Esquema Copo de Nieve:

Posibilita la segregación de los datos de las tablas de Dimensiones.
Puede implementarse después de que se haya desarrollado un Esquema en Estrella.
Posee mayor complejidad en su estructura.
Utiliza menos espacio de almacenamiento.

30
Q

El Esquema en Constelación (Starflake Scheme):

A

Las características y diseño del Esquema en Constelación son muy similares a las del Esquema en Estrella, con las siguientes diferencias:

Permite tener más de una tabla de Hechos, por lo cual se tendrá mayor capacidad analítica.
Contribuye a la reutilización de las tablas de Dimensiones, ya que una misma tabla de Dimensión puede utilizarse para varias tablas de Hechos.

31
Q

Metadatos

A

Los metadatos son datos sobre los datos, sirven para describir otros datos, que en este caso, existen en la arquitectura del Data Warehousing.

Brindan principalmente información de localización, estructura y significado de los datos, es decir, mapean a los mismos.

32
Q

Data Mart

A

Un Data Mart (DM) es la implementación de un DW con alcance restringido a un área funcional, problema en particular, departamento, tema o grupo de necesidades.

Muchos DW comienzan siendo Data Mart, para, entre otros motivos, minimizar riesgos y producir una primera entrega en tiempos razonables. Una vez que éstos se han implementado exitosamente, su alcance se irá ampliando paulatinamente.