Materia Quiz #1 Flashcards
Componentes generales de un DW
Sistemas operacionales
Área de staging
Área de presentación de datos
Herramientas de acceso
Formas de llamar un datamart
Versión especializada de un DW
Pequeño datawerehouse
Es sobre un área de negocios especializadas
Puede servir como herramienta analítica para las necesidades de un departamento
Fases genéricas para la construcción de un DW
Identificar requerimientos
Reconocer fuentes de datos originales
Definir procesos de selección, transformación e importación de datos
Transformar e importar datos
Construir el esquema multidimensional
Para tomar en cuenta para la calidad en los datos
Validez
Consistencia
Completitud
Oportunidad
Relevancia
Diseño del DW modelado dimensional
Dimensión: Colección de atributos relacionados
Ej..nombre, precio, peso, marca
Hechos:Datos operativos almacenados, son medidas
Ej..cantidad de unidades, costo unitario, ganancias, promedio de unidades
Medidas: Valores de datos que se analizan, columna en la tabla de hechos
Ej.. cantidad de frutas, cantidad …
Modelo multidimensional el esquema estrella hechos y dimensiones
Centro de la estrella: hechos en la tabla de hechos
Cada dimensión se muestra por separado en tablas de dimensión
OnLine Analytical Precessing (OLAP)
Categoría de software que profundiza en los datos mediante acceso interactivo, rápido, consistente, en una amplia variedad de posibles vistas de información
Objetivos de los modelos multidimensionales
Representar los datos en forma cercana a la intuición del usuario
Resolver problemas planteados en sistemas relacionados
Características de los cubos de datos
Se presentan los datos como una matriz
Ejes: criterios de análisis
Celdas: valores a analizar
Estructura de los cubos
Dimensiones:
1.Criterios de análisis de los datos
2.Variables independientes
3.Ejes
Medidas:
1.Valores o indicadores a analizar
2.Variables en la intersección de las dimensiones
Dimensiones
Pueden contener jerarquías
Los valores se organizan en jerarquías (categorías)
Medidas
Se ubican en la intersección de algunos valores de las dimensiones
Dado un valor para cada dimensión se puede determinar un valor para la medida
Tipo de medidas
Aditivas: Se pueden sumar ya que el valor se mantiene fijo
Semi aditivas: Se pueden sumarizar por algunas dimensiones, pero no por otras
No aditivas: No tiene sentido totalizar por ninguna dimensión
Opraciones que se pueden realizar en los cubos
Slice
Dice
Rotación
Drill-down
Drill-up
Roll-up
Que contienen la tabla de hechos
Llaves de tablas de dimensión
Medidas totalmente aditivas
Medidas semi-aditivas (atributos derivados)
Gran cantidad de registros
Pocos atributos
Llaves en el esquema estrella
Llaves primarias, cada fila está identificada de manera única
Llaves subrogadas, implica mantener la llave original cómo atributo adicional en la dimensión
Llaves foráneas
Los hechos (facts) en el modelado dimensional son
Datos almacenados que son medidas
En un cubo de datos la siguiente operación permite navegar desde datos más resumidos hacia datos más detallados
Drill-down
La siguiente operación permite seleccionar un subconjunto de datos de un cubo basado en una sola dimensión específica
Slice
Las tablas de hechos contienen
Llaves de tabla de dimensión y medidas
Que se lleva a cabo en el área de staging
La transformación de datos
En el esquema estrella, en las tablas de dimensión que llaves se utilizan
Subrogadas
Etapas para el diseño del data mart
Etapa 1: Diseño de las dimensiones
Etapa 2: Diseño de la tabla de hechos
Etapa 3: Definición de las medidas
Que cambios existen en las tablas de hechos
Agregar filas
Muy pocas actualizaciones
Que cambios existen en las tablas de. Dimensión
Corrección de errores (Tipo 1)
Preservación de historia (Tipo 2) SUCEDE EN LA FILA
Preservación solo 1 valor previo (Tipo 3) SUCEDE EN LA COLUMNA
Cómo son los cambios tipo 1
Es una sobre escritura
Se da principalmente porque es necesario corregir un error
No es necesario mantener el valor anterior ni en el sistema fuente ni en el DW
Cómo son los cambios tipo 2
Originalmente son cambios en los sistemas transaccionales
Cada cambio en el atributo debe conservarse, se conserva en el DW
Los datos se dividen en grupos (antes y después del cambio)
Cómo son los cambios de tipo 3
Se agrega un atributo en la dimensión para almacenar el valor anterior
Se pasa el valor actual al atributo creado
No es necesario agregar una nueva fila en la tabla de dimensión
Características de dimensiones grandes
Tienden a presentar múltiples jerarquías
Algunas funciones del DW podría volverse lentas e insuficientes
Requiere técnicas adicionales para optimización
Que se considera una dimensión grande
Cuando es profunda (alto número de filas) es ancha
Que es ETL
Extract
Transform
Load
Dificultades de los ETL
Diversidad de sistemas transaccionales
Múltiples plataformas
Sistemas legados, tecnologías BD obsoletas
Fase de extracción de los datos para un ETL
Identificar las fuentes de los datos
Método de extracción~Para cada fuente indicar si será automatizado o manual
Frecuencia de extracción
Ventana de tiempo~Para cada fuente de datos
Manejo de excepciones~Registro que no se puede extraer
Identificación de fuentes
Para cada métrica y cada atributo identificar
Sistema y base de datos, tabla y atributos fuentes
Extracción inmediata
Es en tiempo real
Se puede realizar mediante~Captura a través de bitácoras de transacciones y triggers
Extracción diferida
Puede darse mediante
Captura basada en fechas y estampado de tiempo~Se estampa cada registro nuevo o actualizado
Captura por comparación de archivos~Snapshot diferencial
Fase de transformación, principales tareas
Selección
Dividir_Unir
Conservación
Resumir
Derivar nuevos datos
Cuáles son algunos problemas de la integración de datos
Identificación de entidades
Reconciliación de duplicados
Múltiples fuentes
Fases de a carga de datos
Los principales métodos son
Carga completa
Carga incrementar~Streaming, por lotes Batch