Einheit 3 Flashcards
Einbettung von Data Warehouses in den Gesamtkontext der BI
Stufe 1: Datenquellen (Daten aus den operativen Systemen, externen Datenbanken, internetbasierte Daten)
Stufe 2: Staging (Extraktion, Transformation und Laden der Daten)
Stufe 3: Data Warehouse (+Metadatenbank + Data Marts)
Stufe 4: Entscheidungsunterstützung (Ad-hoc-Abfragen, Berichte, OLAP-Werkzeuge, Data-Mining-Werkzeuge)
Gesamtarchitektur eines Data Warehouse Systems
- Ebene der operativen Systeme
- Datenerfassungsebene
- Datenhaltungsebene
- Datenbereitstellungsebene
- Präsentationsebene
- Ebene der operativen Systeme
- Enthält die Datenquellen, die Daten in das DWH-System einspeisen (operative/externe)
- Gehört nicht zum eigentlichen DWH-System
- Datenerfassungsebene
- Erste Ebene im DWH-System: Arbeitsbereich
- Schnittstelle zu operativen Systemen
- Verwendung der ETL-Komponente zur Extraktion (Bereinigung, Harmonisierung und Zusammenführung) der Daten
- Datenhaltungsebene
- Hauptelement ist das DWH
- ODS erweitert das DWH
- Unterteilung in zwei Schichten: Basisschicht: Tabellen direkt aus Quellsystemen + Aggregationsschicht: Tabellen optimiert für OLAP-Anfragen, mit Aggregationshierarchien
- Daten gelangen durch das Laden (Teil der ETL-Komponente) vom DWH in die Analysekomponente
- Datenbereitstellungsebene
- Schnittstelle zur Präsentationsebene
- Zweckmäßige Aufbereitung der Informationen für Entscheidungsträger
- Analysekomponente selektiert und bereitet Daten auf (z.B. OLAP)
- Präsentationsebene
- Aufgabe: Adäquate Aufbereitung und Präsentation der Daten
- Nutzung von Analysekomponenten und Data Mining-Anwendungen
- Unterstützung durch Tabellenkalkulationsprogramme
- Kritische Überwachung der Erfolgsgrößen, Benachrichtigung bei Überschreitung kritischer Wertgrenzen (z.B. durch Data Access)
SINT-Eigenschaften
- Themenorientierung: themenorientierte Haltung der Daten im DWH
- Integration: von Daten aus verschiedenen Quellen; oft schwierig wegen unterschiedlicher Datenformate und -kodierungen.
- Zeitraumbezug: zeitraumbezogene Ablage der Daten (in Applikationen: zeitpunktbezogen), Ermöglichung der langfristigen Speicherung (5-10 Jahre)
- Nicht-Volatilität: Daten werden dauerhaft vorgehalten und sind nicht vergänglich; Daten werden nicht überschrieben, sondern erneut hochgeladen
Ziele eines Data Warehouse
- Effiziente Bereitstellung von Daten: Für Auswertungen und Analysen, Ermöglichung einer einfachen Zusammenführung der Daten zu Analysezwecken
- Unterstützung der Geschäftsprozesse: Beitrag zur Strategieerreichung eines Unternehmens
- Abschaffung von Insellösungen: Verbesserung der Kommunikation zwischen Aufgabenbereichen
Komponenten eines DWH-Systems
- DWH
- Operational Data Store (ODS)
- Arbeitsbereich (staging area)
- ETL-Komponente
- Metadatenbanksystem
- Analysekomponente (Data Access, OLAP, Data Marts)
Abgrenzung operative/dispositive Daten: Ziel
O: Unterstützung des Tagesgeschäfts
D: Entscheidungsunterstützung
Abgrenzung operative/dispositive Daten: Zustand
O: Häufig redundant und inkonsistent
D: kontrollierte Redundanzen und konsistent
Abgrenzung operative/dispositive Daten: Modellierung
O: Funktions-/transaktionsorientiert
D: Sachgebiets- oder themenorientiert
Abgrenzung operative/dispositive Daten: Zeitbezug
O: aktuell, zeitpunktbezogen
D: Historienbetrachtung, Zeitverlauf
Abgrenzung operative/dispositive Daten: Ausrichtung
O: detaillierte, granulare Geschäftsvorfalldaten
D: meist verdichtet, transformiert
Komponente des DWH-Systems: DWH
- Datenbasis/DWH als Kern des DWH-Systems
- Sammel-/Integrationsfunktion: Sammlung der Daten aus den Datenquellen + zentrales zur Verfügung stellen
- Distributionsfunktion: Verteilung der gesammelten Daten an das DWH-System im Unternehmen
- Auswertungsfunktion: Durchführung von Analysen der gesammelten Daten
Komponente des DWH-Systems: ODS
- Definition: Eine nicht-dauerhafte, detaillierte Sammlung von Daten zur Unterstützung betrieblicher Informationen.
- Funktion: Integration und zeitnahe Auswertung von Daten, die in Quellsystemen schwer möglich sind
Komponente des DWH-Systems: Arbeitsbereich
- Funktion: Temporäre Zwischenspeicherung von Daten, um Beeinträchtigungen im DWH und den Datenquellen zu vermeiden
- Aufgaben: Transformation und Integration der Daten vor dem Laden ins DWH
Komponente des DWH-Systems: ETL-Komponente
- Funktion: Sicherstellung der Datenqualität durch Extraktion, Transformation und Laden der Daten
Komponente des DWH-Systems: Metadatenbanksystem
- Funktion: Bereitstellung von Hintergrundinformationen über Datenquellen, Transformationen und Verdichtungen
- Unterteilung in datenverarbeitungstechnische und betriebswirtschaftliche Informationen
- Komponenten: Informationskatalog (beinhaltet und beschreibt Informationsobjekte, z.B. Grafiken, Tabelle, Texte, Dateien) + Navigationshilfe (Browser)
- Zusätzliche Informationen: Lexikon, Thesaurus, Datenstrukturverzeichnis, Glossar, Data Directory
Komponente des DWH-Systems: Analysekomponente
- Funktion: Unterstützung der Benutzer bei der Datenauswertung durch verschiedene Werkzeuge und Tools
- Data Access: Berichtswerkzeuge zur Präsentation von Daten
- OLAP: Multidimensionale Analyse von Daten
- Data Marts: Analyseorientierte Systeme für spezifische Anwendungsthemen (z.B. einzelne Data Marts für verschiedene Abteilungen, die abteilungsspezifische Daten für Auswertungen bereitstellen)
ETL-Komponente: Extraktion
- Übertragung der Daten von der Datenquelle in den zwischengelagerten Arbeitsbereich
- Herausforderung: Auswahl der extrahierenden Daten (Berücksichtigung der Datenbeschaffenheit und Relevanz), Automatisierung: Fehler sollen nicht den gesamten Prozess stoppen, sondern nachträglich korrigierbar sein
- Häufigkeit: Periodisch, anfragegesteuert, ereignisgesteuert, sofortige Durchführung
ETL-Komponente: Transformation
- Anpassung der Daten zur Ladung ins DWH
- Aufgaben: Standardisierung (Vereinheitlichung von Zeichenketten und Konvertierung von Kodierungen) + Bereinigung (Korrektur fehlerhafter Daten und Löschung redundanter oder veralteter Daten)
ETL-Komponente: Laden
- Übertragung der transformierten Daten ins DWH
- Initiales Laden (einmalig) vs. Regelmäßige Aktualisierungen
- Hoher Zeit- und Rechenaufwand
- Historisierung der Daten
Eigenschaften Data Marts
- Autonomer Betrieb: Flexibler Zugriff auf benötigte Daten durch Abteilungen
- Datenhaltung: Speichern nur der relevanten Daten zur Entscheidungsunterstützung
Vor-/Nachteile Data Marts
- Vorteile: geringe Rechnerleistung, kostengünstig, anpassbar an fachliche Gegebenheiten
- Nachteile: hoher Aufwand für Qualitätssicherung, Datenredundanz, beschränkte Sicht auf Daten, schwierig für abteilungsübergreifende Analysen
Eigenschaften OLAP
- Online: Direkter Zugriff der Anwender auf den zentralen Datenbestand, um Daten zu betrachten oder zu manipulieren
- Analytical: Ermöglicht unterschiedliche Sichten für Entscheidungsträger, im Gegensatz zu OLTP, das sich auf Geschäftsvorfälle konzentriert
- Processing: Schnelle Berechnungen und Manipulationen durch den Anwender
OLAP - 12 Regeln nach Codd
- Multidimensionale konzeptionelle Sichtweise auf die Daten: ermöglicht die Analyse, Aggregation und Korrelation von Daten. Ergebnisse werden visualisiert zur Verfügung gestellt
- Transparenz: Abfragen können ohne Kenntnisse der zugrundenliegenden Datenstrukturen durchgeführt werden
- Zugriffsmöglichkeit: Analysen auf Basis unternehmensinterner und externer Datenquellen sind möglich
- Gleichbleibende Antwortzeit bei der Berichterstellung: Antwortzeit bleibt unabhängig von der Anzahl der Dimensionen oder Datensätze konstant
- Client-Server-Architektur: Trennung von Speicherung, Verarbeitung und Darstellung. OLAP-Server bietet eine offene Schnittstelle.
- Generische Dimensionalität: Einheitliche Struktur und Funktionalität aller Dimensionen
- Dynamische Behandlung unvollständig besetzter Matrizen: Funktionalitäten bleiben auch bei unvollständig besetzten Matrizen erhalten
- Mehrbenutzerunterstützung: Mehrere Benutzer können parallel auf die gleichen Daten zugreifen. Konsistenz der Daten bleibt erhalten
- Uneingeschränkte kreuzdimensionale Operationen: Berechnungen über beliebige Dimensionen hinweg sind möglich
- Intuitive Darstellung und Bearbeitung der Daten: Anwender können Analysen selbstständig und intuitiv durchführen
- Flexible Berichterstellung: Berichtselemente aus verschiedenen Zeilen und Spalten sind frei positionierbar
- Unbegrenzte Anzahl von Dimensionen und Klassifikationsebenen: Analysen können mit einer beliebigen Anzahl von Dimensionen durchgeführt werden
OLAP - Erweiterung der 12 Regeln
- Datenintegration: Zugriff auf die multidimensionale Datenstruktur und darunter liegende Daten
- Unterstützung verschiedener Analysemodelle: Vier Datenmodelle werden unterstützt:
* kategorisches Datenmodell: Historische Daten werden mit aktuellen Daten verglichen, um den aktuellen Zustand zu definieren
* exegetischen Datenmodell: Ursachenanalyse, die zu dem aktuellen Zustand geführt haben
* kontemplative Modell: Simulation mit verschiedenen Werten oder Abweichungen von/zwischen Dimensionen
* formelbasiertes Modell: Berechnung, durch welche Veränderungen von Kennzahlen und Parametern ein vorgegebener Zielzustand erreicht werden kann - Trennung analyseorientierter von den operativen Daten: Veränderungen im DWH werden nicht ins Quellsystem übernommen
- Trennung der Speicherorte: Veränderungen werden nicht auf dem produktiven Datenbestand gespeichert
- Unterscheidung zwischen Null- und Fehlwerten: Es müssen fehlende Werte und Werte mit dem numerischen Wert 0 unterschieden werden können
- Behandlung von fehlenden Werten: Fehlende Werte sollen effizient verwaltet werden, sodass eine optimale Nutzung der Speicherkapazität gewährleistet werden kann
OLAP - FASMI
- Geschwindigkeit: Anfragen sollen in unter fünf Sekunden beantwortet werden
- Analysemöglichkeit: Intuitive und benutzerfreundliche Analyse der Daten
- Sicherheit: Mehrere Anwender können gleichzeitig auf dieselben Daten zugreifen
- Multidimensionalität: Nutzung und Kombination multidimensionaler Daten für Analysen
- Kapazität: Antwortzeiten bleiben unabhängig von der Anzahl der Anfragen und Datenmenge stabil
MOLAP
Multidimensional OLAP
* Physische Speicherung: Daten werden tatsächlich physisch in mehrdimensionalen Datenbanken gespeichert
* Schnellere Antwortzeiten: Vorteilhaft für Analysen mit kleineren Datenmengen
* Höheres Datenvolumen: Je höher die Anzahl der Dimensionen, desto höher das Datenvolumen
ROLAP
Relational OLAP
* Basiert auf relationalen DBMS: Implementierung nach dem Star- oder Snowflake-Schema
* Tabellenarten: Dimensionstabellen (Stammdaten) und Faktentabellen (Bewegungsdaten -> werden durch Stammdaten beschrieben)
* Dynamische Sichten: Multidimensionale Sichten werden dynamisch erzeugt
OLTP
Online Transactional Processing
* Unterstützt operatives Geschäft
* Verwendet aktuelle und detaillierte Daten
* Operationen: Anlegen, Lesen, Ändern, Löschen von Daten
* Eignet sich für tägliche Geschäftsprozesse
vs. OLAP:
* Unterstützt Analyse und Entscheidungsfindung
* Nutzt historische und aggregierte Daten
* Operationen: Multidimensionale Abfragen, ad hoc-Analysen
* Eignet sich für strategische Analysen und Berichte
Vorteile ROLAP gegenüber MOLAP
- Verwaltung großer Datenvolumina: ROLAP kann große Datenvolumina besser verwalten
- Flexibilität bei der Dimensionenwahl: Bei ROLAP kann die Anzahl der Dimensionen flexibel gewählt werden
- Know-How: In den meisten Unternehmen ist das Know-How über die Verwendung von ROLAP-Anwendungen vorhanden, während es bei MOLAP-Anwendungen oft fehlt
- Robuste Technologie: ROLAP basiert auf einer robusten Technologie, die in den meisten Unternehmen verfügbar ist
- Keine Vorberechnungen notwendig: ROLAP-Anwendungen greifen auf bestehende relationale Tabellen zu, während MOLAP-Anwendungen einen hohen Vorberechnungsaufwand erfordern
Pivotierung/Rotation
- Drehung des OLAP-Würfels um horizontale/ vertikale Achse
- Ziel: Austausch der Dimensionen zur weiteren Analyse
- Bsp: Wechsel von Betrachtung Kunde/Produkt zu Region/Produkt
- Pivotierung: Nutzung von Pivottabellen zur Darstellung mehr als drei Dimensionen.
- Rotation: führt dazu, dass neue Dimensionen in die Tabelle aufgenommen werden
Roll-Up & Drill-Down
- Roll-Up: Aggregation der Daten, höhere Hierarchieebene (z.B. Städte zu Regionen)
- Drill-Down: Detaillierung der Daten, tiefere Hierarchieebene (z.B. Region X zu Städten)
Zielabhängig: Roll-Up für Übersicht, Drill-Down für Details
Slice & Dice
- Filterung der Gesamtdatenmenge
- Slice: Eine Dimension auf einen Wert reduzieren (eine Scheibe) – z.B. nur eine Region/ Produkt
- Dice: Filterung der Datenmenge, Auswahl einzelner Blöcke; Fokussierung auf einen Teilausschnitt aus der Realität – z.B. Berücksichtigung von zwei Produkten, zwei Regionen, zwei Kunden neu entstandener Datenwürfel als Ergebnis