Übung DWH / DM Flashcards
Data Marts Definition
- stellen Daten für Bedürfnisse eines bestimmten Geschäftsfeldes (Marketing, Vertrieb) bzw. für einen bestimmten Nutzen bereit
DWH enthält im Gegensatz alle wichtigen Informationen
Vor und Nachteile von Datamarts
Vorteil:
- kleine Datenmengen erlauben gezieltere Aufbereitung und Optimierung
- bessere Indizierung für schnellere Zugriffe, höhere Verdichtung der Daten
Nachteil:
- Redundante Datenhaltung (Mehrere gleiche Daten)
- unvollständige Sicht auf die Unternehmensdaten
Abhängigkeit eines Data Mart vom Data Warehouse
Abhängige Data Marts
- Datenquelle: zentrales Data Warehouse
- Vorteil: Ausnutzung von Struktur und Architektur des Data Warehouse
- Nachteil: setzt die Existenz eines Data Warehouse voraus
Unabhängige Data Marts:
- Datenquelle: operative Systeme, externe Daten (wie beim Data Warehouse)
- Vorteil: kostengünstigere und schnellere Verfügbarkeit
- Nachteil (langfristig): keine integrierte Gesamtsicht
Architekturvarianten für DWH
- DWH ohne Data Marts
- DWH mit unabhängigen DM
- DWH mit abhängigen DM
- Hybrides DWH
Bevorzugte Variante: Datenquellen werden in ein zentrales DWH geschrieben und an die verschiedenen DM verteilt
DWH Konzept
Data Warehouse ist ein (physischer) Datenbestand, der eine konsistente (zusammenhängende) und integrierte Sicht auf relevante Datenquellen ermöglicht.
Das Data Warehouse dient als Basis für BI-Anwendungen.
DWH Herausforderungen
Konsolidierung und Integration / ETL-Prozesse
- Bereinigung der Daten / Datenqualität
- Syntaktische und semantische Harmonisierung
Auswerte-/Analyseunterstützung
- Berücksichtigung heterogener Anforderungen
- Multidimensionale Modellierung
- Anfrageoptimierung
Dokumentation
-Umfassendes Metadaten Repository
Warum ein DWH
Bei analytischen Systemen steht die Auswertung und Analyse der Daten und nicht deren Verwaltung im Vordergrund.
Regelmäßige Auswertungen auf operativen Systemen oder Datenabzügen ist für analytische Systeme nicht ausreichend.
-> Data Warehouse-Ansatz zur Trennung von analytischen und operativen Systemen
Im Gegensatz zu operativen Systemen ist ein Data-Warehouse nicht Funktions- oder Anwendungsorientiert (Einkauf, Verkauf) sondern Themenorientiert (Kunden, Lieferanten, Produkte)
Dabei werden verschiedene Datenbanken durch Abbildung auf eine übergreifende, einheitliche Datenstruktur in das Data-Warehouse integriert. Diese Integration ist ein schwieriger und zeitaufwendiger Prozess, erlaubt dafür aber die einfache und effektive Nutzung der Data Warehouse Daten in BI-Anwendungen.
Beständigkeit DWH
Operative Systeme:
- Daten werden oft geändert, gelöscht, eingefügt.
- Aufwendige Mechanismen, um Deadlocks zu vermeiden.
- Mechanismen zur Gewährleistung der Datenintegrität, etc.
Data Warehouse:
- Daten werden aus den operativen Systemen initial geladen und periodisch um neue Daten ergänzt.
- BI-Anwendungen greifen primär nur lesend auf Daten zu.
- Es gibt keine Änderungsoperationen.
Zeitraumbegrenzung
- In operativen Systemen ist der aktuelle Datenbestand gespeichert. Dieser kann jederzeit geändert werden (update).
- Data Warehouse enthält eine ganze Historie von Daten.
- Data Warehouse enthält Snapshots der operativen Systeme.
- Data Warehouse-Daten sind mit Bezug zu einem bestimmten Zeitpunkt gültig. Der Gültigkeitszeitraum ist an allen Daten im Data Warehouse vermerkt (als Teil des Schlüssels).
- Zeithorizonte
- des Data Warehouse: ca. 5-10 Jahre
- eines operativen Systems: einige Monate
Gründe für schrittweise Entwicklung des DWH
Data Warehouse-Entwicklungszyklus
- Data Warehouse-Entwicklungszyklus unterscheidet sich von klassischer System-Entwicklung:
- Am Anfang des Entwicklungszyklus stehen die Daten (data-driven process).
- Das Data Warehouse wird schrittweise entwickelt.
- genaue Ziele/Anforderungen an Data Warehouse anfangs meist unbekannt
- Größe des Data Warehouse schlecht abschätzbar
- > Ändert sich dauerhaft, da es dauerhaft neue Daten gibt.
- Kosten und Entwicklungszeit schlecht abschätzbar
- benötigte Ressourcen (Mitarbeiter, Rechner, …) sind hoch
-> Mehrwert schwer feststellbar, da u.a. unbekannt ist, wie lange sich die Geschäftsleitung Zeit lässt mit der Entscheidung auf Grund der Daten
Was ermöglicht Data Warehousing
Data Warehousing ermöglicht kosteneffektive Bereitstellung einer
konsistenten, integrierten, unternehmensweiten Sicht auf
historische und aktuelle Daten: -> „corporate memory“
Sicherheit und Datenschutz im DWH
Zulässigkeit (rechtlich, ethisch) des Zusammenfügens
beliebiger personenbezogener Daten zu einem
aussagefähiges Gesamtbild einer Person muss geprüft
werden.
Daten in einem Data Warehouse können vertraulich
und deshalb schutzwürdig sein:
- Finanzdaten
- Medizinische Daten
- sonstige personenbezogene Daten (Einkommen, …)
Verwendung des DWH
-Ein Data Warehouse wird nicht zum Selbstzweck geschaffen.
-In das Data Warehouse-Umfeld müssen auch passende BI-Anwendungen (OLAP, Data Mining, …) integriert
werden.
-Erst die Anwendung des durch BI-Anwendungen gewonnenes Wissens, die Umsetzung in Aktion, rechtfertigt
die hohen Kosten des Data Warehousing.
-Ein Data Warehouse ist eine vernünftige Grundlage für BI-Anwendungen wie OLAP und Data Mining.
Aber: OLAP und Data Mining geht auch ohne Data Warehouse!