Data Warehousing Flashcards
Motivation für DWH
Bei analytischen Systemen steht die Auswertung und Analyse der Daten im Vordergrund - nicht die Verwaltung
Data Warehouse-Ansatz zur Trennung von analytischen und operativen Systemen
Operationale DB vs. DWH
Operationale DB:
- Operative Systeme
- OLTP
- viele kleine DB
DWH:
- Analytisches System
- OLAP
- Data Mining
Was ist eine DWH
Eine DB, die viele Datensätze aus unterschiedlichen Quellen in einem einheitlichen Format speichert
- Dient als Basis für BI Anwendungen (DWH Konzept)
Unterschied Operative Systeme und DWH
Operative Systeme
- Daten werden oft geändert, gelöscht, eingefügt
- Aufwendige Mechanismen, um Deadlocks zu vermeiden
- der aktuelle Datenbestand ist gespeichert. Dieser kann jederzeit geändert werden
DWH
- Daten werden aus den operativen Systemen initial geladen und periodisch um neue Daten ergänzt
- BI Anwendungen greifen primär nur lesend auf Daten zu
- Es gibt keine Änderungsoperationen
- enthält eine ganze Historie an Daten
Herausforderung (DWH)
Konsolidierung/Integration
- Bereinigung der Daten / Datenqualität
Auswerte-/Analyseunterstützung
- Berücksichtigung heterogener Anforderungen
- Anfrageoptimierung
Dokumentation
- Umfassendes Metadaten Repository
Data Marts
stellen Daten für Bedürfnisse eines bestimmten Geschäftsfeldes bereit
Gegensatz: DWH enthält alle wichtigen Informationen
Vorteil:
- kleine Datenmengen erlaufen gezieltere Aufbereitung und Optimierung
> bessere Indizierung für schnellere Zugriffe
Nachteil:
- Redundante Datenhaltung
- unvollständige Sicht auf die Unternehmensdaten
Abhängigkeit eines Data Mart vom DWH
Abhängige Data Marts
- Datenquelle: Zentrales DWH
- Vorteil : Ausnutzung von Struktur und Architektur des DWH
- Nachteil: setzt die Existenz eines DWH voraus
Unabhängige Data Marts:
- Datenquelle: operative Systeme, externe Daten (wie beim DWH)
- Vorteil: kostengünstigere und schnellere Verfügbarkeit
Nachteil(langfristig): keine integrierte Gesamtsicht
> Nützlichkeit für BI Anwendung aufgrund fehlender langfristiger Planung und ganzheitlicher Anforderungsanalyse stark eingeschränkt
Metadaten
- sind Daten über Daten und Prozesse
- beschreiben Struktur und Zusammenhänge im System
- helfen bei Auffinden und Verstehen von Daten
- Durch Metadaten werden Daten zu Informationen
> Umfassende Metadaten sind wichtig für Akzeptanz der Nutzer
DWH-Entwicklungszyklus
- Am Anfang des Entwicklungszyklus stehen die Daten
- Das DWH wird schrittweise eingeführt
Gründe:
- genauso Ziele/Anf. an DWH anfangs meist unbekannt
- Größe des DWH, Kosten und Entwicklungszeit schlecht abschätzbar
- benötigte Ressourcen(Mitarbeiter, Rechner) sind hoch
Sicherheit und Datenschutz im DWH
Daten in einem DWH können vertraulich und deshalb schutzwürdig sein
- Finanzdaten
- Medizinische Daten
Top-Down Architektur nach Inmon
Konzept der Informationsfabrik wurde entwickelt
- besteht aus zwei getrennten Komponenten: DWH und DM
Vorteile:
- konsistente und effiziente Data-Marts
- Generation von neuen oder Anpassungen von bestehenden DMs kann relativ leicht durchgeführt werden
Nachteile:
- höhere Anfangskosten und längere Projektzeiten
- hat höhere Speicher-Anforderungen, weil Daten physikalisch mehrfach im System vorhanden sind
Bottom-Up Architektur nach Kimball
Die Datenmodelle der Quellsystem werden analysiert und daraus ermittelt, welche Tabellen und Attribute für das DWH relevant sind
Vorteile:
- sobald das erste DM fertiggestellt wurde, kann es sofort verwendet werden
- Dimensionen werden von Data-Marts gemeinsam benutzt > wichtigste Aufgabe - Erhaltung der Konsistenz und Flexibilität der Dimensionen
Nachteile:
- es mangelt an der unternehmerischen Perspektive, da die technisch geprägten Zugriffsrechte den Ausgangspunkt bilden
- der realisierbare Nutzen wird erst zu einem späten Zeitpunkt erkannt.