Architektur von Data-Warehouse-Systemen Flashcards
Wie ist der Produktionsprozess der Datenaufbereitung?
Daten fallen aus internen und externen Datenquellen an.
Daten werden dann aus den Datenquellen extrahiert, im Hinblick auf die Datenhaltung im Data-Warehouse-System transformiert und schließlich in das Data-Warehouse-System geladen.
Daten werden in Data Warehouse gespeichert
Anschließend Datenbereitstellung. Hierzu werden Daten aus dem Data-Warehouse selektiert, in Form von multidimensionalen Datenstrukturen aufgebaut, und an die „Kunden“ in Form von Präsentationswerkzeugen übergeben.
Mit Hilfe der Präsentationswerkzeuge werden die Daten anschließend in Form von Diagrammen und Berichten aufbereitet oder als formatierte Daten für Zwecke des Data-Mining bereitgestellt
Was ist die Rolle des DWH?
in Data-Warehouse stellt vielmehr einen umfassenden, über lange Zeiträume hinweg aufgebauten, integrierten und konsolidierten Datenbestand dar, aus dem heraus der Informationsbedarf von Entscheidungsträgern bedient werden soll
Wie sieht die idealtypische Architektur eines Data-Warehouse-Systems aus?
Aus dem mehrstufigen Produktionsprozess kann die idealtypische Architektur eines Data-Warehouse-Systems abgeleitet werden. Die Funktionen des Data-Warehouse-Systems sind dabei auf drei hierarchisch angeordnete Schichten verteilt, korrespondierend mit den
beiden „Produktionsstufen“ und dem „Lager“. Hinzu kommen die Datenquellen und die Präsentationswerkzeuge. Zusammen ergeben sich damit fünf Schichten, anhand derer der Aufbau und die Funktionsweise eines Data-Warehouse-Systems erläutert werden kann
Wie heißen die fünf Schichten der Architektur?
Von unten nach oben:
Datenquellen
Datenerfassung
Datenhaltung
Datenbereitstellung
Präsentation
Was ist Datenquellen?
Datenquellen für das Data-Warehouse sind insbesondere die Datenbanken der operativen Anwendungssysteme sowie externe Datenquellen, wie z.B. öffentliche Datenbanken.
Was ist Datenerfassung?
Durchführung des ETL-Prozesses, bestehend aus den Schritten
Extraktion, Transformation und Laden.
Was ist Datenhaltung?
Verwaltung des Data-Warehouse, in der Regel unter Nutzung eines relationalen DBVS. Die Relationen des Data-Warehouse sind dabei gegenüber den Relationen der Datenbanken und externen Datenquellen redundant gespeichert
Was ist Datenbereitstellung?
Bereitstellung der Datenbestände für die nutzende Umgebung des Data-Warehouse. Die Bereitstellung erfolgt in Form von multidimensionalen Datenstrukturen durch einen OLAP-Server.
Was ist Präsentation?
Darstellung und Auswertung der Anfrageergebnisse in Form von interaktiven Berichten und Diagrammen. Werkzeuge hierfür sind z.B. OLAP Berichtsgeneratoren sowie Erweiterungen von Standard-Bürosoftware
Welche Funktionen gibt es zusätzlich zu den 5 Schichten?
Querschnittlich zu den Schichten sind Funktionen zur Administration des Data-Warehouse-Systems vorgesehen. Diese greifen auf Metadaten zurück, die in einem zugehörigen Repository (Data Dictionary) verwaltet werden. Diese Metadaten beschreiben insbesondere die Datenstrukturen des Data-Warehouse sowie die verschiedenen
Transformationen von der Datenerfassung bis zur Datenbereitstellung
Was ist die Bedeutung der Datenerfassungsschicht?
Die Datenerfassungsschicht stellt die am meisten erfolgskritische Schicht eines Data- Warehouse-Systems dar.
Wie bereits angesprochen, bildet die Durchführung des ETL-Prozesses den Gegenstand der Datenerfassungsschicht. Die drei Schritte Extraktion, Transformation und Laden führen dabei zu einer Detaillierung der Architektur des Data-Warehouse-Systems, indem innerhalb der Datenerfassungsschicht weitere Schichten (Subschichten) gebildet werden
Was umfasst Extraktion?
In der ersten Subschicht werden Rohdaten aus den Datenquellen selektiert, gefiltert und in das Data-Warehouse-System transferiert. In der Regel wird nicht bei jeder Durchführung des ETL-Prozesses der gesamte Datenbestand übernommen. Um eine inkrementelle Datenübernahme zu ermöglichen, müssen Datenänderungen in den operativen Systemen erkannt werden.
Was umfasst Transformation?
In der zweiten Schicht erfolgt eine syntaktische und semantische Bereinigung der Daten.
Die syntaktische Bereinigung wird als Data-Migration bezeichnet.
Die semantische Bereinigung erfolgt im Data-Scrubbing.
Was umfasst Transformation?
In der zweiten Schicht erfolgt eine syntaktische und semantische Bereinigung der Daten.
Die syntaktische Bereinigung wird als Data-Migration bezeichnet. Hierzu gehört etwa die Angleichung von Wertebereichen durch Anwendung von Transformationsregeln (z.B. „w“ „weiblich“). Die semantische Bereinigung erfolgt im Data-Scrubbing. Ein Beispiel ist hier die Bereinigung von Ortsnamen anhand eines extern bereitgestellten PLZ-Verzeichnisses.
Was umfasst Laden?
Die bereinigten Daten werden speicherorganisatorisch aufbereitet.
Sortieren von Daten
Berechnen von Aggregationen
Prüfen referenzieller Integritätsbedingungen
Aufbauen von Zugriffsstrukturen.
Die aufbereiteten Daten werden anschließend in das Data-Warehouse übernommen.
Welche Architekturvarianten für die Verteilung von Data-Warehouse-Systemen gibt es?
Zentrales Data-Warehouse (i.a. unternehmensweit),
Verteilte Data-Marts (mehrere bereichsspezifische Data-Warehouses)
Zentrales Data-Warehouse mit verteilten Data-Marts (Kombination der Varianten 1 und 2).
Was kann zum Vergleich der Architekturen genutzt werden?
- Ausrichtung auf spezifische Informationsbedarfe,
- Art des Berechtigungskonzepts,
- Integrationsreichweite,
- Anforderung an die Datenkonsolidierung,
- Durchführung des ETL-Prozesses.
Kostenaspekte bleiben bei diesem Vergleich außer Betracht (z.B. Hardware-, Software- und Betriebskosten).
Was ist ein zentrales Data-Warehouse?
Diese Variante unterstellt idealtypisch ein unternehmensweites Data-Warehouse, aus dem die Informationsbedarfe aller
Entscheidungsträger bedient werden.
Was sind verteilte Data-Marts?
Ein Data-Mart ist ein bereichsspezifisches Data-Warehouse, z.B. für ein bestimmtes Entscheidungsfeld, eine bestimmte Abteilung oder ein bestimmtes Ressort. Bei dieser Architekturvariante werden die Informationsbedarfe der Entscheidungsträger eines Unternehmens aus unterschiedlichen, spezialisierten Data-Marts bedient.
Was ist ein zentrales Data-Warehouse mit verteilten Data-Marts?
Diese Architekturvariante kombiniert die beiden erstgenannten
Was sind die Eigenschaften eines zentralen Data Warehouse?
Vereinheitlichter ETL-Prozess.
Aufwändige Zusammenführung und Konsolidierung der Daten
Global integriertes Data-Warehouse mit komplexem Datenschema
Globales Berechtigungskonzept
Keine spezifische Ausrichtung auf heterogene Informationsbedarfe unterschiedlicher Bereiche
Was sind die Eigenschaften von Verteilten Data-Marts?
Mehrere, ggf. teilweise redundante ETL-Prozesse
Einfache Zusammenführung und Konsolidierung der Daten
Lokal integrierte Data-Warehouses mit Datenschemata geringerer Komplexität
Lokales Berechtigungskonzept
Spezifische Ausrichtung auf heterogene Informationsbedarfe unterschiedlicher Bereiche.
Was sind die Eigenschaften von Zentrales Data-Warehouse mit verteilten Data-Marts?
Vereinheitlichter ETL-Prozess
Aufwändige Zusammenführung und Konsolidierung der Daten
Global integriertes Data-Warehouse mit komplexem Datenschema
Ableitung lokaler Datenschemata aus dem globalen Datenschema
redundante Datenhaltung
Lokales Berechtigungskonzept
Spezifische Ausrichtung auf heterogene Informationsbedarfe unterschiedlicher Bereiche.
Wie lässt sich die Architekturformen von DWS alternativ darstellen?
Alternativ dazu können die Architekturformen von Data-Warehouse-Systemen auch als Hierarchie von Softwareschichten dargestellt werden.
Was sind die Vorteile der alternativen Darstellung?
Die Softwareschichten lassen sich allgemein anhand eines generischen Rahmens beschreiben
Eine konkrete Architekturform stellt eine spezielle Konfiguration dieser Softwareschichten dar
Die Softwareschichten lassen sich unabhängig von der Realisierungsform der zugrunde liegenden Datenhaltung spezifizieren
Was ist der Generischer Rahmen für das Schichtenmodell?
Der generische Rahmen beschreibt den allgemeinen Ausbau eines DWH-Systems als Hierarchie von Softwareschichten. Jede Schicht kapselt bestimmte Funktionen oder Datenbestände und weist Schnittstellen zu benachbarten Softwareschichten auf.
Die Architektur eines konkreten DWH-Systems ist eine Instanziierung des generischen Rahmens in Form einer bestimmten Konfiguration der Softwareschichten. Grundsätzlich gilt, dass jede Schicht in Form von mindestens einer Instanz notwendig ist, um den gesamten Funktionsumfang eines DWH-Systems bereitzustellen.