Architektur von Data-Warehouse-Systemen Flashcards
Wie ist der Produktionsprozess der Datenaufbereitung?
Daten fallen aus internen und externen Datenquellen an.
Daten werden dann aus den Datenquellen extrahiert, im Hinblick auf die Datenhaltung im Data-Warehouse-System transformiert und schließlich in das Data-Warehouse-System geladen.
Daten werden in Data Warehouse gespeichert
Anschließend Datenbereitstellung. Hierzu werden Daten aus dem Data-Warehouse selektiert, in Form von multidimensionalen Datenstrukturen aufgebaut, und an die „Kunden“ in Form von Präsentationswerkzeugen übergeben.
Mit Hilfe der Präsentationswerkzeuge werden die Daten anschließend in Form von Diagrammen und Berichten aufbereitet oder als formatierte Daten für Zwecke des Data-Mining bereitgestellt
Was ist die Rolle des DWH?
in Data-Warehouse stellt vielmehr einen umfassenden, über lange Zeiträume hinweg aufgebauten, integrierten und konsolidierten Datenbestand dar, aus dem heraus der Informationsbedarf von Entscheidungsträgern bedient werden soll
Wie sieht die idealtypische Architektur eines Data-Warehouse-Systems aus?
Aus dem mehrstufigen Produktionsprozess kann die idealtypische Architektur eines Data-Warehouse-Systems abgeleitet werden. Die Funktionen des Data-Warehouse-Systems sind dabei auf drei hierarchisch angeordnete Schichten verteilt, korrespondierend mit den
beiden „Produktionsstufen“ und dem „Lager“. Hinzu kommen die Datenquellen und die Präsentationswerkzeuge. Zusammen ergeben sich damit fünf Schichten, anhand derer der Aufbau und die Funktionsweise eines Data-Warehouse-Systems erläutert werden kann
Wie heißen die fünf Schichten der Architektur?
Von unten nach oben:
Datenquellen
Datenerfassung
Datenhaltung
Datenbereitstellung
Präsentation
Was ist Datenquellen?
Datenquellen für das Data-Warehouse sind insbesondere die Datenbanken der operativen Anwendungssysteme sowie externe Datenquellen, wie z.B. öffentliche Datenbanken.
Was ist Datenerfassung?
Durchführung des ETL-Prozesses, bestehend aus den Schritten
Extraktion, Transformation und Laden.
Was ist Datenhaltung?
Verwaltung des Data-Warehouse, in der Regel unter Nutzung eines relationalen DBVS. Die Relationen des Data-Warehouse sind dabei gegenüber den Relationen der Datenbanken und externen Datenquellen redundant gespeichert
Was ist Datenbereitstellung?
Bereitstellung der Datenbestände für die nutzende Umgebung des Data-Warehouse. Die Bereitstellung erfolgt in Form von multidimensionalen Datenstrukturen durch einen OLAP-Server.
Was ist Präsentation?
Darstellung und Auswertung der Anfrageergebnisse in Form von interaktiven Berichten und Diagrammen. Werkzeuge hierfür sind z.B. OLAP Berichtsgeneratoren sowie Erweiterungen von Standard-Bürosoftware
Welche Funktionen gibt es zusätzlich zu den 5 Schichten?
Querschnittlich zu den Schichten sind Funktionen zur Administration des Data-Warehouse-Systems vorgesehen. Diese greifen auf Metadaten zurück, die in einem zugehörigen Repository (Data Dictionary) verwaltet werden. Diese Metadaten beschreiben insbesondere die Datenstrukturen des Data-Warehouse sowie die verschiedenen
Transformationen von der Datenerfassung bis zur Datenbereitstellung
Was ist die Bedeutung der Datenerfassungsschicht?
Die Datenerfassungsschicht stellt die am meisten erfolgskritische Schicht eines Data- Warehouse-Systems dar.
Wie bereits angesprochen, bildet die Durchführung des ETL-Prozesses den Gegenstand der Datenerfassungsschicht. Die drei Schritte Extraktion, Transformation und Laden führen dabei zu einer Detaillierung der Architektur des Data-Warehouse-Systems, indem innerhalb der Datenerfassungsschicht weitere Schichten (Subschichten) gebildet werden
Was umfasst Extraktion?
In der ersten Subschicht werden Rohdaten aus den Datenquellen selektiert, gefiltert und in das Data-Warehouse-System transferiert. In der Regel wird nicht bei jeder Durchführung des ETL-Prozesses der gesamte Datenbestand übernommen. Um eine inkrementelle Datenübernahme zu ermöglichen, müssen Datenänderungen in den operativen Systemen erkannt werden.
Was umfasst Transformation?
In der zweiten Schicht erfolgt eine syntaktische und semantische Bereinigung der Daten.
Die syntaktische Bereinigung wird als Data-Migration bezeichnet.
Die semantische Bereinigung erfolgt im Data-Scrubbing.
Was umfasst Transformation?
In der zweiten Schicht erfolgt eine syntaktische und semantische Bereinigung der Daten.
Die syntaktische Bereinigung wird als Data-Migration bezeichnet. Hierzu gehört etwa die Angleichung von Wertebereichen durch Anwendung von Transformationsregeln (z.B. „w“ „weiblich“). Die semantische Bereinigung erfolgt im Data-Scrubbing. Ein Beispiel ist hier die Bereinigung von Ortsnamen anhand eines extern bereitgestellten PLZ-Verzeichnisses.
Was umfasst Laden?
Die bereinigten Daten werden speicherorganisatorisch aufbereitet.
Sortieren von Daten
Berechnen von Aggregationen
Prüfen referenzieller Integritätsbedingungen
Aufbauen von Zugriffsstrukturen.
Die aufbereiteten Daten werden anschließend in das Data-Warehouse übernommen.
Welche Architekturvarianten für die Verteilung von Data-Warehouse-Systemen gibt es?
Zentrales Data-Warehouse (i.a. unternehmensweit),
Verteilte Data-Marts (mehrere bereichsspezifische Data-Warehouses)
Zentrales Data-Warehouse mit verteilten Data-Marts (Kombination der Varianten 1 und 2).
Was kann zum Vergleich der Architekturen genutzt werden?
- Ausrichtung auf spezifische Informationsbedarfe,
- Art des Berechtigungskonzepts,
- Integrationsreichweite,
- Anforderung an die Datenkonsolidierung,
- Durchführung des ETL-Prozesses.
Kostenaspekte bleiben bei diesem Vergleich außer Betracht (z.B. Hardware-, Software- und Betriebskosten).
Was ist ein zentrales Data-Warehouse?
Diese Variante unterstellt idealtypisch ein unternehmensweites Data-Warehouse, aus dem die Informationsbedarfe aller
Entscheidungsträger bedient werden.
Was sind verteilte Data-Marts?
Ein Data-Mart ist ein bereichsspezifisches Data-Warehouse, z.B. für ein bestimmtes Entscheidungsfeld, eine bestimmte Abteilung oder ein bestimmtes Ressort. Bei dieser Architekturvariante werden die Informationsbedarfe der Entscheidungsträger eines Unternehmens aus unterschiedlichen, spezialisierten Data-Marts bedient.
Was ist ein zentrales Data-Warehouse mit verteilten Data-Marts?
Diese Architekturvariante kombiniert die beiden erstgenannten
Was sind die Eigenschaften eines zentralen Data Warehouse?
Vereinheitlichter ETL-Prozess.
Aufwändige Zusammenführung und Konsolidierung der Daten
Global integriertes Data-Warehouse mit komplexem Datenschema
Globales Berechtigungskonzept
Keine spezifische Ausrichtung auf heterogene Informationsbedarfe unterschiedlicher Bereiche
Was sind die Eigenschaften von Verteilten Data-Marts?
Mehrere, ggf. teilweise redundante ETL-Prozesse
Einfache Zusammenführung und Konsolidierung der Daten
Lokal integrierte Data-Warehouses mit Datenschemata geringerer Komplexität
Lokales Berechtigungskonzept
Spezifische Ausrichtung auf heterogene Informationsbedarfe unterschiedlicher Bereiche.
Was sind die Eigenschaften von Zentrales Data-Warehouse mit verteilten Data-Marts?
Vereinheitlichter ETL-Prozess
Aufwändige Zusammenführung und Konsolidierung der Daten
Global integriertes Data-Warehouse mit komplexem Datenschema
Ableitung lokaler Datenschemata aus dem globalen Datenschema
redundante Datenhaltung
Lokales Berechtigungskonzept
Spezifische Ausrichtung auf heterogene Informationsbedarfe unterschiedlicher Bereiche.
Wie lässt sich die Architekturformen von DWS alternativ darstellen?
Alternativ dazu können die Architekturformen von Data-Warehouse-Systemen auch als Hierarchie von Softwareschichten dargestellt werden.
Was sind die Vorteile der alternativen Darstellung?
Die Softwareschichten lassen sich allgemein anhand eines generischen Rahmens beschreiben
Eine konkrete Architekturform stellt eine spezielle Konfiguration dieser Softwareschichten dar
Die Softwareschichten lassen sich unabhängig von der Realisierungsform der zugrunde liegenden Datenhaltung spezifizieren
Was ist der Generischer Rahmen für das Schichtenmodell?
Der generische Rahmen beschreibt den allgemeinen Ausbau eines DWH-Systems als Hierarchie von Softwareschichten. Jede Schicht kapselt bestimmte Funktionen oder Datenbestände und weist Schnittstellen zu benachbarten Softwareschichten auf.
Die Architektur eines konkreten DWH-Systems ist eine Instanziierung des generischen Rahmens in Form einer bestimmten Konfiguration der Softwareschichten. Grundsätzlich gilt, dass jede Schicht in Form von mindestens einer Instanz notwendig ist, um den gesamten Funktionsumfang eines DWH-Systems bereitzustellen.
Welche Schichten gibt es?
Datenquellen
Extraktionsschicht
Integrationsschicht
Historisierungsschicht
Datenbereitstellungsschicht
Präsentationsschicht
Was umfasst Datenquellen?
unternehmensinterne und externe Datenquellen. Diese befinden sich
außerhalb des DWH-Systems
Was umfasst Extraktionsschicht?
Die Extraktionsschicht führt den Zugriff auf die Datenquellen durch
und stellt die extrahierten Daten für die weitere Verarbeitung im DWH-System gemäß einem Exportschema bereit.
Was umfasst Integrationsschicht?
Die Integrationsschicht führt die syntaktische und semantische
Bereinigung der über das Exportschema zur Verfügung gestellten Daten durch und führt die gegebenenfalls aus verschiedenen Datenquellen stammenden Daten zusammen. Die konsolidierten und integrierten Daten werden gemäß einem integrierten Datenschema bereitgestellt.
Was umfasst Historisierungsschicht?
Gegenstand der Historisierungsschicht ist der Aufbau des Zeitbezugs der Datenbestände. Neu hinzu kommende zeitbezogene Daten werden dabei jeweils mit dem bestehenden Datenvorrat zusammengeführt. Der resultierende Datenbestand wird gemäß einem temporalen Basisdatenschema bereitgestellt.
Was umfasst Datenbereitstellungsschicht?
Die Datenbereitstellungsschicht dient dem Aufbau und der
Bereitstellung der multidimensionalen Sichten auf den Datenvorrat des DWH. Die Realisierung erfolgt auf der Basis von ROLAP oder MOLAP bzw. direkt auf der Basis von SQL. An der oberen Schnittstelle wird ein (multidimensionales) Analyseschema gemäß dem multidimensionalen Datenmodell mit zugehörigen Operatoren bereitgestellt.
Was umfasst Präsentationsschicht?
Diese umfasst die unterschiedlichen Präsentationswerkzeuge, welche die Nutzungsoberfläche des DWH-Systems realisieren. Diese Schicht wird – ebenso wie die Datenquellen - im Allgemeinen nicht als Bestandteil des DWH-Systems angesehen
Was hat es mit persistente Datenhaltung auf sich?
Die Extraktionsschicht, die Integrationsschicht, die Historisierungsschicht sowie die Datenbereitstellungsschicht können grundsätzlich mit oder ohne persistente Datenhaltung realisiert werden.
Ausnahmen sind die stets persistenten Datenquellen und die nicht persistente Präsentationsschicht.
Die Notwendigkeit einer persistenten Datenhaltung innerhalb der Extraktionsschicht ist abhängig von der Art und Weise, wie Quellsysteme die für das Laden des DWH benötigten Daten zur Verfügung stellen
Wie lassen sich vier alternative Persistenzformen für die Datenbereitstellungs- und die Historisierungsschicht unterscheiden?
SQL-Datenbereitstellungsschicht
MOLAP-Datenbereitstellungsschicht
ROLAP-Datenbereitstellungsschicht mit separater Datenhaltung
ROLAP-Datenbereitstellungsschicht ohne separate Datenhaltung
Was ist die SQL-Datenbereitstellungsschicht?
Erfolgt der Zugriff auf das DWH ausschließlich mithilfe von SQL über eine relationale Anfrageschnittstelle, dann ist eine persistente Datenhaltung in der Historisierungsschicht häufig ausreichend.
Was ist MOLAP-Datenbereitstellungsschicht?
Der Einsatz multidimensionaler OLAP-Werkzeuge (MOLAP) erfordert die persistente Speicherung der Analysedaten gemäß den spezifischen multidimensionalen Datenstrukturen. Diese erfolgt zusätzlich zur persistenten Speicherung der Daten in der Historisierungsschicht
Was ist ROLAP-Datenbereitstellungsschicht mit separater Datenhaltung?
Bei relationalem OLAP (ROLAP) wird die multidimensionale Sicht auf der Grundlage der Daten in einer relationalen Datenbank erzeugt. Häufig wird hierfür eine persistente Datenhaltung innerhalb der Datenbereitstellungsschicht eingesetzt. Diese basiert in der Regel auf einem Star-oder Snowflake-Schema. Eine persistente Datenhaltung in der Historisierungsschicht ist nicht unbedingt erforderlich, kann jedoch zur Entkopplung von Ladeprozessen hilfreich sein
Was ist ROLAP-Datenbereitstellungsschicht ohne separate Datenhaltung?
Einige ROLAP-Werkzeuge unterstützen auch normalisierte Datenschemata. In diesem Fall ist eine persistente Datenhaltung in der Datenbereitstellungsschicht nicht zwingend erforderlich.
Die multidimensionale Sicht auf die Daten wird dann jeweils auf Basis der Historisierungsschicht erzeugt
Was ist das virtuelle Data-Warehouse-Systems?
Datenbereitstellung erfolgt hierbei entsprechend dem Konzept eines föderierten Datenbanksystems, bei dem heterogene Datenbanksysteme in einer als Föderation bezeichneten Kooperationsformen zusammenarbeiten.
Die Softwareschichten des DWH-Systems selbst verfügen über keine persistente Datenhaltung. Alle Datenbestände werden temporär bei der Anfrage an das DWH-System erzeugt.
schlechten Anfrageperformance und möglichen Einbußen bei der Datenqualität besitzt das virtuelle DWH-System den Nachteil der fehlenden Historisierung der Daten.
Prinzipiell widerspricht die Architektur auch der Definition eines DWH, welche eine eigenständige physische Datenhaltung als kennzeichnendes Merkmal vorsieht
Was ist die Charakterisierung eines zentralen DWHS?
- Idealtypische Informationsversorgung der Führungskräfte eines Unternehmens.
- „Enterprise Data Warehouse“.
- „Single Point of Truth“.
Was sind Vor-/Nachteile eines zentralen DWHS?
Vorteile:
* Zentrale Datenbereitstellungsschicht.
* Homogenes Begriffssystem für Kennzahlen und Dimensionen.
Nachteile:
* Hoher Aufwand der Koordination der spezifischen Anforderungen einzelner Unternehmensbereiche; diese sind ggf.nicht hinreichend abbildbar.
* Geringe Flexibilität, hoher Anpassungsaufwand.
Was ist die Charakterisierung von Data Marts?
Data-Marts dienen der Informationsversorgung einzelner Organisationseinheiten eines Unternehmens. Unter den Begriff Data-Mart versteht man im Allgemeinen ein DWHSystem mit begrenzter Reichweite, das auf einen spezifischen Informationsbedarf
ausgerichtet ist. Eine Architektur mit mehreren unabhängigen Data-Marts stellt ein vollständig verteiltes System dar. Zugriffe auf einzelne Datenquellen können unabhängig voneinander erfolgen.
Was sind Vor-/Nachteile von Data Marts?
V: Möglichkeit der spezifischen Ausrichtung auf individuelle Informationsbedarfe sowie in einer raschen und flexiblen Anpassbarkeit.
N:
mögliche Inkonsistenzen zwischen den einzelnen Informationsbeständen
Probleme der semantischen Abstimmung
möglicherweise unterschiedliche Aktualisierungsstände.
Was ist die Hub-and-Spoke-Architektur?
Die Hub-and-Spoke-Architektur, auch als „Corporate Information Factory“ bezeichnet, besteht aus einem zentralen Data-Warehouse mit abhängigen Data-Marts.
Die Informationsversorgung der einzelnen Organisationseinheiten erfolgt unter Nutzung der für die jeweiligen Bedarfe optimierten Datenbestände der einzelnen Data-Marts. Diese wiederum basieren auf dem konsolidierten Datenbestand des zentralen DWH.
Was sind Vor-/nachteile von Hub and Spoke?
Vorteile:
Inkonsistenzen zwischen den einzelnen Data-Marts werden vermieden
Übergreifende Auswertungen direkt aus dem zentralen DWH
Data-Marts können individuelle fachliche Anforderungen berücksichtigen
Nachteile:
Hoher Aufwand für die unternehmensweite Abstimmung des einheitlichen Begriffssystems und für die Realisierung der konsolidierten Datenbasis.
Was ist die Data-Mart-Bus-Architektur?
Im Gegensatz zur Hub-and-Spoke-Architektur wird bei der Data-Mart-Bus-Architektur auf eine zentrale Datenhaltung verzichtet. Die Konsistenz zwischen den Data-Marts wird stattdessen auf der Grundlage eines zentralen Metadaten-Repository durch den Austausch
gemeinsamer Dimensionsdaten und Kennzahlen (conformed dimensions, conformed facts) über einen logischen Bus realisiert.
Was sind Vor-/Nachteile der Data-Mart-Bus-Architektur?
Vorteile: Einheitliches Begriffssystem, das ohne den Aufwand für einen konsolidierten Gesamtdatenbestand „virtuell“ realisiert wird.
Nachteile: Hoher Entwicklungsaufwand für die Definition und Abstimmung der gemeinsamen Dimensionen und Kennzahlen. Hoher Aufwand für Betrieb und Pflege des Systems.
Was ist das Föderiertes DWH-System?
Föderierte DWH-Systeme und die auf der folgenden Seite beschriebenen hierarchischen DWH-Systeme stellen Weiterentwicklungen einer bestehenden DWH-Architektur mit
unabhängigen Data-Marts dar.
Föderierte DWH-Systeme folgen dem Konzept föderierter Datenbanksysteme. Dabei werden ausgewählte Daten von Data-Marts (im Beispiel Data-Marts A und B) gezielt für eine Föderation (Data-Mart C) zur Verfügung gestellt. Die konsolidierte Sicht wird lediglich virtuell erzeugt.
Was sind Vor-/Nachteile von förderierten DWH Systemen?
Vorteile:
Übergreifende Auswertung von heterogenen Daten aus unabhängigen Data- Marts, ohne die bestehende Infrastruktur aufzulösen.
Nachteile: Anfragen an die konsolidierte Sicht erfordern den Zugriff auf die zugrunde liegenden Data-Marts.
Was ist das Hierarchische DWH-System?
Im Gegensatz zu föderierten DWH-Systemen werden die Datenbestände aus den unterschiedlichen Data-Marts in einer separaten Datenbasis (persistente Datenbereitstellungsschicht) zusammengeführt. Auf diese Weise können auch weitere
Datenquellen eingebunden werden.
Was sind Metadaten?
Allgemein formuliert, stellen Metadaten „Daten über Daten“ dar. Metadaten wurden bisher im Zusammenhang mit den für ein DWH-System relevanten Metaebenen eingeführt. Eine höhere Metaebene beschreibt dabei eine niedrigere, indem sie das Begriffssystem und
zugehörige Regeln für die Spezifikation der niedrigeren Ebene festlegt.
Über die im DWH-Schema (Metaebene 1) festgehaltenen Metadaten des Data-Warehouse (Metaebene 0) sowie über die im multidimensionalen Datenmodell (Metaebene 2) festgehaltenen Metadaten des DWH-Schemas (Metaebene 1) hinaus werden in einen
DWH-System eine Reihe von weiteren Metadaten benötigt.
Was sind Kategorien von DWH-Metadaten?
Terminologie
Datenstruktur und Datensemantik
Datentransformation
Datenqualität
Organisationsbezug
Metadatenhistorie
Systembezug
Datenanalyse
Was ist Terminologie?
Informationen zur Verwaltung von Fachbegriffen (eindeutige
Begriffsbenennung, Definition und Ursprung des Fachbegriffs, Begriffsbeziehungen, Synonyme, Homonyme, Verantwortliche für den Fachbegriff)
Was ist Datenstruktur und Datensemantik?
Metadaten zur Beschreibung von Datenstrukturen (Name, Beschreibung, (strukturierter) Datentyp mit Typkonstruktoren und
Wertebereichen).
Was ist Datentransformation?
Angaben über Datentransformationsprozesse (Datenquellen und -
ziele, Transformationsschritte).
Was ist Datenqualität?
Qualitätsmerkmale für Datenschema und Datenwerte (Semantik,
Identifizierbarkeit, Vollständigkeit).
Was ist Organisationsbezug?
Metadaten über die datenproduzierenden und -konsumierenden
Organisationseinheiten (Datenproduzent, Datenkonsument, Berechtigungen, Entstehungs- und Verwendungskontext).
Was ist Metadatenhistorie?
Informationen zur Historisierung von Metadaten (Version,
Erläuterung der Änderung, Änderungsdatum).
Was ist Systembezug?
Beschreibung der individuellen Ausprägung der DWH-Architektur
(Softwarehersteller, -komponenten, -version, Hardware)
Was ist Datenanalyse?
Metadaten zur Beschreibung der Analysemöglichkeiten (Hypercube,
Definitionen und Dimensionselemente, Kennzahlen, Kennzahlbeziehungen
Wie erfolgt die Verwaltung von DWH-Metadaten?
Die Verwaltung von Metadaten erfolgt unter Nutzung von speziellen
Datenmanagementsystemen, die als Repository bezeichnet werden.
Die Verwaltung der Metadaten in einem DWH-System kann zentral, dezentral oder verteilt erfolgen. Zum Beispiel kann jede Instanz der im letzten Abschnitt vorgestellten Software-Schichten über eine eigene lokale Metadaten-Verwaltung verfügen. Die Metadatenverwaltung kann auch für alle Instanzen zentral erfolgen. Schließlich kann die
Metadaten-Verwaltung in verteilter Form organisiert sein, indem alle DWH-Komponenten in transparenter Form auf verteilt gespeicherte Metadaten zugreifen können.
Welche Merkmale gibt es bei der Verwaltung von DWH-Metadaten?
Repository
Metadaten-Standard
Metadaten-Austauschformat
Metadaten-Verwaltung
Was ist Repository?
Zweck: Verwaltung von Metadaten
* Funktionsumfang: Anwenderschnittstelle, Programmierschnittstelle und`Austauschformat, Versions- und Konfigurationsverwaltung
Was ist Metadaten-Standard?
- Zweck: Vereinheitlichung der Beschreibung von Metadaten
- Beispiel: CWM – Common Warehouse Metamodel
Was ist Metadaten-Austauschformat?
Zweck: Interoperabilität zwischen DWH-Komponenten eines oder
unterschiedlicher DWH-Systeme
* Beispiel: XMI – XML Metadata Interchange; Teil des CWM
Was ist Metadaten-Verwaltung?
- Repository-gestützte Verwaltung (Management) der Metadaten
- Architekturformen:
Zentral: die Metadaten aller DWH-Komponenten werden in einem
einzigen Repository verwaltet.
Dezentral: Jede DWH-Komponente verwaltet lokal ihre eigenen
Metadaten.
Verteilt: Die Metadaten sind logisch zentralisiert (d.h. von jeder DWKKomponente
zugreifbar), aber physisch dezentralisiert (d.h. auf mehrere
lokale Komponenten verteilt)