Das multidimensionale Datenmodell Flashcards

1
Q

Wie erfolgt bei operativen Anwendungssystemen meist die Darstellung der Daten?

A

Bei operativen Anwendungssystemen erfolgt die Darstellung der Daten meist in relationaler Form. Die zugehörige Metapher ist die einer zweidimensionalen Tabelle. Die Zeilen der Tabelle stellen Entities dar (z.B. Kunden), die Spalten enthalten die Werte dieser Entities bezüglich ihrer einzelnen Attribute (z.B. Name)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie erfolgt bei DWHS meist die Darstellung der Daten?

A

Die Darstellung eines Data-Warehouse erfolgt in multidimensionaler Form. Die zugehörige Metapher ist die eines mehrdimensionalen Kubus (Hypercube), dessen Elemente Werte einer bestimmten entscheidungsrelevanten Kennzahl (auch Kenngröße, Maßzahl,
Variable, Fakt oder Metrik genannt; z.B. Umsatz) darstellen. Die Werte der Kennzahl sind entlang der Dimensionen des Hypercube klassifiziert (z.B. Produkt, Geographie, Zeit).

Jeder im Hypercube auftretende Wert der Kennzahl ist jeder Dimension eindeutig zugeordnet (z.B. Umsatz: € 63,92; Produkt: Software-Paket A; Filiale: München-Süd; Tag: 2002-07-16). Dimensionen können hierarchisch aggregiert sein. Zum Beispiel stellt Tag-Monat-Jahr eine zulässige Dimensionshierarchie dar. Tag-Kalenderwoche-Monat ist
hingegen nicht zulässig, da eine Kalenderwoche in zwei Monate fallen kann und damit eine hierarchische Aggregation nicht möglich ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wann kann ein bzw. müssen mehrere Hypercubes verwendet werden?

A

Im Allgemeinen sind mehrere Kennzahlen entscheidungsrelevant. Besitzen diese Kennzahlen identische Dimensionen, so können die zugehörigen Werte gemeinsam in einem Hypercube verwaltet werden.

Unterscheiden sich die Dimensionen, so müssen mehrere Hypercubes aufgebaut werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche Meta-Ebenen gibt es beim Multidimensionales Datenmodell?

A

Metaebene 2: Metamodell des multidimensionalen Datenmodells
Metaebene 1: Multidimensionales Datenschema
Metaebene 0: Multidimensionale Datenstruktur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was umfasst das Metamodell des multidimensionalen Datenmodells?

A

Das Metamodell des multidimensionalen Datenmodells (Metaebene 2) umfasst die Meta-Objekttypen Kennzahl sowie Dimension, Attribut und Dimensionshierarchie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was umfasst das Multidimensionales Datenschema?

A

Das multidimensionale Datenschema (Metaebene 1) umfasst die Kennzahl sowie Dimensionen mit ihren zugehörigen Attributen und Dimensionshierarchien. z.B. Umsatz und Geographie_: Filiale -> Ort -> Land

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was umfasst die Multidimensionale Datenstruktur?

A

Die multidimensionale Datenstruktur (Metaebene 0) enthält die Ausprägungen der Kennzahl Umsatz (Umsatzwerte) sowie die Ausprägungen der einzelnen Attribute.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wie erfolgt die Standardisierung von Metamodellen für multidimensionale Datenstrukturen?

A

Die Standardisierung von Metamodellen für multidimensionale Datenstrukturen wird u.a. von der OMG (Object Management Group) im Rahmen des CWM (Common Warehouse Metamodel) betrieben (siehe www.omg.org).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was machen die Operatoren: Drill Down und Roll Up?

A

Die Operatoren Drill Down und Roll Up dienen zum Navigieren innerhalb einer Dimensionshierarchie.

Drill Down navigiert eine Ebene nach unten (z.B. von Umsätzen je
Produktkategorie zu Umsätzen je Produkthauptgruppe oder von Monatsumsätzen zu Tagesumsätzen). Roll Up navigiert umgekehrt eine Ebene nach oben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist die Aggregationsstufe Gesamt?

A

Befindet man sich bezüglich aller Dimensionshierarchien auf der Aggregationsstufe Gesamt, so erscheint der Hypercube in Form eines einzigen Wertes einer Kennzahl.

Durch Navigation entlang der Dimensionshierarchien nach unten (rot gekennzeichnet) wird der Hypercube schrittweise disaggregiert bis hin zu den elementaren Kennzahlwerten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Sind alle Attribute aggregierbar?

A

Es sei darauf hingewiesen, dass nicht alle Kennzahlen aggregierbar sind bzw. ihre Aggregation sinnvoll interpretiert werden kann.

Zum Beispiel ist das Attribut Semester eines Data-Warehouse zur Studentenverwaltung nicht sinnvoll aggregierbar. Eine
Summenbildung der Studierendenzahlen über mehrere Semester hinweg liefert keinen interpretierbaren Wert, da z.B. die Mehrzahl der im Wintersemester 2008/09 eingeschriebenen Studierenden auch im Sommersemester 2009 eingeschrieben ist und somit Studierende mehrfach erfasst würden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was machen die Operatoren Selection und die Spezialisierungen Slice und Dice?

A

Die hier dargestellten Operatoren dienen der Selektion von Daten aus einem Hypercube.

Der Operator Selection ermöglicht eine Auswahl von Kennzahlwerten oder Attributen anhand vorgegebener Kriterien (z.B. finde die drei Produktgruppen mit den höchsten Monatsumsätzen im Jahr 2008; finde die Filiale mit dem höchsten Tagesumsatz im Monat 07/2008).

Slice und Dice stellen Spezialisierungen des Operators Selection dar.
Slice ermöglicht das „Herausschneiden einer Scheibe“ aus dem Hypercube (z.B. alle Umsätze in den Dimensionen Geographie und Zeit für das Produkt „Softwarepaket A“). Das Anfrageergebnis weist dabei eine gegenüber dem Hypercube um eins reduzierte Anzahl
an Dimensionen auf (z.B. wird aus einem dreidimensionalen Würfel eine zweidimensionale Tabelle selektiert).

Der Operator Dice selektiert einen Teilwürfel des Hypercube; die
Anzahl der Dimensionen bleibt dabei unverändert (z.B. Umsätze aller deutschen Filialen im Jahre 2002 in einer bestimmten Produktkategorie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was macht der Operator Rotate?

A

Der Operator Rotate dreht den Hypercube durch Vertauschen von zwei Dimensionen (z.B. Vertauschen der Dimensionen Zeit und Produkt). Dadurch ergibt sich eine veränderte Sicht auf die Datenstruktur, die quantitativen Daten selbst bleiben dabei unverändert. Der Operator ist insbesondere bei der Gestaltung der Anordnung von Werten in Kreuztabellen nützlich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Welche Operatoren gibt es?

A

Drill Down
Roll Up
Selection
Slice
Dice
Rotate

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Welche Realisierungsformen des multidimensionalen DM gibt es?

A

MOLAP: Multidimensionales OLAP
ROLAP: Relationales OLAP
HOLAP: Hybrides OLAP

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist MOLAP: Multidimensionales OLAP?

A

Aus den in einem relationalen Datenbanksystem gespeicherten Daten wird „auf Vorrat“ eine multidimensionale Datenstruktur (mehrdimensionaler ARRAY) aufgebaut und gespeichert.

Anfragen an das Data-Warehouse-System werden direkt aus dieser multidimensionalen Datenstruktur bedient.

17
Q

Was ist ROLAP: Relationales OLAP?

A

Die multidimensionale Datenstruktur ist eine nicht-materialisierte Sicht (View) auf die Tabellen des relationalen Datenbanksystems. Anfragen an das Data-Warehouse-System werden in SQL-Anfragen an das relationale Datenbanksystem umgesetzt; die Ergebnisse werden an der OLAP-Schnittstelle in Form multidimensionaler Datenstrukturen präsentiert.

18
Q

Was ist HOLAP: Hybrides OLAP?

A

Kombination aus MOLAP und ROLAP.

19
Q

Wie funktioniert Multidimensionales OLAP (MOLAP)?

A

In einem (einmaligen) Ladevorgang wird aus den in einem relationalen Datenbanksystem gespeicherten Daten „auf Vorrat“ eine multidimensionale Datenstruktur in einem mehrdimensionalen ARRAY
aufgebaut. Anfragen an das Data-Warehouse-System werden direkt aus der multidimensionalen Datenstruktur bedient.

Ein erneutes Laden von Daten aus dem Data-Warehouse in den mehrdimensionalen ARRAY wird erforderlich, wenn sich die Inhalte des Data-Warehouse-Systems ändern. Im Allgemeinen ist dann ein völliger Neuaufbau der multidimensionalen Datenstruktur erforderlich.

20
Q

Was sind Vor-/Nachteile von MOLAP?

A

Vorteil: schnellere Zugriffe und kurzer Antwortzeiten

Nachteil: schwerfälligen Handhabung von Datenänderungen

21
Q

Wie ist das Adressierungsschema des mehrdimensionalen ARRAY?

A

Wie bereits erwähnt, wird die multidimensionale Datenstruktur in einem mehrdimensionalen ARRAY aufgebaut. Die Implementierung des ARRAY erfolgt in der Form ARRAY [1..n] OF <Kennzahltyp>.</Kennzahltyp>

Die Elemente des ARRAY speichern die Zellen der multidimensionalen Datenstruktur. Die Obergrenze n ergibt sich aus dem Produkt der
Kardinalitäten der einzelnen Dimensionen, d.h. als |D1| . |D2| . … . |Dn|. Im Beispiel soll eine dreidimensionale Datenstruktur realisiert werden, bei der die Dimensionen D1 und D2 jeweils 4 Elemente umfassen, die Dimension D3 umfasst 3 Elemente. Es wird ein ARRAY der Länge 4 . 4 . 3 = 48 benötigt. Der Index des ARRAYElements,
in dem eine Zelle mit Attributwerten x1, x2, x3 der drei Dimensionen D1, D2, D3
gespeichert ist, wird mithilfe der dargestellten Formel ermittelt. Das durch die Formel
realisierte Adressierungsschema ist zusätzlich in tabellarischer Form verdeutlicht.

22
Q

Wie erfolgt die Verwaltung aggregierter Daten gemäß MOLAP?

A

Grundsätzlich enthält ein Data-Warehouse ausschließlich elementare Daten, d.h. die Werte der Kenngrößen bezüglich der detailliertesten Stufe aller Dimensionshierarchien.

Werden aggregierte (verdichtete) Daten benötigt, wie das wohl bei der Mehrzahl der Anfragen an ein Data-Warehouse-System der Fall ist, so werden diese aus den elementaren Daten berechnet. Aus der Sicht des Nutzers können diese aggregierten Daten bei Bedarf mithilfe des Operators Drill-Down dann sukzessive in elementare Daten aufgelöst werden.

23
Q

Was ist der Nachteil bei der Berechnung aggregierter Daten (MOLAP)?

A

Die Berechnung aggregierter Daten kann in Abhängigkeit von der Struktur und dem Umfang des Data-Warehouse sehr zeitaufwändig sein. Aus diesem Grund kann es sinnvoll sein, aggregierte Daten „auf Vorrat“ in das Data-Warehouse aufzunehmen.

In der Realisierungsform MOLAP muss dabei für jede Aggregation ein separater mehrdimensionaler ARRAY auf Vorrat aufgebaut und verwaltet werden. Die Definition von Aggregationen stößt dadurch rasch an ihre speicher- und verarbeitungstechnischen Grenzen und sollte deshalb nur in besonders begründeten Fällen vorgesehen werden.

24
Q

Wie funktioniert Relationales OLAP (ROLAP)?

A

Die multidimensionale Datenstruktur ist in diesem Fall eine nicht materialisierte Sicht (View) auf die Tabellen des relationalen Datenbanksystems. Im Gegensatz zu MOLAP findet kein Aufbau der
Datenstruktur „auf Vorrat“ statt.

Anfragen an das Data-Warehouse-System werden in SQL-Anfragen an das relationale Datenbanksystem umgesetzt. Die Anfrageergebnisse werden aufbereitet und an der OLAP-Schnittstelle in Form von multidimensionalen Datenstrukturen präsentiert.

25
Q

Was sind Vor-/NAchteile von ROLAP?

A

Vorteile des ROLAP-Prinzips (im Vergleich zu MOLAP) sind:
*Anfragen richten sich stets an den aktuellen Datenbestand des Data-Warehouse- Systems.
*Eine häufigere Aktualisierung des Data-Warehouse wird besser unterstützt.
*Strukturänderungen des Data-Warehouse-Schemas können leichter durchgeführt werden.

Zu den Nachteilen (im Vergleich zu MOLAP) gehört:
*Bedingt durch die SQL-Anfragen und den anschließenden Aufbau der multidimensionalen Sichten ist von langsameren Zugriffen und längeren Antwortzeiten auszugehen.

26
Q

Welche Relationales Datenbankschema gibt es?

A

Snowflake
Star

27
Q

Was machen die rel. Datenbankschema?

A

Beiden Formen gemeinsam ist die Verwaltung der Kennzahlen in Form von Faktentabellen. Der Primärschlüssel einer Faktentabelle setzt sich aus den Primärschlüsseln der zugehörigen Dimensionstabellen (auf der untersten Aggregationsstufe) zusammen.

Die Verwaltung der Dimensionen sowie der zugehörigen Attribute und Dimensionshierarchien erfolgt in den bereits angesprochenen Dimensionstabellen. Hier werden die Unterschiede zwischen einem Star- und einem Snowflake-Schema deutlich.

28
Q

Was ist die Faktentabelle?

A

Verwaltung der Kennzahlen, d.h. der quantitativen Daten. z.B. Umsatz

29
Q

Was ist die Dimensionstabelle?

A

Verwaltung der Dimensionen und der zugehörigen Attribute und Dimensionshierarchien,
d.h. der qualitativen Daten: z.B. Produkt, Zeit und Ort

30
Q

Wie funktioniert das Star Schema?

A

jede Dimension wird in genau einer Tabelle verwaltet.

Primärschlüssel (PK) der Tabelle identifiziert die Ausprägungen der Dimension auf der detailliertesten Stufe. Jede Zeile einer Dimensionstabelle enthält darüber hinaus die zugehörigen Ausprägungen der höheren Stufen der Dimensionshierarchie.

Aufgrund der Speicherung einer Dimensionshierarchie und der zugehörigen Attribute in Form einer einzigen Tabelle wird im Allgemeinen die zweite oder die dritte Normalform verletzt. Diesem Nachteil stehen möglicherweise kürzere Zugriffszeiten auf die Daten gegenüber.

31
Q

Wie funktioniert das Snowflake Schema?

A

Für jede Aggregationsstufe einer Dimension wird eine eigene Tabelle gebildet. Die Beziehungen zwischen den Tabellen einer Dimensionshierarchie werden über Fremdschlüssel (FK) hergestellt. Die Dimensionstabellen sind in dritter Normalform.

Sowohl in einem Star- als auch in einem Snowflake-Schema können ggf. alternative Dimensionshierarchien simultan verwaltet werden. So können z.B. für die Dimension Zeit die Dimensionshierarchien Tag-Monat-Jahr, Tag-Quartal-Jahr oder Tag-Kalenderwoche-Jahr parallel geführt werden.

32
Q

Wie erfolgt die Verwaltung aggregierter Daten gemäß ROLAP?

A

Auch bei ROLAP können bei Bedarf aggregierte Daten in das Data-Warehouse aufgenommen werden.

Angenommen, Umsätze werden häufig verdichtet nach Produktgruppen (PGruppe) benötigt, dann bietet es sich an, eine weitere Faktentabelle F_Umsatz_1 zu verwalten, die
diese aggregierten Umsätze als Kennzahl enthält.

33
Q

Was sind Vor-/NAchteile der Verwaltung aggregierter Daten gemäß ROLAP?

A

Vorteile:
*Bei Anfragen bezüglich produktgruppenspezifischer Umsätze müssen diese nicht erst über SUM berechnet werden.
*Bei Anfragen über ein Snowflake-Schema reduziert sich die Anzahl der Verbundoperationen.

Nachteile:
*Es muss eine zusätzliche Faktentabelle, die allerdings einen geringeren Umfang besitzt, verwaltet werden.
*Es muss ein konsistenzerhaltender Abgleich zwischen den Faktentabellen erfolgen. Dieser Abgleich kann z.B. über Trigger, die von vielen DBVS unterstützt werden, erfolgen.

34
Q

Wie funktioniert Hybrides OLAP (HOLAP)?

A

Es entspricht im Grundsatz einem Caching von im Voraus berechneten Daten.

Häufig benötigte Daten oder aufwändige Berechnungen werden nach dem MOLAP-Prinzip vorbereitet und in Form einer multidimensionalen Datenstruktur aufgebaut und vorgehalten. Die Anfragen werden, soweit möglich, aus dieser multidimensionalen Datenstruktur bedient.
Daten, die nicht in der vorberechneten multidimensionalen Datenstruktur vorliegen, werden nach dem ROLAP-Prinzip aus dem Data-Warehouse gelesen. Die Anfrage ist für den Nutzer transparent, d.h. er sieht nicht, welche Daten aus dem multidimensionalen Cache
stammen und welche erst zum Anfragezeitpunkt ermittelt wurden. Die Anfrageergebnisse werden vom Data-Warehouse-System zusammengeführt und an der OLAP-Schnittstelle in
Form integrierter multidimensionaler Datenstrukturen präsentiert.
Die meisten Hersteller von MOLAP- oder ROLAP-Werkzeugen sind in den letzten Jahren dazu übergegangen ihre Produkte um Funktionen für HOLAP zu erweitern. MOLAP Werkzeuge
bieten mittlerweile zunehmend einen direkten Durchgriff auf Daten der
zugrunde liegenden relationalen Datenbank an; bei ROLAP-Werkzeugen wird die
Performance mithilfe multidimensionaler Cache-Verfahren optimiert.