Modellierung multidimensionaler Data-Warehouse-Schemata Flashcards

1
Q

Was sind Kennzahlen?

A

Kennzahlen sind Wertgrößen, die einen quantitativ messbaren Sachverhalt wiedergeben und relevante Tatbestände sowie Zusammenhänge in einfacher, konzentrierter Form erfassen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie lassen sich Kennzahlen unterscheiden?

A

Absolute Zahlen: z.B. Umsatz, Anzahl der Studierenden im Studiengang vawi.

Verhältniszahlen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie lassen sich Verhältniszahlen unterteilen?

A

Beziehungszahlen: setzen zwei verschiedenartige Größen zueinander in Beziehung, z.B. Rentabilität als Gewinn zu Kapital, Absolventen je Professor.

Gliederungszahlen: setzen zwei gleichartige Größen in Beziehung und geben den Anteil einer Größe an der Gesamtgröße an, z.B. Anteil der Materialkosten an den Gesamtkosten, Anteil der weiblichen Studierenden

Indexzahlen: setzen inhaltlich gleichartige, aber zeitlich oder örtlich verschiedene Größen zueinander in Beziehung, z.B. Preissteigerungsindex, eingeworbene Drittmittel im Vergleich zum Vorjahr oder zum Landesdurchschnitt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was sind Kennzahlensysteme?

A

Im Allgemeinen werden zur Beurteilung eines bestimmten Sachverhaltes nicht nur eine, sondern mehrere Kennzahlen herangezogen. Stehen diese Kennzahlen zueinander in Beziehung, so entsteht ein Kennzahlensystem. Seine Darstellung dient dazu, die Beziehungen zwischen den als wichtig und entscheidungsrelevant erachteten Größen wiederzugeben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wie lassen sich Kennzahlensysteme herleiten?

A

*logisch anhand von definitorischen Beziehungen

*empirisch-theoretisch anhand einer Theorie und zugehörigen Hypothesen, die empirisch bestätigt werden

*empirisch-induktiv ausgehend von vorliegenden empirischen Befunden

*modellgestützt auf der Grundlage eines Entscheidungsmodells

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist ein Beispiel für ein Kennzahlensystem?

A

Ein bekanntes Beispiel für ein logisch anhand von Definitionsgleichungen abgeleitetes Kennzahlensystem ist das Dupont-Kennzahlensystem, das auszugsweise hier wiedergegeben ist.

ROI = Umsatzrentabilität * Kapitalumschlage
Umsatzrentabilität: Umsatz / Gewinn
Gewinn: DB - Fixe Kosten
Kapitalumschlag: Umsatz / Investiertes Kapital

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist das zweite Metaobjekt multidimensionaler Datenschemata?

A

Dimension

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist die Extension des Objekts auf der Metaebene (2)?

A

Seine Extension besteht auf der Schemaebene (1) aus der Dimensionshierarchie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist die Extension der Schemaebene (1)?

A

Die Ausprägungsebene z.B. WIINFO, INF, BWL wenn auf Ebene 1 Studiengang steht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wie kann entlang der Dimensionshierarchie aggregiert werden?

A

Angenommen, die zugehörige Kennzahl sei die Anzahl der
Studierenden, so wird deutlich, dass diese Kennzahl entlang der Dimensionshierarchie beliebig aggregiert (Operator Roll-Up) und disaggregiert (Operator Drill-Down) werden kann.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welche Dimensionshierarchien gibt es?

A

Standardhierarchie
Parallele Hierarchien
Unbalancierte Hierarchien
Anteilige Verrechnung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wann liegt eine parallele Hierarchie vor?

A

In einer Dimension kann es mehr als eine Hierarchie geben. In diesem Fall liegen parallele Hierarchien vor. Parallele Hierarchien spezifizieren alternative Verdichtungswege und erlauben es, unterschiedliche, zueinander komplementäre Perspektiven innerhalb einer Dimension einzunehmen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wann liegt eine Standardhierarchie vor?

A

In einer Dimension auch nur eine Hierarchie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wie ist bei Parallele Hierarchien die Aggregation von Kennzahlen möglich?

A

Eine Aggregation von Kennzahlen ist in diesem Fall jeweils entlang eines Weges in der Dimensionshierarchie möglich. Parallele Wege schließen sich gegenseitig aus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wann liegt eine unbalancierte Hierarchie vor?

A

Eine unbalancierte Hierarchie liegt vor, wenn in einer Dimensionshierarchie vom Wurzelknoten bis zu einem Blattknoten Wege unterschiedlicher Länge auftreten.

Im Beispiel liegen die Einwohnerzahlen für die einzelnen Bundesländer der Bundesrepublik Deutschland vor, für die anderen Staaten sind jedoch nur die Gesamtzahlen verfügbar.

Unbalancierte Hierarchien verletzen die nachfolgend vorgestellten Bedingungen für die Aggregierbarkeit. Ausgehend von der Gesamteinwohnerzahl ist zunächst ein Drill-Down auf die Ebene der Staaten möglich. Eine weitere Auflösung kann jedoch nur bezüglich der
Einwohnerzahlen der Bundesrepublik Deutschland durchgeführt werden. Eine Lösung besteht in der Einführung von Dummy-Werten für die übrigen Staaten auf der Dimensionsstufe Bundesland.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist die anteilige Verrechnung?

A

Bei der anteiligen Verrechnung wird auf der Ausprägungsebene von der Baumstruktur abgewichen. Dies ist dann nötig, wenn eine eindeutige Zuordnung von Dimensionselementen auf der nächsthöheren Hierarchiestufe nicht möglich ist.

Im Beispiel fallen 4 Arbeitstage der Kalenderwoche 5/2019 in den Januar, 1 Arbeitstag fällt in den Februar. Analog fallen 4 Arbeitstage der Kalenderwoche 9/2019 in den Februar und einer in den März.
Dadurch wird auf Ausprägungsebene vom Prinzip der eindeutigen Zuordnung abgewichen und somit eine Bedingung für die Aggregierbarkeit verletzt. Die dadurch bewirkte Anomalie zeigt sich etwa darin, dass es nicht möglich ist, den Operator Drill-Down in konsistenter Weise auf die Anzahl der Kundenkontakte im Februar 2019 anzuwenden. Diese Operation wirkt sich in Seiteneffekten auf die Monate Januar und März us.

17
Q

Wie löst man das Problem bei der anteiligen Verrechnung?

A

Für das Problem der anteiligen Verrechnung werden häufig pragmatische Lösungen gewählt. Eine Lösung besteht darin, mehrfach zugeordnete Dimensionselemente aufzuteilen, etwa in KW 5/2019-Januar und KW 5/2019-Februar. Eine andere Lösung wäre, die Kalenderwoche jeweils dem Monat zuzuordnen, in den die Mehrzahl der Arbeitstage fällt. Die erste Lösung erschwert Vergleiche auf der Ebene der Kalenderwochen, die zweite Lösung führt zu fehlerhaften Ergebnissen.

18
Q

Welche Bedingungen für die Aggregierbarkeit von Kennzahlen entlang der einzelnen Stufen einer Dimensionshierarchie gibt es?

A

Disjunktheit
Vollständigkeit
Typverträglichkeit

19
Q

Was ist Disjunktheit?

A

Bei der Definition von Aggregationen muss beachtet werden, dass ein konkreter Wert einer Kennzahl nur genau einmal in das Ergebnis eingeht.

Wenn ein bestimmter Datensatz in mehreren Aggregationsstufen auftaucht, kann dies zu fehlerhaften Ergebnissen führen

20
Q

Was ist Vollständigkeit?

A

Kennzahlen auf höherer Aggregationsebene sollten sich immer komplett aus Werten tieferer Stufen berechnen lassen.

Fehlende Daten können zu Verzerrungen in den Aggregatergebnissen führen.

21
Q

Was ist Typverträglichkeit?

A

Durch Anwendung einer Aggregationsfunktion auf Kennzahlwerte erfolgt ein Übergang von einer Stufe einer Dimensionshierarchie zur nächsten. Die Kennzahl, die Aggregationsfunktion und die Dimensionselemente der beiden Hierarchiestufen müssen dabei typverträglich sein.

Probleme treten insbesondere bei der Dimension Zeit auf, bezüglich derer Bestandsgrößen häufig nicht aggregierbar sind, während Bewegungsgrößen verdichtet werden können. Z.B. führt eine Summierung von Lagerbeständen [Mengeneinheiten] über die Dimension Zeit zu Mehrfachzählungen, während Lagerbestandsveränderungen [Mengeneinheiten/Zeiteinheit] über die Zeit hinweg summierbar sind

22
Q

Wie lassen sich vier- und mehrdimensionale Datenstrukturen darstellen?

A

Dabei lässt sich ein vierdimensionaler Hypercube durchaus darstellen, auch wenn dem Menschen die zugehörige vierdimensionale Raumvorstellung nicht möglich ist.

Die Begrenzung eines n-dimensionalen Hypercube besteht aus (2*n) Bausteinen, von denen jeder wiederum ein (n-1)-dimensionaler Hypercube ist. Eine Gerade (1-dim.) wird durch 2 Punkte (0-dim.) begrenzt, ein Quadrat (2-dim.) durch 4 Geraden (1-dim.), ein Würfel (3-dim.) durch 6 Quadrate (2-dim.).

Entsprechend wird ein vierdimensionaler Hypercube, auch als Tesseract bezeichnet, durch 8 Würfel (3-dim.) begrenzt.

23
Q

Wie sieht die Schemaarchitektur von Data-Warehouse-Systemen aus?

A

Grundsätzlich stellt ein Data-Warehouse-System ein Datenmanagementsystem dar, das auf der im Modul
Datenmanagement eingeführten Drei-Ebenen-Schemaarchitektur beruht.

Externe Ebene
Konzeptuelle Ebene
Interne Ebene

24
Q

Was ist auf der Konzeptuelle Ebene?

A

Unterstellt man, dass nicht nur bei der Realisierungsform ROLAP, sondern auch bei MOLAP ein relationales Datenbankverwaltungssystemen (DBVS) zur grundlegenden Datenspeicherung eingesetzt wird, so wird auf der konzeptuellen Ebene ein relationales konzeptuelles Datenbankschema eingesetzt.

Dieses ist in der Regel als Star- oder Snowflake-Schema konzipiert.

25
Q

Was ist auf der externen Ebene?

A

Auf der externen Ebene liegen ein oder mehrere externe Data-Warehouse-Schemata vor. Diese Ebene korrespondiert mit der OLAP-Schnittstelle, an der Datenstrukturen in multidimensionaler
Form für die unterschiedlichen Präsentations- und Auswertungswerkzeuge zur Verfügung gestellt werden.

26
Q

Was ist auf der internen Ebene?

A

Die interne Ebene umfasst das interne Datenbankschema, welches im Allgemeinen in Abhängigkeit vom jeweils eingesetzten DBVS spezifiziert wird. Gegenstand des internen Schemas sind u.a. Spezifikationen von Zugriffspfaden.

27
Q

Was passiert bei der Entwicklung eines Data-Warehouse-Systems?

A

Das konzeptuelle Datenbankschema wird nicht direkt spezifiziert. Vielmehr wird ein Semantisches Data-Warehouse-Schema entwickelt, welches näher an der Anwendungsdomäne orientiert ist und aus dem erst in einem zweiten Schritt ein Star- oder Snowflake-Schema abgeleitet wird.

Für diesen konzeptuellen Entwurf wurden in der Literatur eine Vielzahl von Datenmodellen vorgeschlagen. Die Vorschläge reichen vom Einsatz klassischer Datenmodelle (z.B. ERM) und zugehörigen Erweiterungen über multidimensionale und objektorientierte Datenmodelle.

Im vorliegenden Zusammenhang wird ein speziell für die konzeptuelle Modellierung semantischer Data-Warehouse-Schemata entwickeltes Datenmodell eingeführt, das Semantische Data-Warehouse-Modell (SDWM), für das auch Entwicklungswerkzeuge bereitgestellt werden können

28
Q

Welche Modellierungselemente des Semantischen Data-Warehouse-Modells (SDWM) gibt es ?

A

Basiskennzahlen sind Kennzahlen, die aus Sicht des Data-Warehouse-Schemas nicht weiter aufgelöst werden können.

Abgeleitete Kennzahlen werden aus einer oder mehreren Basiskennzahlen durch Anwendung einer Ableitungsvorschrift gebildet.

Dimensionen werden anhand ihrer einzelnen Dimensionshierarchiestufen beschrieben.

Jeder Stufe können ein oder mehrere Dimensionsattribute zugeordnet werden. Verschiedene Basiskennzahlen können gemeinsame Dimensionen aufweisen, die durch Umrandung gekennzeichnet werden. Anhand gemeinsamer Dimensionen lassen sich Beziehungen
zwischen unterschiedlichen multidimensionalen Datenstrukturen herstellen

29
Q

Wo findet die konzeptuelle Modellierung von Data-Warehouse-Systemen statt?

A

Die konzeptuelle Modellierung von Data-Warehouse-Systemen findet im Allgemeinen auf der Schemaebene statt, das Ergebnis ist ein Semantisches Data-Warehouse-Schema.

Die Instanzebene wird im Allgemeinen aus Gründen des Umfangs nicht dargestellt.

30
Q

Welche Modellierungsansätze zur konzeptuellen Modellierung von Data-Warehouse-Schema gibt es?

A

Klassische Datenmodellierungsansätze, die häufig auf dem Entity-Relationship-Modell beruhen

Erweiterungen klassischer Datenmodellierungsansätze, die speziell auf
multidimensionale Datenstrukturen ausgerichtet sind

Rein multidimensionale Modellierungsansätze

Modellierungsansätze aus dem Bereich statistischer und wissenschaftlicher Datenbanken (Science and Statistical Databases)

Objektorientierte Modellierungsansätze

31
Q

Wie kann eine Bewertung der genannten Ansätze zur konzeptuellen Modellierung von DWH-Systemen vorgenommen werden?

A

Michael Böhnlein hat einen Kriterienkatalog zur Bewertung d genannten Ansätze entwickelt. Der Katalog umfasst Kriterien zu speziellen Anforderungen an die Unterstützung der Multidimensionalität sowie allgemeine Anforderungen an konzeptuelle Data-Warehouse- Modellierungsansätze.

Die im Rahmen dieser Bewertung festgestellten Defizite der genannten Ansätze in Bezug auf die konzeptuelle Modellierung von DWH-Systemen waren der Auslöser für die Entwicklung des SDWM.