Data Warehousing Flashcards

Question

Wie geschieht das Überführen eines Data Cubes in ein geeignetes Datenmodell?

Answer 1

Durch Anlegen von DImensionstabellen und einer Faktentabelle. Die Faktentabelle beinhaltet pro Dimension ein Fremdschlüsselattribut welches auf die jeweilige Dimensionentabelle zeigt sowie die numerischen Faktenwerte. Der Primarschlüssel der Faktentabelle besteht aus allen ihren Fremdschlüsselattributen.

Answer 2

Grundsätzlich gehört zu jeder Dimension (min.) eine Dimensionentabelle. In dieser sind die einzelnen Werte der jeweiligen Dimension gespeichert, nach denen sich die Fakten kategorisieren lassen Im folgenden Abschnitt wird näher betrachtet, welche Möglichkeiten es gibt, mit Hierarchien in den Dimensionen umzugehen.

Answer 3

Speicherung der Hierarchieebenen als Attribute einer Dimensionstabelle. (Star Schema) Speicherung jeder Hierarchieebene in einer eigenen Dimensionstabelle (Snowflake Schema)

Answer 4

Zu jeder Dimension wird genau eine Tabelle angelegt. Diese Tabelle enthält abgesehen von einer Primärschlüsselspalte für jede Hierarchiestufe der Dimension eine Spalte, in der jeweils der entsprechende Wert für die Hierarchiestufe hinterlegt wird. Beispielsweise könnte die Tabelle Locations zur Speicherung der Geografie Dimension neben der Primärschlüsselspalte drei Spalten mit den Bezeichnungen city, region und country enthalten, die dann jeweils die Werte für jede Stadt beinhalten (also z B Munich, Bavaria, Germany)

Answer 5

Alternativ wäre es denkbar, zu jeder Hierarchiestufe eine eigene Tabelle anzulegen, die jeweils eine Primärschüsselspalte, die Bezeichnung der Hierarchiestufe und eine Fremdschlüsselspalte beinhaltet, die auf die Tabelle der nächsthöheren Hierarchiestufe zeigt. Dieses Vorgehen entspräche der Normalisierung des Star Schemas In diesem Fall gäbe es pro Dimension eine Tabelle für jede Hierarchiestufe. Konkret ergäben sich im obigen Beispiel also drei Tabellen Cities, Regions und Countries die jeweils eine ID, den Namen der entsprechenden Entität (z B Munich, Bavaria, Germany) und einen Fremdschlüssel auf die nächsthöhere Hierarchiestufe speichern

Answer 6

Der Name der verschiedenen Ansätze ergibt sich aus der optischen Darstellung der Schemata mit der Faktentabelle im Zentrum. Beim Star Schema entsteht eine sternförmige Anordnung der Dimensionentabellen um die Faktentabelle, während beim Snowflake Schema die langen Ketten aus hierarchisch aufeinander aufbauenden Tabellen pro Dimension den optischen Eindruck einer Schneeflocke ergeben

Answer 7

Einfache Struktur (leicht verständlich -> besser wartbar, Manuelle Abfragen in z.B. SQl sind einfacher) Flexible Hierarchiedarstellung (Klassifikationshierarchien sind als Tabellenspalten abgebildet, Redundanzen verlangen nur sehr wenig Speicherplatz im Vergleich zur Faktentabelle) Effiziente Anfragebearbeitung (Filtern erforder keine Joins innerhalb einer DImension -> schnellere Anfragen) ABER: Redundant (trotzdem in Praxis oft besser geeignet)

Answer 8

Normalisiert und dadurch redundanzfrei.

Answer 9

Bevor eine konkrete Datenabfrage durchgeführt werden kann, muss zunächst festgelegt werden, auf welcher Granularitätsstufe diese durchzuführen ist. Damit ist gemeint, wie grob oder feingranular die Daten ausgegeben werden sollen, also welche Hierarchiestufe für jede Dimension gewählt werden soll. Eine Kombination aus je einer Hierarchiestufe pro Dimension wird als Konsolidierungspfad bezeichnet und kann graphisch dargestellt werden, indem man die Hierarchien der Dimensionen nebeneinander darstellt und die gewünschte Granularitätsstufe einzeichnet. Möchte man die Daten hinsichtlich bestimmter Dimensionen gar nicht aufschlüsseln, so können diese Dimensionen bei der Erstellung des Konsolidierungspfades ausgelassen werden.

Answer 10

Durch bestimmte OLAP Operationen.

Answer 11

Pivoting: Das Pivoting auch als Rotation bekannt, bezeichnet das Vertauschen der Dimensionsachsen des Würfels und entspricht damit anschaulich der Drehung des Würfels Praktisch bedeutet das, dass die Daten aus verschiedenen Perspektiven analysiert werden können Roll up: Beim Roll up werden Daten auf eine höhere Hierarchiestufe aggregiert Beispielsweise würden also Umsätze nicht pro Tag und Filiale, sondern pro Monat und Land ausgegeben. Es handelt sich also um eine Datenaggregation entlang einer Klassifikationshierarchie Drill down: Das Drill down stellt die komplementäre Operation zum Roll up dar Daten werden also Daten entlang einer Klassifikationshierarchie weiter heruntergebrochen, beispielsweise um die Umsätze eben nicht nur pro Monat, sondern detailliert pro Tag aufzuschlüsseln Drill across: Das Drill across ist eine Operation, bei der der Konsolidierungspfad oder sogar der ganze Data Cube ausgetauscht wird. Drill across bedeutet also, dass andere Datensätze abgefragt werden, beispielsweise die Verkäufe anstelle der Umsätze Slice: Das Slicing ist eine Operation, die logisch einer Filterung der Datensätze entspricht. Es wird anschaulich also eine Scheibe aus dem Würfel geschnitten, indem eine (oder mehrere) Dimensionen auf bestimmte Werte gefiltert wird Dice: Das Dicing ist eine Operation, die einer Filterung der Datensätze hinsichtlich aller Dimensionen entspricht. Es wird also ein „Mini Würfel“ aus dem großen Würfel extrahiert, indem alle Dimensionen auf bestimmte Werte gefiltert werden

Answer 12

Mit SQL Befehlen

Answer 13

Die Auswahl des Konsolidierungspfads die dem Roll up bzw Drill down entspricht, kann durch die Modifikation des GROUP BY Befehls erreicht werden.

Answer 14

Die Filterung nach Dimensionswerten die dem Slicing bzw Dicing entspricht, kann durch geeignete WHERE Befehle realisiert werden. Beispielsweise kann eine Filterung nach dem Land Deutschland vorgenommen werden, indem der Zusatz WHERE L country ='Germany' in die Abfrage eingefügt wird

Answer 15

Die Filterung nach Faktenwerten ist ebenfalls möglich und wird durch den HAVING Befehl realisiert Beispielsweise kann mit dem Zusatz. HAVING SUM(F revenue) > 100000 auf diejenigen Einträge gefiltert werden, wo der Betrag des Umsatzes größer als 100 000 ist.

Answer 16

Order by Befehle

Answer 17

Mit der Erläuterung der OLAP Operationen und deren Umsetzung in SQL wurde der letzte Schritt vollzogen, der für die Vorbereitung von betrieblichen Datenanalysen vonnöten ist Daher werden sich die folgenden Kapitel nun mit dem Data Mining beschäftigen, also mit dem Analyseprozess, der darauf abzielt, Beziehungsmuster wie Regelmäßigkeiten und Auffälligkeiten in den Daten zu ermitteln.