Data Warehousing Flashcards

1
Q

Was ist Business Intelligence?

A

Unter BI wird ein integrierter, unternehmensspezifischer, IT basierter Ansatz zur betrieblichen Entscheidungsfindung verstanden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Womit befasst sich die BI`?

A

Mit der analytischen Auswertung von Daten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist Online Transactional Processing OLTP?

A

Ausführung einzelner, kurzer Lese- oder Schreibtransaktionen auf einzelnen Datensätzen eines operativen Systems.

Relevant für Sachbearbeiter auf operativer Unternehmensebene.

Ziel: (operatives) Datenmanagement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist Online Analytical Processing (OLAP)?

A

Interaktive Datenanalyse durch komplexe adhoc-Abfragen auf integrierten Datenbeständen aus heterogenen Quellen.

Relevant für strategische Unternehmensführung (Management, Controlling, etc.)

Ziel: (strategische) Datenanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was benötigt man da OLTP Systeme sich nicht für die Zwecke von OLAP Aufgaben nutzen lassen durch Datenbestand und unterstützter Operationen?

A

Ein Data Warehouse System

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist ein Data Warehouse?

A

Ein System zur Speicherung, Verwaltung, und Abfrage eines integrierten Datenbestands für OLAP Zwecke.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was sind die wesentlichen Eigenschaften eines Data Warehouses nach Inmon (1993)?

A

Fachorientierung (subject oriented): Die Aufgabe des Systems besteht in der deskriptiven Modellierung betrieblicher Sachverhalte, nicht in der Erfüllung operativer Aufgaben

Integrierte Datenbasis (integrated): Die Datenverarbeitung findet auf einer aus mehreren (oft heterogen) Datenquellen integrierten Datenbasis statt

Nicht flüchtige Datenbasis (non volatile): Die Datenbasis ist stabil d h einmal eingefügte Datensätze unterliegen keinen weiteren Änderungen

Historische Daten (time variant): Die Daten müssen über einen langen Zeitraum (mehrere Jahre) verwahrt werden, um Vergleiche über die Zeit zu ermöglichen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist ein DW nach Bauer/Günzel (2013)?

A

Eine physische DB die eine integrierte Sicht auf beliebige Daten zu Analysezwecken ermöglicht.

Im Gegensatz zu Inmon keine Forderung nach Historisierung, aber Betonung auf Notwendigkeit eines integrierten Datenbestands.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Welche Eigenschaften von DWs können aus beiden Definitionen abgeleitet werden?

A

Anfragen: Anfragen erfolgen als komplexe Lesetransaktionen, die bei Analysebedarf ad hoc stattfinden und große Datenmengen betreffen

Daten: Im Gegensatz zu operativen Systemen stammt die Datenbasis aus mehreren Quellen und ist integriert, stabil und oft aggregiert

AnwenderInnen: Zum Anwenderkreis eines Data Warehouse Systems gehören Personen aus der strategischen Unternehmensführung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welche Kategorien betrieblicher Einsatzgebiete gibt es für DW Systeme?

A

Informationsorientiert

Analyseorientiert

Planungsorientiert

Kampagnenorientiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist Informationsorientiert?

A

Beginnend vom klassischen Berichtswesen bis hin zu komplexen
Analysen und Simulationen können Data Warehouse Systeme als zentrale Informationsbasis eingesetzt werden, um einen integrierten Datenbestand zu verwalten und Abfragen darauf auszuführen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist Analyseorientiert?

A

Insbesondere analyseorientierte Informationssysteme profitieren von der
Existenz eines zugehörigen Data Warehouse Systems Beispielsweise lassen sich Erlös- Marketing- oder Vertriebscontrolling auf diese Weise unterstützen, um den Erfolg der Allokation von Ressourcen in bestimmte betriebliche Prozesse bemessen zu können.

Zugleich fallen auch Kennzahlensysteme zur Messung der betrieblichen Leistung (z B in Form des Return on Investment) oder Kostenrechnungssysteme zur Kostenstellenrechnung und Auftragskalkulation in diese Kategorie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist Planungsorientiert?

A

Obwohl Data Warehouse Systeme nur (historisierte) Daten der betrieblichen Gegenwart und Vergangenheit speichern, haben sie dennoch einen unmittelbaren Nutzen für die unternehmerische Planung.

Zum einen können mit den Daten aus Data Warehouse Systemen vergangene Planungen, die zwischenzeitlich realisiert worden sind, evaluiert werden, zum anderen können Daten aus der Vergangenheit als Trainingsdaten für
zukunftsorientierte Prognosen dienen und somit die Planung zukünftiger Entscheidungen erleichtern.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist Kampagnenorientiert?

A

Unternehmerische Kampagnen, etwa in den Bereichen Marketing,
Human Resource Management oder Customer Relationship Management erfordern häufig ein Zusammenspiel der zuvor genannten Kategorien, um anhand einer breiten Datengrundlage seriöse Prognosen für den Erfolg einer solchen Kampagne treffen und auf Basis dessen die Entscheidung für oder gegen eine Kampagne und ggf die Planung der entsprechenden
Kampagne zu erleichtern.

Dafür ist im ersten Schritt Planungsorientierung, während der Umsetzung Informationsorientierung und zur abschließenden Evaluation Analyseorientierung vonnöten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist notwendig für alle vier Einsatzgebiete?

A

EIne einheitliche, logische und integrierte Sicht auf alle Daten des Unternehmens.

Um diese ermöglichen zu können, ist ein Datenmodell erforderlich, welches von den operativen Feinheiten, die durch spezifische Modelle wie dem E/R Modell erfasst werden, abstrahiert und aggregierte, gesamtbetriebliche Datenbestände modellieren kann.

Ein solches Modell ist das multidimensionale Datenmodell.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wofür benötigt man das multidimensionale Datenmodell?

A

Im Gegensatz zu Daten aus operativen Systemen, die in der Regel einen klar begrenzten Anwendungszweck aufweisen und sich daher gut in bestimmte Entitätstypen mit klar vordefinierten Attributen und Beziehungen untergliedern lassen, können Data Warehouse Systeme zahlreiche Kenngrößen erfassen und speichern, deren Werte sich entlang mehrerer Dimensionen eingliedern
lassen.

So wäre beispielsweise denkbar, dass in einem Data Warehouse die Verkäufe, Umsätze und Gewinne verschiedener Produkte an verschiedenen Orten über verschiedene Zeitpunkte hinweg erfasst und gespeichert sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was organisiert das md. Datenmodell?

A

Die Datenbasis eines DW mithilfe von Dimensionen, Fakten und Hierarchisierungen.

18
Q

Was sind Fakten?

A

Fakten sind numerische Werte, die betriebswirtschaftliche Kennzahlen darstellen Diese Werte spiegeln die Performance eines (oder mehrerer) Arbeitssysteme wieder und stehen daher im Mittelpunkt der Datenauswertungen.

Beispielsweise handelt es sich bei Fakten um Kenngrößen wie Umsätze, Gewinne, Einstellungen oder Kündigungen von Mitarbeitenden, Anzahlen von
Bestellungen oder Verkäufen etc.

19
Q

Was sind Dimensionen?

A

Dimensionen sind deskriptive Werte, die die Fakten beschreiben oder kategorisieren Sie dienen dazu, die einzelnen Faktenwerte einzuordnen, um eine differenzierte Auswertung der Fakten vornehmen zu können.

Typische Dimensionen sind räumlicher, zeitlicher oder struktureller Natur,
geben also Ort, Zeit und Division Abteilung des Geschehens wieder, welches zu den gelisteten Fakten geführt hat.

Darüber hinaus ist aber auch eine anwendungsfallbezogene Kategorisierung
etwa nach Lieferant, Kundensegment oder Mitarbeitenden möglich

20
Q

Was sind Hierarchisierungen?

A

Hierarchisierungen spiegeln Aggregationsebenen innerhalb der Dimensionen wieder.

Die Hierarchien sind also vertikale Beziehungen innerhalb einer Dimension, die die Darstellung der Fakten in verschiedenen Verdichtungsstufen ermöglichen.

Beispielsweise könnte die zeitliche Dimension nach Tag, Monat oder Jahr und die räumliche Dimension nach Filiale, Ort und Land unterteilt sein.

Folglich ließen sich dann auch Kenngrößen wie z B Umsätze in ebendiesen
Aggregationsstufen angeben

21
Q

Was ergibt sich beim Vorhandensein von n Dimensionen?

A

Ein n-dimensionaler Würfel dessen Kanten durch die Werte der Dimensionen und dessen Inhalt durch die Werte der Fakten gebildet werden -> Data Cube

22
Q

Was können Dimensionen beinhalten?

A

Dimensionen können Klassifikationshierarchien beinhalten, die unterschiedliche Aggregierungsstufen (also Verdichtungsstufen) der Fakten ermöglichen. Diese Hierarchien können je nach Semantik der enthaltenen Begriffe einfach oder parallel verlaufen.

Zeit: Die einfache Hierarchiefolge Tag, Monat, Quartal, Jahr verläuft parallel zur einfachen Hierarchiefolge Tag, Woche

Geographie: Hier kann die einfache Hierarchiefolge Filiale Stadt Region Land angegeben werden

Produkt: Hier findet sich die einfache Hierarchiefolge Artikel, Produktgruppe, Produktfamilie, Produktkategorie

Kundensegment: Hier finden sich aufbauend auf die Stufe Kunde die drei parallelen Hierarchiestufen Altersgruppe, Geschlecht und Familienstand

23
Q

Worin besteht der Unterschied zwischen einfachen und parallelen Hierarchien?

A

Ob die einzelnen Stufen aufeinander aufbauen oder unabhängig voneinander sind In letzterem Fall liegt dementsprechend keine hierarchische Beziehung zwischen den einzelnen Aggregierungsstufen vor

24
Q

Was hat es mit Data Cubes auf sich?

A

Kanten ergeben sich aus der Anzahl an Elementen einer Dimension. Diese hängt wiederum, von der gewählten Aggregationsstufe ab (z.B. Tage > Monate)
Inhalt sind numerische Kennzahlen.

Data CUbe ist eigentlich kein Würfel sondern eine n-dimensionale Matrix

25
Q

Wie geschieht das Überführen eines Data Cubes in ein geeignetes Datenmodell?

A

Durch Anlegen von DImensionstabellen und einer Faktentabelle.

Die Faktentabelle beinhaltet pro Dimension ein Fremdschlüsselattribut welches auf die jeweilige Dimensionentabelle zeigt sowie die numerischen Faktenwerte.

Der Primarschlüssel der Faktentabelle besteht aus allen ihren Fremdschlüsselattributen.

26
Q

Was sind Dimensionstabellen?

A

Grundsätzlich gehört zu jeder Dimension (min.) eine Dimensionentabelle.

In dieser sind die einzelnen Werte der jeweiligen Dimension gespeichert,
nach denen sich die Fakten kategorisieren lassen Im folgenden Abschnitt wird näher betrachtet, welche Möglichkeiten es gibt, mit Hierarchien in den Dimensionen umzugehen.

27
Q

Welche Ansätze gibt es eine Dimension im Relationenmodell abzubilden wenn die Dim. mehrere Hierarchisierungen hat?

A

Speicherung der Hierarchieebenen als Attribute einer Dimensionstabelle.
(Star Schema)

Speicherung jeder Hierarchieebene in einer eigenen Dimensionstabelle
(Snowflake Schema)

28
Q

Was ist das Star Schema?

A

Zu jeder Dimension wird genau eine Tabelle angelegt. Diese Tabelle enthält
abgesehen von einer Primärschlüsselspalte für jede Hierarchiestufe der Dimension eine Spalte, in der jeweils der entsprechende Wert für die Hierarchiestufe hinterlegt wird.

Beispielsweise könnte die Tabelle Locations zur Speicherung der Geografie Dimension neben der Primärschlüsselspalte drei Spalten mit den Bezeichnungen city, region und country enthalten, die
dann jeweils die Werte für jede Stadt beinhalten (also z B Munich, Bavaria, Germany)

29
Q

Was ist das Snowflake Schema?

A

Alternativ wäre es denkbar, zu jeder Hierarchiestufe eine eigene Tabelle
anzulegen, die jeweils eine Primärschüsselspalte, die Bezeichnung der Hierarchiestufe und eine Fremdschlüsselspalte beinhaltet, die auf die Tabelle der nächsthöheren Hierarchiestufe zeigt.

Dieses Vorgehen entspräche der Normalisierung des Star Schemas In diesem Fall gäbe es pro Dimension eine Tabelle für jede Hierarchiestufe.

Konkret ergäben sich im obigen Beispiel also drei Tabellen Cities, Regions und Countries die jeweils eine ID, den Namen der entsprechenden Entität (z B Munich, Bavaria, Germany) und einen Fremdschlüssel auf die nächsthöhere
Hierarchiestufe speichern

30
Q

Woraus ergibt sich der Name der beiden Ansätze?

A

Der Name der verschiedenen Ansätze ergibt sich aus der optischen Darstellung der Schemata mit der Faktentabelle im Zentrum.

Beim Star Schema entsteht eine sternförmige Anordnung der
Dimensionentabellen um die Faktentabelle, während beim Snowflake Schema die langen Ketten aus hierarchisch aufeinander aufbauenden Tabellen pro Dimension den optischen Eindruck einer Schneeflocke ergeben

31
Q

Was sind Vorteile des Star Schemas gegenüber Snowflake Schema?

A

Einfache Struktur (leicht verständlich -> besser wartbar, Manuelle Abfragen in z.B. SQl sind einfacher)

Flexible Hierarchiedarstellung (Klassifikationshierarchien sind als Tabellenspalten abgebildet, Redundanzen verlangen nur sehr wenig Speicherplatz im Vergleich zur Faktentabelle)

Effiziente Anfragebearbeitung (Filtern erforder keine Joins innerhalb einer DImension -> schnellere Anfragen)

ABER: Redundant (trotzdem in Praxis oft besser geeignet)

32
Q

Was sind Eigenschaften des Snowflake Schemas?

A

Normalisiert und dadurch redundanzfrei.

33
Q

Was ist ein Konsolidierungspfad?

A

Bevor eine konkrete Datenabfrage durchgeführt werden kann, muss zunächst festgelegt werden, auf welcher Granularitätsstufe diese durchzuführen ist.

Damit ist gemeint, wie grob oder feingranular die Daten ausgegeben werden sollen, also welche Hierarchiestufe für jede Dimension gewählt werden soll.

Eine Kombination aus je einer Hierarchiestufe pro Dimension wird als Konsolidierungspfad bezeichnet und kann graphisch dargestellt werden, indem man die Hierarchien der Dimensionen nebeneinander darstellt und die gewünschte Granularitätsstufe einzeichnet.

Möchte man die Daten hinsichtlich bestimmter Dimensionen gar nicht aufschlüsseln, so können diese Dimensionen bei der Erstellung des Konsolidierungspfades ausgelassen werden.

34
Q

Wie kann die Auswahl eines Konsolidierungspgads auf einem Data Cube angepasst werden?

A

Durch bestimmte OLAP Operationen.

35
Q

Welche OLAP Operationen gibt es?

A

Pivoting: Das Pivoting auch als Rotation bekannt, bezeichnet das Vertauschen der Dimensionsachsen des Würfels und entspricht damit anschaulich der Drehung des Würfels Praktisch bedeutet das, dass die Daten aus verschiedenen Perspektiven analysiert werden können

Roll up: Beim Roll up werden Daten auf eine höhere Hierarchiestufe aggregiert Beispielsweise würden also Umsätze nicht pro Tag und Filiale, sondern pro Monat und Land ausgegeben. Es handelt sich also um eine Datenaggregation entlang einer Klassifikationshierarchie

Drill down: Das Drill down stellt die komplementäre Operation zum Roll up dar Daten werden also Daten entlang einer Klassifikationshierarchie weiter heruntergebrochen, beispielsweise um die Umsätze eben nicht nur pro Monat, sondern detailliert pro Tag aufzuschlüsseln

Drill across: Das Drill across ist eine Operation, bei der der Konsolidierungspfad oder sogar der ganze Data Cube ausgetauscht wird. Drill across bedeutet also, dass andere Datensätze abgefragt werden, beispielsweise die Verkäufe anstelle der Umsätze

Slice: Das Slicing ist eine Operation, die logisch einer Filterung der Datensätze entspricht. Es wird anschaulich also eine Scheibe aus dem Würfel geschnitten, indem eine (oder mehrere) Dimensionen auf bestimmte Werte gefiltert wird

Dice: Das Dicing ist eine Operation, die einer Filterung der Datensätze hinsichtlich aller Dimensionen entspricht. Es wird also ein „Mini Würfel“ aus dem großen Würfel extrahiert, indem alle Dimensionen auf bestimmte Werte gefiltert werden

36
Q

Wie können die zu einem festgelegten Konsolidierungspfad zugehörigen Datensätze eines Data CUbes im Star Schema abgefragt werden?

A

Mit SQL Befehlen

37
Q

Wie erfolgt ein Roll Up bzw. Drill Down in SQL?

A

Die Auswahl des Konsolidierungspfads die dem Roll up bzw Drill down entspricht, kann durch die Modifikation des GROUP BY Befehls erreicht werden.

38
Q

Wie erfolgt Slicing/Dicing in SQL?

A

Die Filterung nach Dimensionswerten die dem Slicing bzw Dicing entspricht, kann durch geeignete WHERE Befehle realisiert werden.

Beispielsweise kann eine Filterung nach dem Land Deutschland vorgenommen werden, indem der Zusatz WHERE L country =’Germany’ in die Abfrage eingefügt wird

39
Q

Wie erfolgt die Filterung nach Faktenwerten?

A

Die Filterung nach Faktenwerten ist ebenfalls möglich und wird durch den HAVING Befehl realisiert Beispielsweise kann mit dem Zusatz.

HAVING SUM(F revenue) > 100000 auf diejenigen Einträge gefiltert werden, wo der Betrag des Umsatzes größer als 100 000 ist.

40
Q

Wie erfolgt die Sortierung?

A

Order by Befehle

41
Q

Was kann nun durchgeführt werden mit dem Data Warehouse?

A

Mit der Erläuterung der OLAP Operationen und deren Umsetzung in SQL wurde der letzte Schritt vollzogen, der für die Vorbereitung von betrieblichen Datenanalysen vonnöten ist Daher werden sich die folgenden Kapitel nun mit dem Data Mining beschäftigen, also mit dem Analyseprozess, der darauf
abzielt, Beziehungsmuster wie Regelmäßigkeiten und Auffälligkeiten in den Daten zu ermitteln.