Data Warehousing Flashcards
Was ist Business Intelligence?
Unter BI wird ein integrierter, unternehmensspezifischer, IT basierter Ansatz zur betrieblichen Entscheidungsfindung verstanden.
Womit befasst sich die BI`?
Mit der analytischen Auswertung von Daten.
Was ist Online Transactional Processing OLTP?
Ausführung einzelner, kurzer Lese- oder Schreibtransaktionen auf einzelnen Datensätzen eines operativen Systems.
Relevant für Sachbearbeiter auf operativer Unternehmensebene.
Ziel: (operatives) Datenmanagement
Was ist Online Analytical Processing (OLAP)?
Interaktive Datenanalyse durch komplexe adhoc-Abfragen auf integrierten Datenbeständen aus heterogenen Quellen.
Relevant für strategische Unternehmensführung (Management, Controlling, etc.)
Ziel: (strategische) Datenanalyse
Was benötigt man da OLTP Systeme sich nicht für die Zwecke von OLAP Aufgaben nutzen lassen durch Datenbestand und unterstützter Operationen?
Ein Data Warehouse System
Was ist ein Data Warehouse?
Ein System zur Speicherung, Verwaltung, und Abfrage eines integrierten Datenbestands für OLAP Zwecke.
Was sind die wesentlichen Eigenschaften eines Data Warehouses nach Inmon (1993)?
Fachorientierung (subject oriented): Die Aufgabe des Systems besteht in der deskriptiven Modellierung betrieblicher Sachverhalte, nicht in der Erfüllung operativer Aufgaben
Integrierte Datenbasis (integrated): Die Datenverarbeitung findet auf einer aus mehreren (oft heterogen) Datenquellen integrierten Datenbasis statt
Nicht flüchtige Datenbasis (non volatile): Die Datenbasis ist stabil d h einmal eingefügte Datensätze unterliegen keinen weiteren Änderungen
Historische Daten (time variant): Die Daten müssen über einen langen Zeitraum (mehrere Jahre) verwahrt werden, um Vergleiche über die Zeit zu ermöglichen
Was ist ein DW nach Bauer/Günzel (2013)?
Eine physische DB die eine integrierte Sicht auf beliebige Daten zu Analysezwecken ermöglicht.
Im Gegensatz zu Inmon keine Forderung nach Historisierung, aber Betonung auf Notwendigkeit eines integrierten Datenbestands.
Welche Eigenschaften von DWs können aus beiden Definitionen abgeleitet werden?
Anfragen: Anfragen erfolgen als komplexe Lesetransaktionen, die bei Analysebedarf ad hoc stattfinden und große Datenmengen betreffen
Daten: Im Gegensatz zu operativen Systemen stammt die Datenbasis aus mehreren Quellen und ist integriert, stabil und oft aggregiert
AnwenderInnen: Zum Anwenderkreis eines Data Warehouse Systems gehören Personen aus der strategischen Unternehmensführung
Welche Kategorien betrieblicher Einsatzgebiete gibt es für DW Systeme?
Informationsorientiert
Analyseorientiert
Planungsorientiert
Kampagnenorientiert
Was ist Informationsorientiert?
Beginnend vom klassischen Berichtswesen bis hin zu komplexen
Analysen und Simulationen können Data Warehouse Systeme als zentrale Informationsbasis eingesetzt werden, um einen integrierten Datenbestand zu verwalten und Abfragen darauf auszuführen
Was ist Analyseorientiert?
Insbesondere analyseorientierte Informationssysteme profitieren von der
Existenz eines zugehörigen Data Warehouse Systems Beispielsweise lassen sich Erlös- Marketing- oder Vertriebscontrolling auf diese Weise unterstützen, um den Erfolg der Allokation von Ressourcen in bestimmte betriebliche Prozesse bemessen zu können.
Zugleich fallen auch Kennzahlensysteme zur Messung der betrieblichen Leistung (z B in Form des Return on Investment) oder Kostenrechnungssysteme zur Kostenstellenrechnung und Auftragskalkulation in diese Kategorie
Was ist Planungsorientiert?
Obwohl Data Warehouse Systeme nur (historisierte) Daten der betrieblichen Gegenwart und Vergangenheit speichern, haben sie dennoch einen unmittelbaren Nutzen für die unternehmerische Planung.
Zum einen können mit den Daten aus Data Warehouse Systemen vergangene Planungen, die zwischenzeitlich realisiert worden sind, evaluiert werden, zum anderen können Daten aus der Vergangenheit als Trainingsdaten für
zukunftsorientierte Prognosen dienen und somit die Planung zukünftiger Entscheidungen erleichtern.
Was ist Kampagnenorientiert?
Unternehmerische Kampagnen, etwa in den Bereichen Marketing,
Human Resource Management oder Customer Relationship Management erfordern häufig ein Zusammenspiel der zuvor genannten Kategorien, um anhand einer breiten Datengrundlage seriöse Prognosen für den Erfolg einer solchen Kampagne treffen und auf Basis dessen die Entscheidung für oder gegen eine Kampagne und ggf die Planung der entsprechenden
Kampagne zu erleichtern.
Dafür ist im ersten Schritt Planungsorientierung, während der Umsetzung Informationsorientierung und zur abschließenden Evaluation Analyseorientierung vonnöten
Was ist notwendig für alle vier Einsatzgebiete?
EIne einheitliche, logische und integrierte Sicht auf alle Daten des Unternehmens.
Um diese ermöglichen zu können, ist ein Datenmodell erforderlich, welches von den operativen Feinheiten, die durch spezifische Modelle wie dem E/R Modell erfasst werden, abstrahiert und aggregierte, gesamtbetriebliche Datenbestände modellieren kann.
Ein solches Modell ist das multidimensionale Datenmodell.
Wofür benötigt man das multidimensionale Datenmodell?
Im Gegensatz zu Daten aus operativen Systemen, die in der Regel einen klar begrenzten Anwendungszweck aufweisen und sich daher gut in bestimmte Entitätstypen mit klar vordefinierten Attributen und Beziehungen untergliedern lassen, können Data Warehouse Systeme zahlreiche Kenngrößen erfassen und speichern, deren Werte sich entlang mehrerer Dimensionen eingliedern
lassen.
So wäre beispielsweise denkbar, dass in einem Data Warehouse die Verkäufe, Umsätze und Gewinne verschiedener Produkte an verschiedenen Orten über verschiedene Zeitpunkte hinweg erfasst und gespeichert sind.
Was organisiert das md. Datenmodell?
Die Datenbasis eines DW mithilfe von Dimensionen, Fakten und Hierarchisierungen.
Was sind Fakten?
Fakten sind numerische Werte, die betriebswirtschaftliche Kennzahlen darstellen Diese Werte spiegeln die Performance eines (oder mehrerer) Arbeitssysteme wieder und stehen daher im Mittelpunkt der Datenauswertungen.
Beispielsweise handelt es sich bei Fakten um Kenngrößen wie Umsätze, Gewinne, Einstellungen oder Kündigungen von Mitarbeitenden, Anzahlen von
Bestellungen oder Verkäufen etc.
Was sind Dimensionen?
Dimensionen sind deskriptive Werte, die die Fakten beschreiben oder kategorisieren Sie dienen dazu, die einzelnen Faktenwerte einzuordnen, um eine differenzierte Auswertung der Fakten vornehmen zu können.
Typische Dimensionen sind räumlicher, zeitlicher oder struktureller Natur,
geben also Ort, Zeit und Division Abteilung des Geschehens wieder, welches zu den gelisteten Fakten geführt hat.
Darüber hinaus ist aber auch eine anwendungsfallbezogene Kategorisierung
etwa nach Lieferant, Kundensegment oder Mitarbeitenden möglich
Was sind Hierarchisierungen?
Hierarchisierungen spiegeln Aggregationsebenen innerhalb der Dimensionen wieder.
Die Hierarchien sind also vertikale Beziehungen innerhalb einer Dimension, die die Darstellung der Fakten in verschiedenen Verdichtungsstufen ermöglichen.
Beispielsweise könnte die zeitliche Dimension nach Tag, Monat oder Jahr und die räumliche Dimension nach Filiale, Ort und Land unterteilt sein.
Folglich ließen sich dann auch Kenngrößen wie z B Umsätze in ebendiesen
Aggregationsstufen angeben
Was ergibt sich beim Vorhandensein von n Dimensionen?
Ein n-dimensionaler Würfel dessen Kanten durch die Werte der Dimensionen und dessen Inhalt durch die Werte der Fakten gebildet werden -> Data Cube
Was können Dimensionen beinhalten?
Dimensionen können Klassifikationshierarchien beinhalten, die unterschiedliche Aggregierungsstufen (also Verdichtungsstufen) der Fakten ermöglichen. Diese Hierarchien können je nach Semantik der enthaltenen Begriffe einfach oder parallel verlaufen.
Zeit: Die einfache Hierarchiefolge Tag, Monat, Quartal, Jahr verläuft parallel zur einfachen Hierarchiefolge Tag, Woche
Geographie: Hier kann die einfache Hierarchiefolge Filiale Stadt Region Land angegeben werden
Produkt: Hier findet sich die einfache Hierarchiefolge Artikel, Produktgruppe, Produktfamilie, Produktkategorie
Kundensegment: Hier finden sich aufbauend auf die Stufe Kunde die drei parallelen Hierarchiestufen Altersgruppe, Geschlecht und Familienstand
Worin besteht der Unterschied zwischen einfachen und parallelen Hierarchien?
Ob die einzelnen Stufen aufeinander aufbauen oder unabhängig voneinander sind In letzterem Fall liegt dementsprechend keine hierarchische Beziehung zwischen den einzelnen Aggregierungsstufen vor
Was hat es mit Data Cubes auf sich?
Kanten ergeben sich aus der Anzahl an Elementen einer Dimension. Diese hängt wiederum, von der gewählten Aggregationsstufe ab (z.B. Tage > Monate)
Inhalt sind numerische Kennzahlen.
Data CUbe ist eigentlich kein Würfel sondern eine n-dimensionale Matrix