Kontrollfragen Flashcards
Erläutern Sie den Entwicklungspfad entscheidungsunterstützender Systeme.
Management Information Systems (MIS 1960)
-> System dient der Bereitstellung von Daten aller Geschäftsaktivitäten
Daten nicht ausreichend gefiltert und verdichtet, dadurch entsteht eine Informationsflut.
Decision Support Systems (DSS 70er)
-> System dient der Unterstützung der Entscheidungsvorbereitung
Verwendung von u.a. Datenbank (Speichern der Daten), Modelbank (Abbildern und Erklären eines Realitätsausschnitts) u. Methodenbank (zum Aufbereiten und Auswerten der Daten).
Executive Information Systems (EIS 80er)
-> Ziel ist die Entscheidungsunterstützung für oberes Management
hohe Präsentationsorientierung (grafische Benutzerumgebung)
Aufbau vordefinierter Berichtskataloge
(DW 92/ OLAP 93) DW (Data Warehouse Konzept Inmon): Daten sollen redundant gehalten werden und zu Analysezwecken eingesetzt werden
OLAP: dynamische, multidimensionale Analyse
(SAP R/3) Bereitstellung von entscheidungsrelevanten Informationen
Data Mining - Methoden
Internet / Intranet / Extranet
Was versteht man unter einem BI-System? Geben Sie eine Definition an.
Business Intelligence beschreibt die effiziente Nutzung von Daten in einem Unternehmen, um daraus nützliche Informationen zu gewinnen und Wissen zu generieren. Mit den Daten können Analysen und Abfragen durchgeführt werden. Das daraus gewonnene Wissen dient der Managementunterstützung.
Geben Sie die zentralen Charakteristika eines DW-Systems nach W. H. Inmon an. Erläutern Sie diese anhand eines Beispiels.
Fachorientierung
Zentralisierte Bereitstellung der Daten über Geschäftsobjekte (Themen)
Integration
Zusammenführung von mehreren Datenquellen (intern u extern) in eine physische Datenbank. Vorher unterschiedliche Betrachtung eines Produkts führt im DW zu neuer Betrachtungsweise.
Dauerhafte Sammlung
Sicherheit, dass auch alte Datenbestände unverändert bleiben und nicht gelöscht werden. Bspw. historische Daten.
Zeitraumbezug
alte Daten sollen erhalten bleiben, um Zeitraumvergleiche herstellen zu können.
Bsp. Anzahl an Kundendaten heute vs. Vor 10 Jahren oder vgl. von Umsätzen.
Verdeutlichen Sie den Zusammenhang zwischen BI- und DW-Systemen.
Business Intelligence bezeichnet die systematische Auswertung von Daten eines Unternehmens, um damit Geschäftsprozesse zu analysieren und zu optimieren, mit dem Ziel aus vergleichbaren Kennzahlen neue Erkenntnisse zu gewinnen.
BI benötigt dafür eine Data-Warehouse-Architektur, welche Daten aus einem Unternehmen zusammenführt und speichert, um daraus Auswertungen durchführen zu können.
Welchen technischen bzw. betriebswirtschaftlichen Nutzen sehen Sie beim Einsatz eines DW-Systems?
Technischer Nutzen: -Verbessere Datenintegration - Keine dezentrale Datenprüfung mehr notwendig -Schnelle Abfragen möglich -Entlastung operativer Anwendungen -Flexible Zugriffsmöglichkeiten Betriebswirtschaftlicher Nutzen -Verbesserte Informationsbereitstellung -Frühzeitliches Erkennen von Trends -Zügige Reaktion auf Umweltveränderungen -Verbesserung der Kundenzufriedenheit -Harmonisierung von Begriffen
Was versteht man unter Data Warehousing?
DW ist ein Konzept, das Daten aus mehreren Quellen in einem System (zentrales Datenbanksystem) so zusammenführt und speichert, dass eine Auswertung der Daten möglich ist und letztlich der Managementunterstützung dient.
Aus welchen Stufen besteht die vierstufige DW-Grundarchitektur? Erläutern Sie deren einzelnen Komponenten und die zugehörigen Transformationsschritte.
Zu der Grundarchitektur gehört die Staging Area. Hier kommen die Daten aus den unterschiedlichen Datenquellen zusammen. Die Daten werden nicht weiterverarbeitet, sondern in Form von Staging-Tabellen gespeichert, die untereinander in keiner Beziehung stehen.
-> Laderampe in einem Supermarkt, Waren werden abgeliefert.
Transformationsschritt: Quellsystem -> Staging Area Es wird über ein View Layer auf das Quellsystem zugegriffen.
Die nächste Stufe ist die Cleansing Area. Daten, die davor fehlerhaft waren, werden nun korrigiert bzw. ausgefiltert. Da die Daten aus unterschiedlichen Quellsystemen kamen, müssen diese jetzt in eine vereinheitlichte Form transformiert und integriert werden.
-> Kommissionierung der Waren, Produkte werden ausgepackt, zusammengefasst und ggf. gewaschen.
Transformationsschritt: Beim Laden der Daten von der Staging Area zur -> Cleansing Area kommt es neben der Prüfung und Bereinigung der Daten auch zu Erweiterungen von Attributen.
Als nächstes folgt der Core-Bereich
Im Core werden die Daten zusammengeführt und über einen längeren Zeitraum gespeichert. Des Weiteren werden Daten im Core integriert und themenspezifisch strukturiert.
-> Hochregallager, Mitarbeiter haben jederzeit Zugriff, jedoch nicht die Kunden. Unterschied: Daten bleiben nach Übertragung an Marts im Core erhalten.
Transformationsschritt: Cleansing Area -> Core
Es findet eine Versionierung der Stammdaten statt: Datensätze werden auf Aktualität geprüft, da es je nach Anforderung und Core-Datenmodell verschiedene Varianten der Versionierung von Stammdaten gibt.
Die letzte Stufe bildet Data Marts ab. Daten aus dem Core werden so aufbereitet und gespeichert, dass daraus sinnvolle Benutzerabfragen erfolgen können. Jeder Mart sollte Daten für die jeweilige Anwendung bereitstellen.
Daraus ergibt sich, dass mehrere Marts für unterschiedliche Benutzergruppen bestimmt werden.
-> Marktstände oder Verkaufsgestelle im Supermarkt. Es steht eine Auswahl an unterschiedlichen Produkten bereit, wie Gemüse, Fleisch oder Käse.
Transformationsschritt: Core -> Marts
Vom Core zu den Marts werden die Daten gefiltert in die erforderliche Teilmenge, Daten werden aggregiert (Umsätze für unterschiedliche Zeiträume bzw. Produkte) somit sind schnellere Auswertungen Möglich.
Geben Sie an, was man unter einer Referenzarchitektur versteht und erläutern Sie deren Ziele.
Die Referenzarchitektur ist ein Referenzmodell für eine Klasse von Architekturen, welche angibt was seine Komponenten leisten und wie diese im Zusammenhang stehen.
Ziele
Unterstützung des Vergleichs von u.a. Werkzeugen für das Data Warehousing
Planungserleichterung für konkrete DWS-Implementierung
Visualisierung und Homogenisierung von Begriffen aus dem DWH-Kontext
Aus welchen zentralen Komponenten besteht die DWH-Referenzarchitektur? Erläutern Sie diese näher.
Datenquelle
Nicht Teil des DWH
Daten stammen aus dem Unternehmen selbst (ERP) oder extern (Internet, Marktforschungsinstitute)
Qualitätsanforderungen u.a. Konsistenz, Vollständigkeit, Granularität („Grad der Feinkörnigkeit“)
Monitor
Hat die Aufgabe Veränderungen in einer Datenquelle zu erkennen
Es existiert im Allgemeinen ein Monitor je Datenquelle
Es existieren verschiedene Monitoring-Strategien
Arbeitsbereich
Ist die zentrale Datenhaltungskomponente des Integrationsbereichs ->“Staging area“
Transformationen werden direkt im Zwischenspeicher ausgeführt
Quellen und Basisdatenbank werden nicht beeinflusst
keine Übernahme fehlerbehafteter Daten in die Basisdatenbank
Basisdatenbank
-> entspricht Core Data Warehouse
Integrierte Datenbasis für verschiedene Analysen
zentrale Verteilungsfunktion, wodurch Mehrfachverwendung und Flexibilität in der Verwendung der Daten ermöglicht wird
Versorgung des DWH (bzw. mehrerer DWHs) mit qualitätsgesicherten Daten
Ableitungsdatenbank
Enthält alle, für die Auswertung nötige Daten in Verbindung mit dem Repositorium Strukturierung orientiert sich (ausschließlich) an den Auswertungszwecken – im Gegensatz zur Basisdatenbank
Auswertungsdatenbank -> Data Mart
Stellt inhaltlich eingeschränkten Fokus auf das Unternehmen bereit, somit Teilsicht eines DWH
Verteilung der Daten der Ableitungsdatenbank
Es gibt abhängige und unabhängige Data Marts
Data Warehouse Manager
Initiiert den Datenbeschaffungsprozess
(in regelmäßigen Zeitintervallen), überwacht
weitere Schritte wie Bereinigung und koordiniert
Verarbeitungsreihenfolge.
Im Fehlerfall dokumentiert DWH Manager diese
und stellt Wiederanlaufmechanismen zur Verfügung.
Metadaten Manager
Steuerung der Metadatenverwaltung
Zugriff, Anfrage und Navigation
Versions und Konfigurationsverwaltung
Im Metadaten Repository (Repositorium) erfolgt
Speicherung der Metadaten des DWS
Geben Sie verschiedene Monitoring Strategien an und erläutern Sie diese.
- Trigger-basiert
Unterstützt das DBS Trigger, so wird ein Trigger nach jeder Datenmanipulation ausgelöst. Das geänderte Tupel wird in eine Datei oder andere Datenstruktur geschrieben. - Replikationsbasiert
Replikationsdienste können so spezifiziert werden, dass sie geänderte Tupel in speziellen Tabellen schreiben. - Log-basiert
DBMS kann so (aus)genutzt werden, dass vorgenommene Transaktionen in einer Log-Datei protokolliert werden. Durch die Auswertung kann ermittelt werden, welche Daten sich geändert haben. - Zeitstempel-basiert
Jedem Datensatz ist ein Zeitstempel zugeordnet, der sich bei Änderung der Daten auch ändert. So erkennt man welche Datensätze sich nach dem Zeitpunkt der letzten Extraktion geändert haben. - Snapshot-basiert
Datenbestand einer Quelle wird in periodischen Abständen in eine Datei (Snapshot) geschrieben. Durch einen Vergleich von Snapshots können Änderungen identifiziert werden.
Geben Sie Verfahren zum Data Cleansing an und erläutern Sie diese jeweils an einem Anwendungsbeispiel.
Integration -> Daten werden für das Laden inhaltlich und strukturell angepasst
Homogenisierung -> Alle Daten werden in ein einheitliches internes Format überführt bspw. Anpassung von Datentypen, Konvertierung von Kodierungen, Umrechnung von Maßeinheiten
Bereinigung der Daten
Was versteht man unter einem Data Mart? Grenzen Sie es zum DWH ab.
Welche Formen von Data Marts existieren?
Data Mart
Ist eine vereinfachte Form eines DWH. Marts werden für einen bestimmten Organisationsbereich oder eine bestimmte Anwendung erstellt. Mehrere Marts werden für unterschiedliche Benutzergruppen definiert, dadurch wird die Komplexität der Abfragen reduziert.
Formen
- Abhängige Data Marts
Um auf Basis eines Data Warehouse einen Data Mart zu erstellen, wird ein bestimmter Datensatz vom Warehouse aggregiert (zu einem Cluster geformt), neu strukturiert und anschließend in den Data Mart geladen, von wo aus er abgerufen werden kann. - Unabhängige Data Marts
Ein unabhängiger Data Mart ist ein alleinstehendes – ohne ein Data Warehouse erstelltes – System, das auf einen Themenbereich oder eine Geschäftsfunktion fokussiert ist. Die Daten werden aus internen oder externen Datenquellen (oder beidem) extrahiert, verarbeitet und dann ins Data Mart Repository geladen. Dort bleiben sie gespeichert, bis sie für Geschäftsanalysen benötigt werden.
DWH
Ein Data Warehouse ist eine themenorientierte, historische und autonome Datenbank eines Unternehmens, in der Daten aus verschiedenen unabhängigen Quellsystemen integriert und verwaltet werden. Die Daten werden von den Datenquellen bereitgestellt und geladen und dort vor allem für die Datenanalyse und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen sowie zum Data Mining langfristig gespeichert.
Erläutern Sie den ETL-Prozess beim Data Warehousing.
ETL beschreibt einen Prozess aus mehreren Einzelschritten, mit dem sich Daten aus verschiedenen Quellen in eine Datenbank oder ein Data Warehouse integrieren lassen. Ziel ist es, die integrierten Daten für die weitere Verarbeitung vorzubereiten und bereitzustellen.
Beschreiben Sie die einzelnen Aufgaben der Transformation.
Transformation
Daten werden für das Laden vorbereitet und angepasst -> Integration
inhaltlich: Daten- / Instanzintegration
strukturell: Schemaintegration
Alle Daten werden in ein einheitliches internes Format überführt -> Homogenisierung / Harmonisierung
Anpassung von Datentypen
Konvertierung von Kodierungen
Vereinheitlichung von Zeichenketten
Weitere Aufgabe ist die Datenbereinigung (Data Cleansing) von u.a. fehlerhafte / fehlende Werte
Aggregation
Welche Standardberichtsformen kennen Sie? Geben Sie Beispiele an.
Planungsberichte (als Grundlage und Ergebnis der strategischen und operativen Planung)
Abweichungsberichte (z.B. Monats- und Quartalsberichte)
Statusberichte (z.B. Geschäftsberichte)
Welche SAP BW-Werkzeuge unter SAP BW on HANA kennen Sie?
Information Access -> Advanced for Office, Design Studio, Lumira, Crystal Reports, Predeictive
Data Warehouse -> HANA Studio BW Modelling tools, Data Warehouse Workbench
Source Systems
Skizzieren Sie die SAP-Schichtenarchitektur LSA und LSA++ eines Data
Warehouses und erläutern Sie diese. Vergleichen Sie beide Architekturen.
Data-Acquistion-Schicht
Zuständig für die Datenbeschaffung (aus Quellsystem), Rohdaten liegen vor
Quality-&-Harmonization-Schicht
Zuständig für Datenbereinigung und um Daten auf einen Nenner zu bringen (Umwandeln von externen Datumsformaten)
Data-Propagation-Schicht
Daten werden für das Reporting vorbereitet. Bewegungsdaten und Stammdaten werden zusammengelegt und dienen als Datengrundlage.
Corporate-Memory-Schicht
Langfristige Speicherung der Daten aus der Data-Acquistion-Schicht
Business-Transformation-Schicht
Bezieht sich auf die der Daten der Data-Propagation-Schicht, mit dem Unterschied, dass nur anwendungsabhängige Daten übernommen werden.
Reporting-Schicht
Wird genutzt, um performantes Reporting zu ermöglichen. Diese Schicht kann noch aufgeteilt werden, z.B. für granulare oder aggregierte Daten.
Virtualization-Schicht
Dient als Grundlage zur Definition von MultiProvider oder InfoSets.
Vorteil: Hohe Flexibilität durch anhängen mehrerer InfoProvider (Aufteilung zu großer InfoCubes)
Operational-Data-Store-Schicht
Diese Schicht soll es mithilfe des BW-Systems ermöglichen, Auswertungen auf Basis von Quelldaten auszuführen.
EDW Transformation Layer
Daten werden einheitlich auf semantische und syntaktische Konventionen transformiert
BW Virtual Data Mart Layer
Die dazu physische Abbildung der Daten von der logischen Sichr durch das Reporting zu entkoppeln (wie LSA). Zentrale Objekt ist nur der CompositeProvider
Unterschiede zur LSA:
Queries auf DataStore-Objekten sind genauso schnell wie auf InfoCubes, Queries können so direkt auf der Data-Propagation-Schicht aufsetzen. (Ersetzt Reporting Layer)
Mithilfe von CompositeProvidern, die InfoProvider zusammenführen, können virtuelle Data Marts definiert werden.
Über spezielle VirtualProvider und TransientProvider ist der direkte Zugriff auf Daten in der SAP-HANA-Datenbank möglich
Geben Sie an, was man unter den folgenden SAP BW Objekten versteht:
InfoObject
Sind betriebswirtschaftliche Auswertungsobjekte. Sie untergliedern sich in Merkmale/ Characteristics (z.B. Kunde), Kennzahlen/Key Figures (z.B. Umsatz), Einheiten (z.B. Währung, Mengeneinheit), Zeitmerkmale (z.B. Geschäftsjahr) und technische Merkmale (z.B. Requestnummer).
DataSource
Eine DataSource ist eine interne Repräsentation von externen Quellen von Daten für spezifische Quellsysteme.
InfoProvider
Oberbegriff für BI-Objekte, in die Daten geladen werden oder die Sichten auf Daten darstellen. Diese Daten können in der Regel mit BI Queries ausgewertet werden.
aDSO
Zentraler InfoProvider der Modellierung (für SAP BW/4HANA)
Besitzen die Fähigkeit, ihre Funktion ohne Verlust der abgelegten Daten zu ändern. Dies schließt auch eine Änderung der Inhalte von Tabellen mit ein, wenn der Typ verändert wird.
CompositeProvider
Ein CompositeProvider ist ein InfoProvider, der Daten aus mehreren analytischen Indizes oder weiteren InfoProvidern zusammenführt (per Union oder Inner Join oder Left Outer Join) und für Reporting und Analyse zur Verfügung stellt.
InfoCube
Typ eines InfoProviders. Ein InfoCube beschreibt einen (aus Sicht der Analyse) in sich geschlossenen Datenbestand z.B. eines betriebswirtschaftlichen Bereichs.
Persistent Staging Area (PSA)
ist die Eingangsablage im BI für Daten aus den Quellsystemen. Die angeforderten Daten werden unverändert zum Quellsystem gespeichert.
InfoArea / Anwendungskomponente
InfoAreas in den BW-Modellierungswerkzeugen dienen der Gliederung von Objekten des SAP BW Metadata Repository, d.h von InfoProvidern, InfoObjects, InfoSources und Open Hub Destinationen
Erläutern Sie, was man unter einer Kennzahl versteht. Welche Arten von
Kennzahltypen kennen Sie? Geben Sie jeweils ein Anwendungsbeispiel an.
Kennzahlen sind verdichtete numerische Messgrößen, die sich auf die wichtigen Tatbestände im Unternehmen beziehen und diese in konzentrierter Form darstellen. Sie informieren problemorientiert über betriebswirtschaftliche Sachverhalte und erfüllen so wichtige Aufgaben in allen Phasen des unternehmerischen Entscheidungsprozesses
Arten und Anwendungsbeispiel:
Vollständig additive Fakten
Berechnung zwischen allen Konsolidierungsebenen der Dimension möglich
Können z.B. über den Zeitverlauf und über verschiedene Regionen hinweg addiert werden
🡪 Einkaufswert, Bestellmenge eines Artikels pro Tag
Semi-additive Fakten
(additive) Berechnung nur für ausgewählte Menge von Hierarchieebenen
Bestandsgrößen sind meistens über alle Dimensionen außer der Zeit additiv aggregierbar
🡪 Lagerbestand, Kontostand, Einwohnerzahl pro Stadt
Nicht-additive Fakten
additive Berechnung nach keiner denkbaren Dimension sinnvoll möglich
Im Allgemeinen Durchschnitts- oder prozentuale Werte
🡪 Wechselkurs, Steuersatz
Geben Sie die möglichen Ausprägungen von absoluten Kennzahlen an.
Wie untergliedern sich Verhältniszahlen?
Absolute Kennzahlen
Darstellung unabhängig von anderen Zahlengrößen
Einzelzahlen (z.B. Umsatz)
Differenzen (z.B. Arbeitskapital: Umlaufvermögen minus Fremdkapital)
Summen (z.B. Bilanzsumme)
Verhältniszahlen
Gliederungszahlen (Quoten)
Teilgröße wird zu einer Gesamtgröße in Beziehung gesetzt
vergleichen Größen, die wesensgleich, aber nicht gleichrangig sind
Bsp. Anteil eines Produktumsatzes am Gesamtumsatz
Beziehungszahlen
Verhältnis zwischen gleichrangigen, aber inhaltlich nicht gleichartigen Fakten, d.h. zwei verschiedenartige Kenngrößen werden zueinander in Beziehung gesetzt
Bsp. Umsatz je Mitarbeiter, Umsatz pro Quadratmeter Verkaufsfläche
einfache Messzahlen
zwei gleichartige Größen werden in Beziehung gesetzt
Bsp. Entwicklung des Unternehmensgewinns
Indexzahlen
messen Verlauf mehrerer sachlich zusammengehöriger Reihen (Bündel von Merkmalen wird betrachtet)
Bsp. Preisindex der Lebenshaltung, Aktienindex (DAX, EURO STOXX 50, …)
Was leisten Kennzahlen? Welchen Herausforderungen sehen Sie sich bei
der Anwendung von Kennzahlen gegenüber?
Betriebswirtschaftliche Kennzahlen wie Umsatz, Gewinn oder Deckungsbeitrag sind wichtige Faktoren bei der Daten-Analyse im Entscheidungsprozess. Zudem können Erkenntnisse über bisherige Entwicklungen gewonnen werden und Risiken sowie Chancen frühzeitig erkannt werden. (Wachstumskennzahlen, Personalentwicklung…)
Herausforderungen:
Zweckeignung: Eignung der Information zur Lösung einer gestellten Aufgabe.
Genauigkeit: Übereinstimmung mit der Realität
Aktualität: Zeitnähe für Kontrolle/Gegensteuerung
Kosten-Nutzen-Relation: Verhältnis der Informationsbeschaffungs- und auswertungskosten und des Nutzens aus der Verwertung von Informationen.
Betrachtungsgegenstand: Häufig werden nur monetäre Aspekte beachtet, sowie Vermeidung von „Silo-Kennzahlensystemen“
Erläutern Sie den Aufbau eines Kennzahlen Steckbriefs bzw. den eines
Kennzahlensystem Steckbriefs.
Der Steckbrief ist in 5 Hauptelemente gegliedert
Beschreibung der Kennzahl -> Hier werden Toleranzwerte, der Adressat, Soll- und Zielwerte und Eskalationsregeln festgelegt.
Bemerkung -> Auflistung der Bemerkungen
Datenermittlung -> Datenquelle sowie die Qualität der Daten (Abweichungen/Validität) und der Verantwortliche wird hier festgehalten
Datenaufbereitung -> Berechnungsweg, Verknüpfungen (mit anderen Kennzahlen), Verantwortlicher
Präsentation -> Darstellung, Aggregationsstufen, Archivierung, Verantwortlicher.
Was versteht man unter einer Dimension im Zusammenhang mit dem
multidimensionalen Datenmodell? Geben Sie ein Beispiel für eine einfache
und eine parallele Hierarchie an.
Dimensionen
Beschreiben mögliche Sicht auf assoziierte Kennzahl
Endliche Menge von n (n >= 2) Dimensionselementen (Hierarchieobjekten), die eine semantische Beziehung aufweisen
Dienen der orthogonalen Strukturierung des Datenraums
Bsp. Kunde, Material, Vertriebsbereich, Zeit
Einfache Hierarchie
Höhere Hierarchieebene enthält die aggregierten Werte genau einer niedrigeren Hierarchiestufe
Oberster Knoten enthält Verdichtung auf einen einzelnen Wert der Dimension
🡪 Filiale -> Ort -> Region -> Bundesland
Parallele Hierarchie
Innerhalb einer Dimension sind verschiedene Arten der Gruppierung möglich
Keine hierarchische Beziehung in den parallelen Zweigen
Parallelhierarchie: Pfad im Klassifikationsschema
🡪 Einzelkunden -> Kundengruppe logisch (parallel Kundengruppen regional) -> Kunden total
Erläutern Sie anhand je eines Anwendungsbeispiels die OLAP Operationen.
Pivotierung bzw. Rotation
->Rotieren des Würfels um die eigene Achse, so dass eine andere Kombination von zwei Dimensionen sichtbar wird.
Im Beispiel sieht der Nutzer im Würfel links die Dimensionen „Studienausrichtung“ und „Studienabschnitt“. Recherchierbar sind damit zum Beispiel die Studentenzahlen der jeweiligen Fächer im Grund- und Hauptstudium.
Eine neue Sicht erhält der User durch Drehen des Ausgangswürfels nach links um die Achse „Studienausrichtung“. Nun kommen die Dimensionen „Studienausrichtung“ und „Zeit“ in den Vordergrund, womit die Studentenzahlen der Studienrichtungen in den einzelnen Semestern sichtbar werden.
Drill-Across
->Wechsel von einem Würfel zu einem anderen Würfel
Drill-Down
->Navigation von aggregierten Daten zu Detail-Daten entlang der Klassifikationshierarchie
Bsp. Die Umsätze eines Unternehmens sind in einem Data-Warehouse mit Angaben zu Zeitraum, Produktsparte und Filiale gespeichert und können nach jeder dieser Dimensionen zusammengefasst und ausgewertet werden.
Roll-Up
->Die inverse Operation zum „Drill Down“ ist das „Roll Up“. Beim „Roll-Up“ werden alle Einzelwerte zu einem weiter oben liegenden Hierarchieattribut verdichtet. Dadurch verringert sich der Detaillierungsgrad.
Bsp. Tag -> Monat -> Quartal -> Jahr
Data Slicing
->Herausschneiden von „Scheiben“ aus einem Würfel
Verringerung der Dimensionalität Bsp. alle Werte des aktuellen Geschäftsjahres werden betrachtet.
Data Dicing
->Herausschneiden eines „Teilwürfels“
Bsp. Statt sich die Umsätze für 5 Produkte oder Produktkategorien anzusehen, wird der Fokus auf weniger Produkte bzw. Produktkategorien gelegt.
Wie lauten die 12 OLAP Regeln nach Codd?
- Multidimensionale konzeptionelle Sichtweise auf die Daten:
- Transparenz: Analysen können auch ohne Kenntnisse der Datenstruktur durchgeführt werden
- Zugriffsmöglichkeit: dem Entscheider muss es möglich sein, seine Analysen auf Basis interner und externer Datenquellen durchzuführen
- Gleichbleibende Antwortzeit bei der Berichtserstellung: unabhängig davon, welche Daten bei der Analyse verwendet werden, muss die Antwortzeit konstant sein.
- Client-Server Architektur:Trennung der Speicherung, Verarbeitung und Darstellung
- Generische Dimensionalität (veraltet!!!)
- Dynamische Behandlung unvollständig besetzter Matrizen:
- Multiuser-Support: mehrere User können gleichzeitig auf dieselben Daten zugreifen und diese verwenden können.
- uneingeschrätnke kreuzdimensionale Operationen
- Intuitive Darstellung und Bearbeitung der Daten: der Anwender muss ohne Kenntnisse des Systems seine Analysen selbständig durchführen können.
- Flexible Berichtserstellung: Anordnung von Zeilen, Spalten usw. sollten frei positionierbar sein
- Unbegrenzte Anzahl von Dimensionen und Klassifikationsebenen
Erläutern Sie, was man unter FASMI im Kontext von OLAP versteht.
FASMI – Fast Analysis of Shared Multidimensional Information
Fast: Abfragen sollen schnell bearbeitet werden. Einfache Abfragen sollen max. 5 Sekunden und komplexere Abfragen bis zu 20 Sekunden Verarbeitungszeit beanspruchen.
Analysis: Ein OLAP-System soll jegliche Logik bewältigen können. Dabei soll die Definition einer komplexeren Analyseabfragen durch den Anwender mit wenig Programmieraufwand zu realisieren sein.
Shared: Ein OLAP-System soll für den Mehrbenutzerbetrieb ausgelegt sein. Dies bedingt eine Verfügbarkeit geeigneter Zugriffsschutzmechanismen.
Multidimensional: Als Hauptkriterium fordern Pendse und Creeth eine mehrdimensionale Strukturierung der Daten mit voller Unterstützung der Dimensionshierarchien.
Information: Bei der Analyse sollen einem Anwender alle benötigten Daten transparent zur Verfügung stehen. Eine Analyse darf nicht durch Beschränkungen des OLAP-Systems beeinflusst werden.
Vergleichen Sie OLTP und OLAP Systeme in Hinblick auf die Daten –, Anfrage und Anwendersicht.
S 17
Wie sind die OLAP Funktionalitäten im SAP BW realisiert?
Navigation Aufreißen nach Merkmal (Dice) Hierarchieknoten aufklappen (Drill Down) und zuklappen (Drill Up) Aufrisselemente austauschen (Swap) Filtern Merkmale auf Selektionen einschränken (Slice) Aggregation Standardaggregation Ausnahmeaggregation Lokale Aggregation Darstellung Darstellung Merkmale als Schlüssel Resultatszeilen anzeigen/unterdrücken Position von Hierarchieknoten ändern Selektion und Darstellung Schwellenwerte (Exception) Bedingungen (Conditions) Strukturierung Hierarchische Zuordnung von Merkmalswerten beim Aufriss mehrerer Elemente Generische und Business Analysefunktionen Sortierung Merkmalen und Kennzahlen Berechnete Kennzahlen und Formeln Währungsumrechnung Binnenumsatzeliminierung Konzepte zur Laufzeitoptimierung Bestände Aggregate OLAP Cache Integrierte Zusatzfunktionen Variablen zur Parametrisierung -> Erhöhung Wiederverwendbarkeit von Queries Berichts-Berichts-Schnittstelle zur Navigation in verschiedenen Berichten Berichtigungskonzept zur Steuerung der Benutzerrechte in Bezug auf Datenzugriff
Charakterisieren Sie die Data Mart Busarchitektur nach Kimball.
Core Data Warehouse soll dimensional modelliert sein
Handelt sich um ein Repository, dass für Auswertungen genutzt werden soll
Einzelne Data Marts dieser Data Mart Busarchitektur werden Subject Areas genannt
Skizzieren Sie die Corporate Information Factory (CIF) nach Inmon und
vergleichen Sie diese Architektur mit dem Ansatz von Kimball.
Inmon:
Erläutern Sie die Notationselemente des ME/R Modells. Weshalb ist eine
Erweiterung des klassischen ERM sinnvoll?
Faktenbeziehung
Durch eindeutigen Faktennamen identifiziert
Kann beliebig viele Assoziierungen mit Dimensionsebenen aufbauen
Kann beliebig viele Kennzahlen enthalten
Klassifikationsstufe (Dimensionsebene)
Repräsentiert Konsolidierungsebene
Einzelne Dimensionsebenen für gesamte Datenmodell eindeutig
Dimensionsebenen (Knoten) bilden mit „rolls-up to“ -Beziehung (Kanten) einen Graphen
„Rolls-up to“ -Beziehung Klassifikationsebene
Definiert Relation zwischen zwei Dimensionsebenen -> nicht zyklischer Graph lässt sich definieren, kann beliebig viele Pfade besitzen
Skizzieren Sie ein ME/R Modell für einen Anwendungsfall ihrer Wahl.
S.22
Nennen Sie weitere Ansätze zur semantischen Modellierung von DW Systemen. Weshalb hat sich aus ihrer Sicht bisher noch kein „Standard“
ADAPT DFM UML Kein Standard weil: Nicht verständlich Keine einfache grafische Darstellung Zu viele Notationselemente
Geben Sie einen Kriterienkatalog an, mit dem man verschiedene Ansätze zur semantischen Modellierung von DW Systemen vergleichen kann. Vergleichen Sie das ME/R Modell mit den anderen Ihnen aus der Vorlesung bekannten Ansätzen.
S.22
Vergleichen Sie das Star mit dem Snowflake Schema.
Snowflake-Schema
Abbilden von Klassifikationen
Eigene Tabellen für jede Klassifikationsstufe
Tabellen enthalten jeweils
ID für Klassifikationsknoten
Beschreibende Attribute z.B. Hersteller
Fremdschlüssel der übergeordneten Klassifikationsstufe
Faktentabelle enthält
Fremdschlüssel der niedrigsten Klassifikationsstufe
Fremdschlüssel bilden zusammengesetzten Primärschlüssel für Faktentabelle
Star-Schema
Ist normalisiert -> keine Änderungsanomalien
Aber: -> Join über mehrere Tabellen
Star-Schema als alternatives Entwurfsmuster:
Denormalisierung der zu einer Dimension gehörenden Tabellen
Für jede Dimension genau eine Dimensionstabelle
Redundanzen in Dimensionstabellen zur effizienten Anfragebearbeitung
Skizzieren Sie ein logisches Datenmodell Ihrer Wahl gemäß dem Star-Schema.
S.23
Entwerfen Sie ein logisches Datenmodell Ihrer Wahl gemäß dem Snowflake Schema
S. 23
Erläutern Sie, was man unter einem Galaxien und Fact-Constellation Schema versteht.
Galaxy-Schema
Mehrere Faktentabelle
Teilweise mit gleichen Dimensionstabellen verknüpft
Alternative Bezeichnung: Multi-Faktentabellen-Schema
Fact-Constellation-Schema
Basiswerte und Aggregate in einer Faktentabelle
Alternative: Auslagerung in eigene Faktentabelle
Geben Sie Gründe für ein relationales bzw. dimensionales Core
Data Warehouse an.
S. 25
Geben Sie den Aufbau eines Data Vault Modells nach Linstedt an.
Schlüssel, deskriptive Informationen und Beziehungen bei Data Vault werden in drei genannten Typen von Tabellen abgelegt:
Hub
Enthalten keine beschreibenden Informationen oder Fremdschlüssel
Business Keys der jeweiligen Objekte werden gespeichert, Business Keys können aus mehreren Attributen bestehen
Neben Business Key enthalten Hubs folgende Felder:
Surrogate Key: fortlaufende Nummer als Primärschlüssel, falls Business Key nicht als Primärschlüssel verwendet werden kann
Load Date: Zeitstempel, der angibt wann Business Key zum ersten Mal ins Data Warehouse geladen wurde
Record Source: Nachvollziehbarkeit wird hier festgehalten, aus welchem Quellsystem der Eintrag stammt
Link
Wird verwendet Beziehungen zwischen zwei oder mehreren Hubs oder Links darzustellen
Enthält keine beschreibenden Informationen
SIDs der beteiligten Hubs/Links werden übernommen -> Verbindung zwischen Hubs/Links wird hergestellt (M:N Beziehung)
Zusätzlich enthält Link folgende Felder:
Surrogate Key: fortlaufende Nummer als Primärschlüssel, falls Business Key nicht als Primärschlüssel verwendet werden kann
Load Date: Zeitstempel, der angibt wann Business Key zum ersten Mal ins Data Warehouse geladen wurde
Record Source: Nachvollziehbarkeit wird hier festgehalten, aus welchem Quellsystem der Eintrag stammt
Satellit
Deskriptiven Informationen werden gespeichert und historisiert
Gehören genau zu einem Hub oder Link
Hubs und Links können beliebig viele Satelliten haben
Primärschlüssel besteht aus SID des Hubs/Links und einem Zeitstempel mit Angabe wann Daten ins Data Warehouse geladen wurden
Die einzigen Komponenten die ein zeitliches Attribut als Teil des Primärschlüssels verwenden
In einem Satelliten wird das Record Source (Quellsystem) gespeichert
Geben Sie ein selbstgewähltes Beispiel für einen Bitmap Index an. Weshalb eignet sich der Bitmap Index für ein DW System?
Bitmap-Indices können aufgrund der geringen Größe im Hauptspeicher verarbeitet werden (komprimierte Ablage). Daher auch bei geringer Selektivität anwendbar.
Beispiel:
In einen Index einer Personendatenbank werden die Attribute Geschlecht (zwei mögliche Werte, Kardinalität = 2) und Familienstand (Kardinalität = 3) eingetragen. Die Indextabelle könnte so aussehen:
Welche Arten von Partitionierung kennen Sie? Was bewirkt eine Partitionierung
innerhalb eines DW Systems?
Arten Physische Partitionierung Logische Partitionierung Vertikale Partitionierung Horizontale Partitionierung Hash Partitionierung Aufteilung einer umfangreichen Relation (Tabelle) in einzelne kleinere Teilrelationen
Erläutern Sie den Unterschied zwischen vertikaler und horizontaler Partitionierung.
Wie beurteilen Sie deren Eignung für ein DW System?
Vertikal
Einzelne Attribute werden von Mastertabelle getrennt, semantische Einheiten werden zerstört
Schlüsselattribute dürfen nicht in Partitionierung einbezogen werden
Zusammenfassen erfordert Verbundanfragen
Geeignete Technik zur Auslagerung selten benutzter Attribute
Horizontal
Tupelmenge (Datenbanktabelle) wird auf verschiedene, paarweise disjunkte Teiltabellen aufgeteilt
Attribute aller Teiltabellen stimmen mit denen der Master Tabellen überein
Wichtige Erweiterungen der meisten kommerziellen RDBMS der letzten Jahre
Hauptvorteile:
Datenmanagement: Partitionen als eigenständige DB Objekte
Parallele Verarbeitungen
Scans können Partitionen auslassen
Was versteht man unter „materialisierten Sichten“? Nennen Sie Gründe für deren
Verwendung. Welche Herausforderungen bestehen bei der Aktualisierung?
Vielzahl gleicher oder ähnlicher Anfragen auf immer denselben Relationen
🡪 Einführung von Sichten zur Anfragevereinfachung
überwiegend lesender Zugriff auf weitgehend stabiler Datenbasis
🡪 Materialisierung der Sichten ggf. sinnvoll
seltene Änderungen in der Datenbasis bedeuten geringen Aufwand bei der Aktualisierung der Sichten
Materialisierung reduziert Berechnungsaufwand bei wiederkehrenden Anfrageteilen
Herausforderungen:
Auswahl materialisierter Sichten
Abwägung zwischen folgenden Kriterien:
Speicherbedarf für redundant gehaltene Daten
zusätzlicher Verwaltungsaufwand durch Materialisierung (einschl. Analyseaufwand für Auswahl der zu materialisierenden Sichten)
erwartete Reduktion von Antwortzeiten
Geben Sie Entscheidungskriterien für eine ROLAP bzw. MOLAP Umsetzung an.
S. 29
Geben Sie ein Vorgehensmodell zur Einführung für ein BI System an.
Welche Bestimmungsfaktoren haben darauf einen Einfluss?
Reifegradmodell Bestimmungsfaktoren: Größe des BI Projektes Stabilität der fachlichen Anforderungen Besondere Risiken Eingeführte IT Standards und Prozesse Qualifikationen der Mitarbeiter Vertragliche Beziehungen
Welches sind die zentralen Punkte bei der BI Modellierung?
Informationen über aktuelle Situation Bereitstellung Kennzahlen Visualisierung Tatbeständen Unterstützung der Entscheidungsfindung Unterstützung der Planung Strategische Planung Operative Planung
Wie kommt man von der Unternehmensstrategie über die IT Gesamtstrategie
zu der für das Unternehmen passenden BI Strategie?
Top-Down/Bottom-Up
Geben Sie drei Varianten für die Einführung eines BI Systems an, erläutern und
bewerten Sie diese.
Top down Vorgehen Vorteile Basisdatenbank ideal konzipiert Datenbanken immer konsistent Daten können mehrfach genutzt werden Nachteile Komplex, viel Vorarbeit Dauert lange Anwender spät eingebunden Nutzen erst sehr spät Bottom up Vorgehen Vorteile Anwender werden früh eingebunden Früher Nutzen Einfache Konzeption der Ableitungsdatenbank, welche Basisdatenbank definiert Nachteile Basisdatenbank anwenderspezifisch Konzeptionsfehler in operativen Systemen werden übernommen Nutzen nur für wenige Fachabteilungen Andere Anwendungsbereiche nur mit großem Aufwand berücksichtigt werden
Gemischtes Vorgehen
Globales konzeptionelles Datenmodell
Lokale Umsetzungen der Basis: hält sich strikt an konzeptionelle Datenmodell
Kleine Auswertungsdatenbank mit hohem Nutzen
Nur die notwendigen Quelldaten werden identifiziert und eingebunden
Erläutern Sie die Aufgaben und die Zielsetzung einer BI Machbarkeitsstudie.
Vorab Machbarkeitsstudie über…
Gegenstand und Bedeutung des BI für das Unternehmen
Wirtschaftlichkeitsbetrachtungen
Softwareauswahl
Hardwareauswahl
Personalbedarf
Datenschutzrechtliche Absicherung
Ziele
bewerten verschiedener Lösungsalternativen
Ableiten einer Handlungsempfehlung als Entscheidungsgrundlage für Management
Geben Sie verschiedene BI Projektrollen und deren Themenbereiche und
Tätigkeiten an.
S.33
Welche Arten von Tests sind in einer BI Testphase durchzuführen?
Funktionaler Test Datenvalidierung Usability Test Performance und Stresstests Wiederinbetriebnahmetest Sicherheitstest Weiterentwicklungstest
Charakterisieren Sie Nutzenaspekte und Kostenverursacher von BI Systemen.
Nutzenaspekte
Prozesskriterien
Alle Aspekte bei Auswertung von Ableitungs und Ausfalldatenbank
Mit Prozess Entscheidungsprozess der Manager gemeint -> effizient und effektiv gestalten
Prozess der Informationsversorgung -> soll durch Data Warehousing verbessert werden
Produktivitätskriterien
Die Folgen der Managemententscheidungen und Informationsversorgung bewerten
Wahrnehmungskriterien
Alle Aspekte, die Anwender und Umgang mit Data Warehouse System betreffen
Produktkriterien
Aspekte wie technische und funktionelle Eigenschaften der eingesetzten Werkzeuge
Kostenverursacher
Studien, Testlizenzen, Testrechner innerhalb Auswahlprozesses
Daten und Beschaffung, Bereinigung, Haltung, Archivierung
Hardware: Rechner, Netze, Datenspeicher für alle Phasen
Software für Datenbeschaffungs-und Datenhaltungsprozess, Analyse und Kommunikation
Know How für Aufbau und Organisation des BI Systems
Schulung der Anwender
Betrieb inkl. Wartung, Qualitätssicherung Daten und des Ablaufs, Datensicherung und Archivierung, Anwenderberatung
Welche Hauptfunktionen weist ein BICC in einer Unternehmensorganisation auf?
S.35
Welche Ziele werden mit den Data Mining Verfahren verfolgt?
Aufdecken unbekannter Zusammenhänge
Verfahren
Klassifikation: Zuordnen Daten zu vorgegebenen Klassen
Segmentierung: Daten werden ihrer Merkmalsausprägung zu Gruppen zusammengefasst
Assoziationsanalyse: Regeln, die auftretende Elemente des Datenbestands beschreiben
Prognose: Fortschreibung einer Zeitreihe in die Zukunft
Erläutern Sie die Zielsetzung einer Clusteranalyse.
Zusammenfassen von Objekten in Gruppen, die sich durch charakteristische Attribute und gleiches Verhalten bzgl. des zu untersuchenden Sachverhalts auszeichnen
Was ist das Ziel einer ABC-Klassifikation?
Einteilen von Objekten (z.B. Kunden, Produkte) in Klassen auf Basis einer bestimmten Kennzahl (Umsatz/Gewinn)
Klassifikationsregeln, die sich auf eine Kennzahl in Daten beziehen (Klassifikationskriterium), geben an welche absoluten oder relativen Werte welche Klassen zuzuordnen sind
Sie möchten die Kunden eines Supermarktes bezüglich ähnlichen Kaufverhaltens in homogene Gruppen einteilen. Welche Data-Mining-Verfahrensklasse ist geeignet?
Clusteranalyse
Geben Sie ein Anwendungsfeld für die Assoziationsanalyse an.
Cross-Selling, Katalog-Design, Laden-Layout, Kundensegmentierung, Gesundheitswesen, Industrieproduktion u.a.
Erläutern Sie den Aufbau von Entscheidungsbäumen im Rahmen der Klassifikation. Geben Sie ein Beispiel für einen Entscheidungsbaum an.
Abbilden Daten auf kategorielle Größen
Ermitteln von Abbildungsregeln auf historische Daten, bei denen Zuordnung zu Kategorien bekannt ist
Entscheidungsbaum = grafische Darstellung der Regeln
In jedem Knoten wird ein Attribut abgefragt und ausgewertet
Verzweigungen (Äste) repräsentieren Entscheidungen der Auswertung des jeweiligen Attributwertes
Blattknoten stellen Klassifikation für ein Objekt dar
Geben Sie für jede der vorgestellten Verfahrensklasse ein Anwendungs-szenario an.
S.37
Was versteht man unter Realtime –, Closed Loop und Active DW Systemen?
Realtime Data Warehousing
ersetzen des batch-orientierten, periodischen ETL-Prozess teilweise oder ganz durch eine Integration von operativen Transaktionsdaten in Echtzeit
zeitnahe Verfügbarkeit: Millisekunden oder Sekunden
Beispiel: Wertpapierhandel. Indizes von Aktien und festverzinslichen Papieren, Währungskurse usw. müssen möglichst schnell integriert und Endbenutzer zur Verfügung stehen. Herausforderung an den ETL-Prozess
Closed-Loop Data Warehousing
Rückkopplung von Analysergebnissen in operative und/oder dispositive Systeme
inhaltliche Ergänzung der Datenbestände durch zusätzliche Informationen
Beispiel: CRM – um Cross- u. Up-Selling-Potenziale bei einem Kundenkontakt direkt aufzuzeigen, werden Ergebnisse der Kundensegmentierung in das operative System eingebunden, so dass das System konkrete Produktempfehlungen geben kann
Active Data Warehousing
Weitere Operationalisierung des DWH in Hinblick auf Unterstützung des Lower-Managements
Ziel: Ausführung von Aktionen bei gut strukturierten Problemstellungen in operativen Entscheidungssituationen (teil-)automatisiert, gemäß sog. ECA-Modell (Event- Condition-Action Model)
Beispiel: Logistik. Z.B. Entscheidung bei verspäteter Lieferung einer Fracht, die für einen Anschlusstransport bestimmt ist. Soll der Transport ohne die Fracht starten oder warten? Die „ideale“ Entscheidung berücksichtigt die einzelnen Liefertermine, SLAs, Wert des Kunden für das Unternehmen, alternative Routen usw.
Erläutern Sie den Aufbau zeilen und spaltenorientierter Datenbanksysteme.
S.39
Weshalb wird im Data Warehousing ein besseres Antwortzeitverhalten
beim Einsatz spaltenorientierter Datenbanksysteme erwartet?
Sie liefern schnelle Auswertungen trotz enormer Datenmengen, da sie, im Gegensatz zu reihenorientierten DBMS sofort die relevanten Blöcke lesen können, ohne den kompletten Datensatz lesen zu müssen
Ein weiterer Vorteil ergibt sich daraus, dass bei einer spaltenorientierten Datenhaltung immer Daten desselben Typs und ähnlichen Eigenschaften hintereinander weg gespeichert werden. Das ermöglicht einfache und effiziente Komprimierungsmöglichkeiten und hilft, Datenredundanzen zu minimieren und gleichzeitig den Speicherbedarf zu verringern.
Welche Vorteile werden mit dem In Memory Datenmanagement verbunden?
Die Vorteile der IMDB liegen in der schnelleren Antwortzeit. Indizierungen fallen weg oder werden stark reduziert. Die Kosten für Datenbankabfragen werden dadurch minimiert und Reaktionszeiten deutlich verkürzt.
Wie ist der Begriff „Big Data“ zu charakterisieren?
Aufgrund der wachsenden Menge an Daten (Das weltweite Datenvolumen verdoppelt sich in den nächsten Jahren etwa alle 18 Monate) ist der Begriff „Big Data“ entstanden. Mit Big Data-Methoden und Technologien soll die Flut an Informationen bewältigt werden, zudem bietet Big Data vielen Branchen neue Möglichkeiten für die Erschließung von Wirtschaft und Wissenschaft.
Welche Einsatzmöglichkeiten ergeben sich für sog. „NoSQL Datenbanken“?
Aufgrund der fehlenden starren Schemata der relationalen Datenbanken, sind NoSQL-Systeme flexibel einsetzbar und eignen sich für große Datenmengen, wie sie in Big-Data-Anwendungen verwendet werden. Ihre komplette Architektur ist auf Skalierbarkeit und Performance ausgelegt. Die verschiedenen NoSQL-Ansätze und Datenbankmodelle lassen sich in vier unterschiedliche Hauptkategorien einteilen. Diese sind: Dokumentenorientierte Datenbanken, Key-Value-Datenbanken, Graphendatenbanken spaltenorientierte Datenbanken.
Welche Möglichkeiten und Herausforderungen ergeben sich durch Mobile BI
und Self Service BI?
S. 40
Bei Variablen im SAP BW on Hana existieren verschiedene Verarbeitungsarten. Was versteht man unter der Verarbeitungsart “Ersetzungspfad”? Geben Sie anhand eines Beispiels an, für welchen Variablentyp diese sinnvoll ist.
Mit der Verarbeitungsart Replacement Path können Sie bestimmen, durch welchen Wert die Variable beim Ausführen der Query automatisch ersetzt werden soll.
Die Verarbeitungsart Replacement Path steht für Merkmalswert-, Text- und Formelvariablen zur Verfügung.