Definitionen und Wissen Flashcards
Was ist ein Unternehmen?
Ein sozio-technisches System:
sozio: Mensch,
technisch: Computer/Maschinen
Welche Arten von Tätigkeiten gibt es in einem Unternehmen?
Es gibt operative und dispositive Tätigkeiten.
- dispositiv
- strategische Tätigkeiten
- steuernde Tätigkeiten
- planende Tätigkeiten
- lenkende Tätigkeiten
Welche Arten von Entscheidungen gibt es?
Strukturierte und unstruktierte Entscheidungen.
- strukturiert: Routinemäßige Entscheidungen. Häufig.
- Standardisierte Vorgehensweise
- Beschreibbare Ziele
- Vollständige Beschreibung der Ein- und Ausgabedaten ist gegeben
- unstrukturiert: Kein einheitliches Verfahren.
In welchem Zusammenhang stehen: Wissen, Information, Daten?
- Daten: Grundbestandteile. z.B: 2x”S”, 1x”O”
- Information: Daten + Semantik. z.B: “SOS”
- Wissen: Vernetzung von Informationen, bezogen auf einen vorgegebenen Kontext. z.B: “Hilfe holen”
Was sind analytische Informationssysteme?
Anwendungssysteme, die Bestandteil eines übergeordneten Konzepts (BI) sind und generell dispositive Tätigkeiten unterstützen
Was ist CPM?
Wie sieht die “CPM-8” aus?
Steht für Corporate Performance Management.
Ist ein Prozess zur zielgerichteten Umsetzung von Unternehmensstrategien.
- Umfasst alle
- Methodologien (z.B: BSC)
- Prozesse (z.B: Planungsprozesse)
- Metriken (z.B: Performance-Kennzahlen)
- Systeme (z.B: BI)

Was ist Business Intelligence?
Ein integrierter, unternehmensspezifischer, IT-basierter, Gesamtansatz zur betrieblichen Entscheidungsunterstützung.
Was ist ein Data Warehouse?
Ein von operativen Datenbeständen physikalisch getrenntes, dispositives Datenhaltungssystem.
Es dient der unternehmensweiten, einheitlichen, konsistenten Datenbasis.
= single point of truth.
Was sind die 4 Eigenschaften eines Data Warehouses?
- Themenorientiert / Fachbezogen
- Integriert (einheitliche Sicht auf heterogene Quellen)
- Zeitraumbezug
- Nichtvolatil
Was sind die unterschiedlichen Charakteristika von operativen und dispostiven Anforderungen bzgl. Anfragen?
- operativ:
- Fokus: CRUD
- Transaktionsdauer: Kurse Lese-/Schreibaktionen
- Struktur: Einfach strukturiert
- Datenvolumen pro Anfrage: Wenige Datensätze
- Datenmodell: Anfrageflexibel
- dispositiv:
- Fokus: Lesen, period. Hinzufügen
- Transaktionsdauer: Lange Leseaktionen
- Struktur: Komplex
- Datenvolumen: Viele Datensätze
- Datenmodell: Analysebezogen
Was sind die unterschiedlichen Charakteristika von operativen und dispostiven Anforderungen bzgl. Daten?
- operativ
- Zweck: Abwicklung der GP
- Inhalt: Granulare GP-Vorfalldaten
- Zeitbezug: Aktuell, zeitpunktbezogen
- dispositiv
- Zweck: Informationen für das Management
- Inhalt: Verdichtete Daten, Metadaten
- Zeitbezug: Zeitraumbezogen
Was ist ein Core Data Warehouse?
Ein zentrales Data Warehouse, welches alle Daten speichert.
Was ist ein Data Mart und welche Arten gibt es?
“Kleinere” Data Warehouses, in denen jeweils nur bestimmte (applikationsbezogene) Daten gespeichert werden.
Ausprägungen
- abhängig
- Jeweils direkt an ein C-DWH angeschlossen und nicht an die operativen Datenquellen = “Hub and Spoke”.
- unabhängig
- Jeweils direkte Anbindung an die operativen Datenquellen.
Was ist Data Warehousing?
Alle Prozesse zur Planung, Implementierung, Betrieb eines Data Warehouse, sowie darauf basierende Datenauswertungen und Analysen.
Was sind “freie Datenrecherchen”?
Bestimmung, Auswahl und Darstellung von Teilmengen der gespeicherten, dispositiven Daten ohne vorgegebenen Programmrahmen.
Sprachen: SQL, MDX
Was ist “OLAP”?
Was sind die Eigenschaften “FASMI”?
Online Analytical Processing
Fast Analysis of Shared Multidimensional Information
- Fast: Schnelle Beantwortung der Anfragen (5-20s)
- Analysis: Anwenderfreundliche, intuitive Analyse
- Shared: Mehrbenutzerfähigkeit
- Multidimensional: Konzeptuelle Sicht, unabhängig von DBMS
- Information: Skalierbarkeit, keine Volumenbegrenzung
Welche OLAP-Operationen gibt es (7) ?
- Pivotieren: Drehen des Würfels entlang einer Achse
- Roll-Up: Aggregation der Daten entlang eines Konsolidierungspfads
- Drill-Down: Navigation von Aggregationen zu Detaildaten entlang eines Konsolidierungspfads
- Drill-Across: Wechsel (horz.) von einem Würfel zu einem Anderen
- Drill-Through: Wechsel (vert.) von einem Würfel zu einem Anderen
- Slice: Herausschneiden von “Scheiben” - Verringerung der Dimensionalität
- Dice: Herausschneiden eines (kleineren) “Teilwürfels” - Erhaltung der Dimensionalität
Was ist “Data Mining”?
Prozess zur effizienten Erforschung und Analyse großer Datenmengen durch halbautomatische Verfahren im Hinblick auf noch nicht bekannte, verwertbare und wertvolle Muster und Regeln.
Was sind Metadaten?
Jede Art von Information, die für den Entwurf, die Konstruktion und die Benutzung eines Informationssystems benötigt wird.
z.B: Hierachien bei OLAP-Cubes
Wofür steht “ETL”?
Was passiert in den einzelnen Schritten?
Welche Tätigkeiten gibt es noch (4)?
Extraction, Transformation and Loading
- Extraction: Selektion eines Ausschnitts der Daten aus den Quellen und Bereitstellung in der Staging Area
- Transformation: Anpassung der Daten an vorgegebene Schema und Qualitätsanforderungen
- Loading: Physisches EInbringen der Daten aus der Staging Area in das DWH, zuerst in den ODS, einschließlich ggf. notwendiger Aggregationen
- Filtern
- Harmonisieren
- Aggregation
- Anreichung (mit berechneten Kennzahlen)
Was ist ein Snapshot?
Ausschnitt aus einem System zu einem bestimmten Zeitpunkt.
Was ist “Data Cleaning”?
Prozess der Identifikation und Beseitigung von Fehlern, Inkonsistenzen und (unerwünschten) Redundanzen in den in das DWH zu übernehmenden (oder schon übernommenen) Daten.
Was unterscheidet “domänenabhängiges” von “domänenunabhängigem” Data Cleaning?
Bei domänenabhängigen Data Cleaning wird neben den statistisch-mathematischen Methoden des domänenunabhängigen DCs auch Fachwissen aus dem Bereich (der Domäne) eingebracht.
Es ist generell vorzuziehen!
Welche Aspekte besitzt die “Datenqualität”?
- Glaubwürdigkeit
- Nützlichkeit
- Interpretierbarkeit
- Schlüsselintegrität
Was besagt das Recall-Precision-Dilemma?
Ein Verbessern der Precision hat eine Verschlechterung des Recalls zur Folge und vice versa.
- Hoher Recall: Es werden möglicherweise zu viele Duplikate gefunden (auch falsche)
- Hohe Precision: Es werden mglwse nicht alle Duplikate gefunden
Was ist eine Dimension?
Beschreibt eine mögliche Sicht auf eine Kennzahl.
- Endliche Anzahl von Elementen mit semantischen Beziehung
- Dient der othogonalen Strukturierung des Datenraums
Was sind Kennzahlen?
Verdichtete Maßzahlen, die in konzentrierter Form über einen quantitativen Sachverhalt berichten. (absolut oder relativ)
Wozu dient die Historisierung von Hierachien?
Zur Rekonstruierbarkeit von Änderungen.
Was ist “Predictive Analytics”?
Eine Form der Datenauswertung zur zukunftsorientierten strategischen Unternehmenssteuerung.
Welche Methoden gibt es im Bereich “Predictive Analytics” (9)?
- Lineare Regressionen
- Entscheidungsbäume
- Clusteranalysen
- Zeitreihenmodelle
- Logische Regressionen
- Neuronale Netze
- Assoziationsanalysen
- Naive Bayes
- Support Vector Machines
Was besagt der “Lift”?
Die Verbesserung eines Vorhersagemodells gegenüber dem Zufall.
Was ist die Motivation für Data Mining?
Der Bedarf nach der automatisierten Gewinnung von Erkenntnissen aus großen Datenmengen.
Wofür steht “CRISP-DM”?
Cross Industry Standard Process for Data Mining
Was ist die “PCA”
Principal Component Analysis
Eine Technik der Dimensionsreduktion. Besteht eine Ausgangsdatenmenge aus n Attributen, so ist es das Ziel der PCA, m neue (künstliche) Attribute zu finden mit m < n, die die Daten ebenso beschreiben.
Was ist ein “Proximitätsmaß”?
Ein Maß, das eine Quantifizierung der Ähnlichkeit oder der Distanz (Unähnlichkeit) zwischen Objekten erlaubt.
Wie lautet das allgemeine Vorgehen zum Entwerfen eines Star-Schemas?
- Identifikation von betriebswirtschaftlichen Ereignissen, denen Fakten zugeordneten werden können. FT
- Identifikation der möglichen Dimensionen zur Beschreibung von 1.
- Konkretisierung
Wie lautet das Vorgehen, um mit ADAPT ein System zu modellieren?
Welche Besonderheit ist bei der Dimension “Zeit” zu berücksichtigen?
- Aus den Anforderungen (einzeln) die beteiligten Dimensionen, Kennzahlen und ggf. Aggregationen ableiten
- Dimesionen und Kennzahlen aus 1. zusammentragen
- Ableiten von Hierachien
- Modellieren
Zeit kann einmal in einer Kalendar-Hierachie und einmal als Fiskaljahr-Hierachie dargestellt werden!
Was gibt der Gartner Hype Cycle an und wie sieht er aus?
Der Gartner Hype Cycle stellt die Reife einer Technologie ihrer Sichtbarkeit in den Medien (“Hype”) gegenüber

Wie ist das Unternehmensmodell aus Sicht der IT aufgebaut?

Nennen Sie Beispiele für
a) Interne Kaufbezogene Informationen
b) Interne Nicht-Kaufbezogene Informationen
c) Externe Kaufbezogene Informationen
d) Externe Nicht-Kaufbezogene Informationen

Beschreiben Sie den BI-Ordnungsrahmen und die 3 Schichten dieses Modells!

Beschreiben Sie die Arten von Latenzzeiten der Daten und die verschiedenen DWH-Arten

Beschreiben Sie den Ordnungsrahmen für Analysesysteme!

Beschreiben Sie die Data-Warehouse Referenzarchitektur!


Beschreiben Sie das Snowflake-Schema!
- Jede Klassifikationsstufe wird in einer eigenen Tabelle gespeichert
- Immer mit FK zur höheren Klassifikationsstufe
- Fakten (Kennzahlen) werden in einer eigenen Tabelle gespeichert
- Enthält die FK der jeweils niedrigsten Klassifikationsstufe
- Alle FK bilden den PK für die Faktentabelle

Beschreiben Sie das Star-Schema!
- Jede Dimesion wird in einer eigenen Tabelle gespeichert
- Alle zur Dimension gehörenden Daten inkl. Hierachien werden in einer einzigen nicht normalisierten Tabelle gespeichert
- Faktentablle wie bei Snowflake

Erklären Sie das erweiterte Star-Schema der SAP AG

