Klausurvorbereitung Flashcards
Was ist Big Data?
verfolgt das Ziel, qualitative und unterschiedlich struktierte Daten zu verbinden und in ein Geschäftsnutzen zu verwandeln
lässt sich anhand der “3-Vs” beschreiben
aus sicht der Wirtschaftsinformatik kommt Value dazu
Volume - Datenmengen (z.B. Zetabye)
Velocity - Geschwindigkeit
Vareity - Datenvielfallt (z.B. Strukturierte Daten - ERP-System; Unstrukturierte Daten - Facebook/Sensoren; Semi-Strukturierte Daten - E-Mail)
Value - Gewinn/Nutzen
Herrausforderungen sowie zukünftige Trends im Kontext zu BI
Big Data: Große Datenmengen, Geschwindigkeit der Daten, hoher Informationsgehalt - dimensionalisierung = Digitalisierung des Alltags
Datenheterogenität: Daten aus Externen (z.B. Facebook)
Erfassungs-, Mess-, Veränderungsgeschwindigkeit der Daten
Mobile BI: Zugriff auf mobile Endgeräte
Predictive Analysis: Prognose von Zukunftswerten
Self BI: User holen sich aufbereittete Daten aus DB
In-Memory: Speichertechnologie, Daten befinden sich direkt im Speicher, Enorme Aufbereitung und Ausgabe Geschwindigkeit
BI as a Service: Cloud basierte BI Lösung
Risiken im Kontext mit BI
Datenkraken
Datenschutz
Gläsener Mensch
Konflikt zwischen technisch möglich und Ethnischer Sicht
Kommerzieller Nutzen der Daten
Qualität der Analysemethoden bzw. Datenbasis
Was ist ein Data Warehouse?
für Analysezwecke Optimierte Datenbank, die Daten aus mehreren i.a. heterogenen Quellen zusammenführt und verdichtet (Integration und Transformation)
Umfasst:
den GP, der Datenbeschaffung aus internen und externen zugänglichen Quellen
die Datentransofrmation und -aufbereitung gemäß der Quell- und Zieldatenbankschemata
die Datenqualitätssicherung und die Speicherung im (zentralen) DW bzw. (dezentralen) Data Marts benutzersichten)
die auf OLAP basiernde Datenanalyse
Was ist eine Data Warehouse Architektur?
Als DW Architektur wird der planvolle, fachkonzeptionelle Strukturentwurf des Data Warehouse Systems und dessen Enbettung in sein reales Umfeld bezeichnet.
Data Warehouse Zeichnung
Siehe BP Datawarehouse Architektur
Star Schema Architektur Erklären inklusive Vor und Nachteile
Star Schema:
Relationale Speicherung
- Faktentabelle bildet Zentrum des Star-Schemas und enthält die Detail-Daten mit analysiernden Kennzahlen
- 1 Dimensionstabelle pro Dimension, die nur mit Faktentabelle verknüpft ist (-> sternförmige Anordnung der Tabellen)
+ Einfache Datenmodelle -> intuitiv
+ Geringe Anzahl von Join-Operationen
+ Geringe Anzahl physischer DW-Tabellen
+ Geringer Aufwand im Rahmen der DW-Wartung
- Bei sehr großen Dimensionstabellen hohe Antwortzeit
- Redundanz innerhalb der Dimensionstabellen durch das mehrfache Verwenden identischer Fakten
Snowflake Schema Zeichnen inklusive Vor und Nachteile
Siehe BP
+ Beseitigung der Redundanzen in den Dimensionstabellen
+ -> Beseitigung verbundenen Probleme wie z. B. UpdateAnomalien
+ Ist in der 3. Normalform
- Für eine Abfrage sind mehrere Joins notwendig
- Größere Anzahl der Joint-Operationen die die abhängigen Dimensionstabellen verbinden müssen
Was wird bei der Modellierung multidimensionaler Datenräume unter einem Star-Schema verstanden? Beschreiben Sie das Star-Schema anhand seiner wesentlichen Charakteristika. Wie könnte eine Beispielabfrage auf ein StarSchema lauten?
Welcher Umsatz wurde im Januar 2020 in der Region West mit dem Produkt 320 bei dem Kundentyp Geschäftskunden erzielt?
- Fakten sind betriebswirtschaftliche Kennzahlen und repräsentieren monetäre Werte oder Mengen Bsp.: Umsatz, Absatz, Einzelkosten, Personalbestand etc.
- Dimensionen sind deskriptiv und ermöglichen eine Gruppierung der Fakten zur Analyse Bsp.: Tage, Produkte, Kunden etc.
- Hierarchisierungen ermöglichen die Betrachtung unterschiedlicher Konsolidierungsstufen der Fakten Bsp.: Filiale > Region > Land > Gesamt
Beschreiben Sie das in der Vorlesung kennengelernte FASMI-Prinzip. (5 Punkte) FASMI = Fast Analysis of Shared Multidimensional Information
- Fast: stabile, schnelle Antwortzeiten
- Analysis: Beherrschung beliebiger Businesslogik und statistischer Analysen wie “What-If”- & “How to achieve”- Betrachtungen
- Shared: Mehrbenutzerbetrieb, implementiert Sicherheitsanforderungen für Datenschutz
- Multidimensional: Unterstützung multidimensionaler konzeptioneller Sichten auf Daten, ermöglicht Hierarchien
- Information: Zugriff auf alle benötigten Daten und abgeleitete Informationen, Verarbeitung großer Datenvolumina
Was wird unter den Begriffen „OLTP“ und „OLAP“ verstanden? Grenzen Sie die beiden Konzepte in Bezug auf Anfragen ab. (7 Punkte)
OnLine Transaction Processing:
• transaktionale Prozesse mit operativen Daten
• klassische operative Informationssysteme
• Erfassung und Verwaltung von Daten
• kurze Schreib- und Lesezugriffe auf wenige Daten
OnLine Analytical Processing:
• Analyse im Mittelpunkt
• lange Lesetransaktionen auf viele Datensätze
• Integration, Aggregation und Konsolidierung von Daten
Nennen Sie sechs Operatoren zur Navigation in multidimensionalen Datenstrukturen multidimensionaler Datenmodelle. (6 Punkte)
Pivoting, Slicing, Dicing, Drill Down, Roll Up, Split
ETL-Prozess + Zeichen
Siehe PB
-Extraktion
-Transformation
– Filterung
o Auswahl der geeigneten Datenbestände
o Bereinigung von syntaktischen und semantischen Mängeln
– Harmonisierung
o Integration der Teilschemata der Datenquellen zum Data-Warehouse-Schema
o Abstimmung von Kodierungen, Synonymen und Homonymen
– Aggregation
o Bildung von Hierarchien und daraus resultierenden Aggregationen
o Beispielhierarchie: Produkt – Produktgruppe - Gesamt
–Anreicherung
o Berechnung von betriebswirtschaftlichen Kennzahlen
-Laden
Erläutern Sie, warum BI nicht als Produkt käuflich, sondern unternehmensspezifisch individuell zu implementieren ist. Ein Beispiel (4P)
Veraltete Einzelsysteme reichen nicht mehr aus, um die gesamten Informationen, die in einem Unternehmen generiert werden, adäquat zu speichern, analysieren und zu verteilen -> Integrierte und unternehmensspezifische Gesamtansatz notwendig!
Was ist Pivoting
Rotation des Datenwürfels durch Drehen oder Kippen, um eine andere Perspektive auf die Daten zu ermöglichen
Unterschied zwischen Slicing und Dicing
- Slicing - Ausschnitt im 2D Raum (nur eine Dimension für z. B. alle Produkte zum Zeitpunkt)
- Dicing - Verkleinerter ausschnitt Würfel des gesamten Würfels (aus allen Dimensionen)
Unterschied Drill Down and Roll UP
Drill Down - von Grob nach Fein (Produktgruppe -> Produkt)
Roll Up - von Fein nach Grob (Produkt -> Produktgruppe -> Produkte Gesamt)
Benutzersicht und physikalische Umsetzung (R-OLAP, M-OLAP und H-OLAP) Zeichnen + Unterschiede
Siehe BP
R-OLAP = Star / Snowflake == KEINE WÜRFEL
+ Hohe Stabilität
+ Sicherheit im AWBereich, große Benutzerzahl
- wenig Aggregatsstufen
M-OLAP = Teildaten/Aggregationsdaten Multidimensional gespeichert in Würfel, direkt auf OLAP Server
Nach Aufbereitung muss nicht mehr auf Datenbank zugegriffen werden
“Versuchen hochzuaggregierren und Würfel vorzubereiten”
+ Flexibilität
+ Antwortzeit verhalten
- Sicherheit (Würfel muss generiert werden)
- beschränkt
H-OLAP vereint Vorteile von beiden OLAPS
Aggregation in Multidimensionalen Würfel; Bei Drill Down erst von DB Nachladen; Verwendung bei Hochverdichteten Daten
Hichert Regeln
SAY: Botschaften klar vermitteln UNIFY: Bedeutung vereinheitlichen CONDENSE: Information verdichten CHECK: Qualität sicherstellen ENABLE: Konzept verwirklichen SIMPLIFY: Rauschen, Redundanz und Details weglassen STRUCTURE: Inhalt richtig gliedern
DuPont Schema (ROI)
Siehe BP
Balanced Score Card (Die vier Schichten einer BSC)
Siehe BP
Beschreiben Sie den Knowledge Discovery im Databases Prozess. Unterstützen Sie Ihre Erläuterungen durch eine grafische Darstellung des Prozesses. Gehen Sie auf die einzelnen Schritte im Detail ein. (10 Punkte)
Kapitel 6 Folie 4/ BI_Prüfungsstoff_final
- Selektion:
• Auswahl der für die Fragestellung relevanten Daten - Vorverarbeitung:
• Beseitigung von Datenqualitätsproblemen
• z.B. Missing Values und Imputation, Dubletten, Outliers, fehlerhaft Werte - Transformation:
• Daten werden in einen für das Datamining-Verfahren geeigneten Datentyp umgewandelt - ML: / Datamining:
• ML: / Datamining wird auf Daten angewandt (Mustererkennung)
• Ergebnis: Modell mit Mustern, Auffälligkeiten, Abhängigkeiten etc. - Interpretation und Evaluation
• Modell und Einsetzbarkeit des Modells werden bewertet
• Aufbereitung der Ergebnisse für die Entscheidungsfindung
Nennen Sie vier Vorteile eines zentralen Data Warehouse im Gegensatz zu reinen Data Marts. (4 Punkte)
- integrierte Sichtweise auf das Gesamtunternehmen
- zentrale Datenverwaltung
- geringere Datenredundanz
- kein Transformations- bzw. Implementierungsaufwand
Zwei Elemente von multidimensionalen Datenstrukturen nennen. (2 Punkte)
Fakten, Dimensionen
Datenqualität nach Hinrichs
Glaubwürdigkeit
- Korrektheit
- Zuverlässigkeit
- Konsistenz
Interpretierbarkeit
- Einheitlichkeit
- Eindeutigkeit
- Verständlichkeit
Nützlichkeit
- Vollständigkeit
- Genauigkeit
- Zeitnähe
- Redundanzfreiheit
- Relevanz
Schlüsselintegrität
- Schlüsseleindeutigkeit
- Referntielle Integrität
Data Warehouse - In Memory Datenbanken
Sind Datenbankmanagementsysteme, die im Gegensatz zu herkömmlichen Datenbankmanagementsystemen nicht Festplattenlaufwerke, sondern den Arbeitsspeicher zur Datenspeicherung nutzen
Unterschiedliche Architekturen nennen
Zentrale Data-Warehouse Architektur
Unabhängige Data-Marts
Hub-and-Spoke-Architektur
William H. Inmon stellt in seiner Data-Warehouse-Definition vier Merkmale in den Mittelpunkt. Nennen und beschreiben Sie jedes Merkmal. (8 Punkte)
- Themenorientierung (subject-oriented):
- Zweck nicht Erfüllung dedizierter Aufgabe, sondern Unterstützung übergreifender Auswertungsmöglichkeiten aus verschiedenen Perspektiven.
- Alle Daten - unternehmensweit - über ein Subjekt (z.B Kunde) und nicht “versteckt” in versch. Anewendungen - Integrierte Datenbasis (integrated):
- Daten aus mehreren versch. Datenquellen
- Vereinheitlichung der Daten aus den operativen Systemen
- Benennung, Skalierung und Kodierung - Historische Daten (time-variant):
- Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)
- Speicherung über längeren Zeitraum
- Bereitstellung von Zeitreihendaten über längere Zeiträume - Nicht-flüchtige Datenbasis (non-volatile):
- Daten im DW werden i.a. nicht mehr geändert
- Stabile, persistente Datenbasis
- Bereitstellung von Zeitreihendaten über längere Zeiträume
Welche der folgenden Systeme sind Ihrer Ansicht nach üblicherweise keine BI Anwendungssysteme und begründen Sie? (9 Punkte)
- Reisekostenabrechnung
- Balanced Scorecard
- Debitorenbuchhaltung
- Call-Center-Steuerung mit ACDS (Automated Call Distribution System)
- Konzernkonsolidierung
- Vertriebscontrolling
- Lagerhaltungsmanagement
- Analytisches CRM
- Workflow-Management für die Verarbeitung von Geschäftsdokumenten
• Reisekostenabrechnung
KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze herangezogen werden.
• Balanced Scorecard
IST eine BI-Anwendung: Zur Berechnung der Kennzahlen werden viele Daten aggregiert.
• Debitorenbuchhaltung
KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze herangezogen werden.
• Call-Center-Steuerung mit ACDS (Automated Call Distribution System)
KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze herangezogen werden.
• Konzernkonsolidierung
IST eine BI-Anwendung: Zur Konsolidierung werden viele Daten aggregiert.
• Vertriebscontrolling
IST eine BI-Anwendung, sofern übergreifende Daten z.B. für Reports aggregiert werden.
• Lagerhaltungsmanagement
KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze gebucht und abgefragt werden.
• Analytisches CRM
IST eine BI-Anwendung, da Kundendaten aggregiert ausgewertet werden.
• Workflow-Management für die Verarbeitung von Geschäftsdokumenten
KEINE BI-Anwendung, da Geschäftsdokumente ausschließlich für operative Zwecke verteilt werden.
Definieren Sie den Begriff „Business Intelligence“ wie in der Vorlesung kennengelernt. (2 Punkte)
Business Intelligence ist ein integrierter, unternehmensspezifischer, IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung. BI ist die Gesamtheit aller Werkzeuge und Anwendungen mit entscheidungsunterstützendem Charakter, die zur besseren Einsicht in das eigene Geschäft verhilft.
Welche Bereiche Spielen in Business Intelligence Zentrale Rollen?
- Reporting
- Analytics
- Data Mining
- OLAP
- Big Data
- Unternehmenssteuerung
- Data Warehousing
Nennen Sie jeweils zwei unterschiedliche Beispiele für Fälle, in denen die folgenden Arten von Bereinigungsaktivitäten notwendig sind.
- Automatische Erkennung und Korrektur:
Komma durch Punkt ersetzen, “€” durch “EUR” ersetzen, Umformatierung von Datumsangaben - Automatisierbare Erkennung und manuelle Korrektur:
Unzulässige Zeichen, Ausreisen in Daten, unübliche Altersangabe oder Umsatzauswertung - Manuelle Erkennung und Korrektur:
Tippfehler, Manipulation (bewusste Falscheingabe)
Es sind 8 Probleme bei der Transformation gegeben. Diese den Fehlerarten zuordnen.
Eventuell wo Sherwin damals die Aufgabe gelöst hat?
- Syntaktische Mängel
- Semantische Mängel
- Harmonisierung
- Eliminierung von Schlüsseldisharmonien
- Aggregation
- Anreicherung
- Erörtern Sie die Unterschiede zwischen operativen und dispositiven Daten. Verdeutlichen Sie Ihre Ausführungen anhand von selbst gewählten Beispielen?
• Operative Daten: stammen meist nur aus einer Datenquelle nur aktuelle Daten häufige Aktualisierung Zugriff auf einzelne Datensätze z.B. Umsatz von Kunde X am 12.2.2010 in der Filiale Hamburg.
• Dispositive Daten:
sind aus mehreren Datenquellen aggregiert
sowohl aktuelle, als auch historische Daten
große Datenmengen
Zugriff auf gruppierte Daten
z.B. Umsatz aller Filialen in Bayern im Monat März
Zentrale Data-Warehouse-Architektur zeichnen
Siehe Bp
Unabhängige Data-Marts zeichnen
Siehe BP
Hub-and-Spoke Architektur
Siehe BP
Data Warehouse - In Memory + Merkmale
Sind DBMS, die im Gegensatz zu herkömmlichen DBMS nicht Festplattenlaufwerke, sondern den Arbeitsspeicher zur Datenspeicherung nutzen.
Merkmale:
- Daten werden in den Arbeitsspeicher gelanden
- Lange Zugriffszeiten klassischer Massenspeicher (z.B. Festplatten) entfallen
- Auswertungen können innerhalb von Sekunden oder gar Sekundenbruchteilen erstellt werden
BI nach Gluchowsky
- Enges BI-Verständnis Kernapplikationen die Entscheidungsfindung unterstützen (OLAP, MIS)
- Analyseorientiertes BI-Verständnis Alle Anwendungen mit denen der Entscheider im System arbeitet (CRM)
- Weites BI-Verständnis Alle Anwendungen die direkt und indirekt mit Entscheidungsunterstützung arbeiten (Anw. Zur Datenauswertung, -präsentation, - aufbereitung und -speicherung)