Klausurvorbereitung Flashcards

1
Q

Was ist Big Data?

A

verfolgt das Ziel, qualitative und unterschiedlich struktierte Daten zu verbinden und in ein Geschäftsnutzen zu verwandeln
lässt sich anhand der “3-Vs” beschreiben
aus sicht der Wirtschaftsinformatik kommt Value dazu
Volume - Datenmengen (z.B. Zetabye)
Velocity - Geschwindigkeit
Vareity - Datenvielfallt (z.B. Strukturierte Daten - ERP-System; Unstrukturierte Daten - Facebook/Sensoren; Semi-Strukturierte Daten - E-Mail)
Value - Gewinn/Nutzen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Herrausforderungen sowie zukünftige Trends im Kontext zu BI

A

Big Data: Große Datenmengen, Geschwindigkeit der Daten, hoher Informationsgehalt - dimensionalisierung = Digitalisierung des Alltags
Datenheterogenität: Daten aus Externen (z.B. Facebook)
Erfassungs-, Mess-, Veränderungsgeschwindigkeit der Daten
Mobile BI: Zugriff auf mobile Endgeräte
Predictive Analysis: Prognose von Zukunftswerten
Self BI: User holen sich aufbereittete Daten aus DB
In-Memory: Speichertechnologie, Daten befinden sich direkt im Speicher, Enorme Aufbereitung und Ausgabe Geschwindigkeit
BI as a Service: Cloud basierte BI Lösung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Risiken im Kontext mit BI

A

Datenkraken
Datenschutz
Gläsener Mensch
Konflikt zwischen technisch möglich und Ethnischer Sicht
Kommerzieller Nutzen der Daten
Qualität der Analysemethoden bzw. Datenbasis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist ein Data Warehouse?

A

für Analysezwecke Optimierte Datenbank, die Daten aus mehreren i.a. heterogenen Quellen zusammenführt und verdichtet (Integration und Transformation)
Umfasst:
den GP, der Datenbeschaffung aus internen und externen zugänglichen Quellen
die Datentransofrmation und -aufbereitung gemäß der Quell- und Zieldatenbankschemata
die Datenqualitätssicherung und die Speicherung im (zentralen) DW bzw. (dezentralen) Data Marts benutzersichten)
die auf OLAP basiernde Datenanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist eine Data Warehouse Architektur?

A

Als DW Architektur wird der planvolle, fachkonzeptionelle Strukturentwurf des Data Warehouse Systems und dessen Enbettung in sein reales Umfeld bezeichnet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Data Warehouse Zeichnung

A

Siehe BP Datawarehouse Architektur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Star Schema Architektur Erklären inklusive Vor und Nachteile

A

Star Schema:
Relationale Speicherung
- Faktentabelle bildet Zentrum des Star-Schemas und enthält die Detail-Daten mit analysiernden Kennzahlen
- 1 Dimensionstabelle pro Dimension, die nur mit Faktentabelle verknüpft ist (-> sternförmige Anordnung der Tabellen)

+ Einfache Datenmodelle -> intuitiv
+ Geringe Anzahl von Join-Operationen
+ Geringe Anzahl physischer DW-Tabellen
+ Geringer Aufwand im Rahmen der DW-Wartung
- Bei sehr großen Dimensionstabellen hohe Antwortzeit
- Redundanz innerhalb der Dimensionstabellen durch das mehrfache Verwenden identischer Fakten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Snowflake Schema Zeichnen inklusive Vor und Nachteile

A

Siehe BP

+ Beseitigung der Redundanzen in den Dimensionstabellen
+ -> Beseitigung verbundenen Probleme wie z. B. UpdateAnomalien
+ Ist in der 3. Normalform
- Für eine Abfrage sind mehrere Joins notwendig
- Größere Anzahl der Joint-Operationen die die abhängigen Dimensionstabellen verbinden müssen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was wird bei der Modellierung multidimensionaler Datenräume unter einem Star-Schema verstanden? Beschreiben Sie das Star-Schema anhand seiner wesentlichen Charakteristika. Wie könnte eine Beispielabfrage auf ein StarSchema lauten?

A

Welcher Umsatz wurde im Januar 2020 in der Region West mit dem Produkt 320 bei dem Kundentyp Geschäftskunden erzielt?

  • Fakten sind betriebswirtschaftliche Kennzahlen und repräsentieren monetäre Werte oder Mengen Bsp.: Umsatz, Absatz, Einzelkosten, Personalbestand etc.
  • Dimensionen sind deskriptiv und ermöglichen eine Gruppierung der Fakten zur Analyse Bsp.: Tage, Produkte, Kunden etc.
  • Hierarchisierungen ermöglichen die Betrachtung unterschiedlicher Konsolidierungsstufen der Fakten Bsp.: Filiale > Region > Land > Gesamt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Beschreiben Sie das in der Vorlesung kennengelernte FASMI-Prinzip. (5 Punkte) FASMI = Fast Analysis of Shared Multidimensional Information

A
  • Fast: stabile, schnelle Antwortzeiten
  • Analysis: Beherrschung beliebiger Businesslogik und statistischer Analysen wie “What-If”- & “How to achieve”- Betrachtungen
  • Shared: Mehrbenutzerbetrieb, implementiert Sicherheitsanforderungen für Datenschutz
  • Multidimensional: Unterstützung multidimensionaler konzeptioneller Sichten auf Daten, ermöglicht Hierarchien
  • Information: Zugriff auf alle benötigten Daten und abgeleitete Informationen, Verarbeitung großer Datenvolumina
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was wird unter den Begriffen „OLTP“ und „OLAP“ verstanden? Grenzen Sie die beiden Konzepte in Bezug auf Anfragen ab. (7 Punkte)

A

OnLine Transaction Processing:
• transaktionale Prozesse mit operativen Daten
• klassische operative Informationssysteme
• Erfassung und Verwaltung von Daten
• kurze Schreib- und Lesezugriffe auf wenige Daten

OnLine Analytical Processing:
• Analyse im Mittelpunkt
• lange Lesetransaktionen auf viele Datensätze
• Integration, Aggregation und Konsolidierung von Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nennen Sie sechs Operatoren zur Navigation in multidimensionalen Datenstrukturen multidimensionaler Datenmodelle. (6 Punkte)

A

Pivoting, Slicing, Dicing, Drill Down, Roll Up, Split

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

ETL-Prozess + Zeichen

A

Siehe PB
-Extraktion

-Transformation
– Filterung
o Auswahl der geeigneten Datenbestände
o Bereinigung von syntaktischen und semantischen Mängeln
– Harmonisierung
o Integration der Teilschemata der Datenquellen zum Data-Warehouse-Schema
o Abstimmung von Kodierungen, Synonymen und Homonymen
– Aggregation
o Bildung von Hierarchien und daraus resultierenden Aggregationen
o Beispielhierarchie: Produkt – Produktgruppe - Gesamt
–Anreicherung
o Berechnung von betriebswirtschaftlichen Kennzahlen

-Laden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Erläutern Sie, warum BI nicht als Produkt käuflich, sondern unternehmensspezifisch individuell zu implementieren ist. Ein Beispiel (4P)

A

Veraltete Einzelsysteme reichen nicht mehr aus, um die gesamten Informationen, die in einem Unternehmen generiert werden, adäquat zu speichern, analysieren und zu verteilen -> Integrierte und unternehmensspezifische Gesamtansatz notwendig!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist Pivoting

A

Rotation des Datenwürfels durch Drehen oder Kippen, um eine andere Perspektive auf die Daten zu ermöglichen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Unterschied zwischen Slicing und Dicing

A
  • Slicing - Ausschnitt im 2D Raum (nur eine Dimension für z. B. alle Produkte zum Zeitpunkt)
  • Dicing - Verkleinerter ausschnitt Würfel des gesamten Würfels (aus allen Dimensionen)
17
Q

Unterschied Drill Down and Roll UP

A

Drill Down - von Grob nach Fein (Produktgruppe -> Produkt)

Roll Up - von Fein nach Grob (Produkt -> Produktgruppe -> Produkte Gesamt)

18
Q

Benutzersicht und physikalische Umsetzung (R-OLAP, M-OLAP und H-OLAP) Zeichnen + Unterschiede

A

Siehe BP
R-OLAP = Star / Snowflake == KEINE WÜRFEL
+ Hohe Stabilität
+ Sicherheit im AWBereich, große Benutzerzahl
- wenig Aggregatsstufen

M-OLAP = Teildaten/Aggregationsdaten Multidimensional gespeichert in Würfel, direkt auf OLAP Server
Nach Aufbereitung muss nicht mehr auf Datenbank zugegriffen werden
“Versuchen hochzuaggregierren und Würfel vorzubereiten”
+ Flexibilität
+ Antwortzeit verhalten
- Sicherheit (Würfel muss generiert werden)
- beschränkt

H-OLAP vereint Vorteile von beiden OLAPS
Aggregation in Multidimensionalen Würfel; Bei Drill Down erst von DB Nachladen; Verwendung bei Hochverdichteten Daten

19
Q

Hichert Regeln

A
SAY: Botschaften klar vermitteln
UNIFY: Bedeutung vereinheitlichen
CONDENSE: Information verdichten
CHECK: Qualität sicherstellen
ENABLE: Konzept verwirklichen
SIMPLIFY: Rauschen, Redundanz und Details weglassen
STRUCTURE: Inhalt richtig gliedern
20
Q

DuPont Schema (ROI)

A

Siehe BP

21
Q

Balanced Score Card (Die vier Schichten einer BSC)

A

Siehe BP

22
Q

Beschreiben Sie den Knowledge Discovery im Databases Prozess. Unterstützen Sie Ihre Erläuterungen durch eine grafische Darstellung des Prozesses. Gehen Sie auf die einzelnen Schritte im Detail ein. (10 Punkte)

A

Kapitel 6 Folie 4/ BI_Prüfungsstoff_final

  1. Selektion:
    • Auswahl der für die Fragestellung relevanten Daten
  2. Vorverarbeitung:
    • Beseitigung von Datenqualitätsproblemen
    • z.B. Missing Values und Imputation, Dubletten, Outliers, fehlerhaft Werte
  3. Transformation:
    • Daten werden in einen für das Datamining-Verfahren geeigneten Datentyp umgewandelt
  4. ML: / Datamining:
    • ML: / Datamining wird auf Daten angewandt (Mustererkennung)
    • Ergebnis: Modell mit Mustern, Auffälligkeiten, Abhängigkeiten etc.
  5. Interpretation und Evaluation
    • Modell und Einsetzbarkeit des Modells werden bewertet
    • Aufbereitung der Ergebnisse für die Entscheidungsfindung
23
Q

Nennen Sie vier Vorteile eines zentralen Data Warehouse im Gegensatz zu reinen Data Marts. (4 Punkte)

A
  • integrierte Sichtweise auf das Gesamtunternehmen
  • zentrale Datenverwaltung
  • geringere Datenredundanz
  • kein Transformations- bzw. Implementierungsaufwand
24
Q

Zwei Elemente von multidimensionalen Datenstrukturen nennen. (2 Punkte)

A

Fakten, Dimensionen

25
Q

Datenqualität nach Hinrichs

A

Glaubwürdigkeit

  • Korrektheit
  • Zuverlässigkeit
  • Konsistenz

Interpretierbarkeit

  • Einheitlichkeit
  • Eindeutigkeit
  • Verständlichkeit

Nützlichkeit

  • Vollständigkeit
  • Genauigkeit
  • Zeitnähe
  • Redundanzfreiheit
  • Relevanz

Schlüsselintegrität

  • Schlüsseleindeutigkeit
  • Referntielle Integrität
26
Q

Data Warehouse - In Memory Datenbanken

A

Sind Datenbankmanagementsysteme, die im Gegensatz zu herkömmlichen Datenbankmanagementsystemen nicht Festplattenlaufwerke, sondern den Arbeitsspeicher zur Datenspeicherung nutzen

27
Q

Unterschiedliche Architekturen nennen

A

Zentrale Data-Warehouse Architektur
Unabhängige Data-Marts
Hub-and-Spoke-Architektur

28
Q

William H. Inmon stellt in seiner Data-Warehouse-Definition vier Merkmale in den Mittelpunkt. Nennen und beschreiben Sie jedes Merkmal. (8 Punkte)

A
  1. Themenorientierung (subject-oriented):
    - Zweck nicht Erfüllung dedizierter Aufgabe, sondern Unterstützung übergreifender Auswertungsmöglichkeiten aus verschiedenen Perspektiven.
    - Alle Daten - unternehmensweit - über ein Subjekt (z.B Kunde) und nicht “versteckt” in versch. Anewendungen
  2. Integrierte Datenbasis (integrated):
    - Daten aus mehreren versch. Datenquellen
    - Vereinheitlichung der Daten aus den operativen Systemen
    - Benennung, Skalierung und Kodierung
  3. Historische Daten (time-variant):
    - Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)
    - Speicherung über längeren Zeitraum
    - Bereitstellung von Zeitreihendaten über längere Zeiträume
  4. Nicht-flüchtige Datenbasis (non-volatile):
    - Daten im DW werden i.a. nicht mehr geändert
    - Stabile, persistente Datenbasis
    - Bereitstellung von Zeitreihendaten über längere Zeiträume
29
Q

Welche der folgenden Systeme sind Ihrer Ansicht nach üblicherweise keine BI Anwendungssysteme und begründen Sie? (9 Punkte)

  • Reisekostenabrechnung
  • Balanced Scorecard
  • Debitorenbuchhaltung
  • Call-Center-Steuerung mit ACDS (Automated Call Distribution System)
  • Konzernkonsolidierung
  • Vertriebscontrolling
  • Lagerhaltungsmanagement
  • Analytisches CRM
  • Workflow-Management für die Verarbeitung von Geschäftsdokumenten
A

• Reisekostenabrechnung
KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze herangezogen werden.

• Balanced Scorecard
IST eine BI-Anwendung: Zur Berechnung der Kennzahlen werden viele Daten aggregiert.

• Debitorenbuchhaltung
KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze herangezogen werden.

• Call-Center-Steuerung mit ACDS (Automated Call Distribution System)
KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze herangezogen werden.

• Konzernkonsolidierung
IST eine BI-Anwendung: Zur Konsolidierung werden viele Daten aggregiert.

• Vertriebscontrolling
IST eine BI-Anwendung, sofern übergreifende Daten z.B. für Reports aggregiert werden.

• Lagerhaltungsmanagement
KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze gebucht und abgefragt werden.

• Analytisches CRM
IST eine BI-Anwendung, da Kundendaten aggregiert ausgewertet werden.

• Workflow-Management für die Verarbeitung von Geschäftsdokumenten
KEINE BI-Anwendung, da Geschäftsdokumente ausschließlich für operative Zwecke verteilt werden.

30
Q

Definieren Sie den Begriff „Business Intelligence“ wie in der Vorlesung kennengelernt. (2 Punkte)

A

Business Intelligence ist ein integrierter, unternehmensspezifischer, IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung. BI ist die Gesamtheit aller Werkzeuge und Anwendungen mit entscheidungsunterstützendem Charakter, die zur besseren Einsicht in das eigene Geschäft verhilft.

31
Q

Welche Bereiche Spielen in Business Intelligence Zentrale Rollen?

A
  • Reporting
  • Analytics
  • Data Mining
  • OLAP
  • Big Data
  • Unternehmenssteuerung
  • Data Warehousing
32
Q

Nennen Sie jeweils zwei unterschiedliche Beispiele für Fälle, in denen die folgenden Arten von Bereinigungsaktivitäten notwendig sind.

A
  • Automatische Erkennung und Korrektur:
    Komma durch Punkt ersetzen, “€” durch “EUR” ersetzen, Umformatierung von Datumsangaben
  • Automatisierbare Erkennung und manuelle Korrektur:
    Unzulässige Zeichen, Ausreisen in Daten, unübliche Altersangabe oder Umsatzauswertung
  • Manuelle Erkennung und Korrektur:
    Tippfehler, Manipulation (bewusste Falscheingabe)
33
Q

Es sind 8 Probleme bei der Transformation gegeben. Diese den Fehlerarten zuordnen.

A

Eventuell wo Sherwin damals die Aufgabe gelöst hat?

  • Syntaktische Mängel
  • Semantische Mängel
  • Harmonisierung
  • Eliminierung von Schlüsseldisharmonien
  • Aggregation
  • Anreicherung
34
Q
  1. Erörtern Sie die Unterschiede zwischen operativen und dispositiven Daten. Verdeutlichen Sie Ihre Ausführungen anhand von selbst gewählten Beispielen?
A
•	Operative Daten: 
stammen meist nur aus einer Datenquelle
nur aktuelle Daten
häufige Aktualisierung
Zugriff auf einzelne Datensätze
z.B. Umsatz von Kunde X am 12.2.2010 in der Filiale Hamburg. 

• Dispositive Daten:
sind aus mehreren Datenquellen aggregiert
sowohl aktuelle, als auch historische Daten
große Datenmengen
Zugriff auf gruppierte Daten
z.B. Umsatz aller Filialen in Bayern im Monat März

35
Q

Zentrale Data-Warehouse-Architektur zeichnen

A

Siehe Bp

36
Q

Unabhängige Data-Marts zeichnen

A

Siehe BP

37
Q

Hub-and-Spoke Architektur

A

Siehe BP

38
Q

Data Warehouse - In Memory + Merkmale

A

Sind DBMS, die im Gegensatz zu herkömmlichen DBMS nicht Festplattenlaufwerke, sondern den Arbeitsspeicher zur Datenspeicherung nutzen.

Merkmale:

  • Daten werden in den Arbeitsspeicher gelanden
  • Lange Zugriffszeiten klassischer Massenspeicher (z.B. Festplatten) entfallen
  • Auswertungen können innerhalb von Sekunden oder gar Sekundenbruchteilen erstellt werden
39
Q

BI nach Gluchowsky

A
  • Enges BI-Verständnis Kernapplikationen die Entscheidungsfindung unterstützen (OLAP, MIS)
  • Analyseorientiertes BI-Verständnis Alle Anwendungen mit denen der Entscheider im System arbeitet (CRM)
  • Weites BI-Verständnis Alle Anwendungen die direkt und indirekt mit Entscheidungsunterstützung arbeiten (Anw. Zur Datenauswertung, -präsentation, - aufbereitung und -speicherung)