Einheit 3 Flashcards

1
Q

Einbettung von Data Warehouses in den Gesamtkontext der BI

A

Stufe 1: Datenquellen (Daten aus den operativen Systemen, externen Datenbanken, internetbasierte Daten)
Stufe 2: Staging (Extraktion, Transformation und Laden der Daten)
Stufe 3: Data Warehouse (+Metadatenbank + Data Marts)
Stufe 4: Entscheidungsunterstützung (Ad-hoc-Abfragen, Berichte, OLAP-Werkzeuge, Data-Mining-Werkzeuge)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Gesamtarchitektur eines Data Warehouse Systems

A
  1. Ebene der operativen Systeme
  2. Datenerfassungsebene
  3. Datenhaltungsebene
  4. Datenbereitstellungsebene
  5. Präsentationsebene
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. Ebene der operativen Systeme
A
  • Enthält die Datenquellen, die Daten in das DWH-System einspeisen (operative/externe)
  • Gehört nicht zum eigentlichen DWH-System
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. Datenerfassungsebene
A
  • Erste Ebene im DWH-System: Arbeitsbereich
  • Schnittstelle zu operativen Systemen
  • Verwendung der ETL-Komponente zur Extraktion (Bereinigung, Harmonisierung und Zusammenführung) der Daten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. Datenhaltungsebene
A
  • Hauptelement ist das DWH
  • ODS erweitert das DWH
  • Unterteilung in zwei Schichten: Basisschicht: Tabellen direkt aus Quellsystemen + Aggregationsschicht: Tabellen optimiert für OLAP-Anfragen, mit Aggregationshierarchien
  • Daten gelangen durch das Laden (Teil der ETL-Komponente) vom DWH in die Analysekomponente
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
  1. Datenbereitstellungsebene
A
  • Schnittstelle zur Präsentationsebene
  • Zweckmäßige Aufbereitung der Informationen für Entscheidungsträger
  • Analysekomponente selektiert und bereitet Daten auf (z.B. OLAP)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
  1. Präsentationsebene
A
  • Aufgabe: Adäquate Aufbereitung und Präsentation der Daten
  • Nutzung von Analysekomponenten und Data Mining-Anwendungen
  • Unterstützung durch Tabellenkalkulationsprogramme
  • Kritische Überwachung der Erfolgsgrößen, Benachrichtigung bei Überschreitung kritischer Wertgrenzen (z.B. durch Data Access)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

SINT-Eigenschaften

A
  • Themenorientierung: themenorientierte Haltung der Daten im DWH
  • Integration: von Daten aus verschiedenen Quellen; oft schwierig wegen unterschiedlicher Datenformate und -kodierungen.
  • Zeitraumbezug: zeitraumbezogene Ablage der Daten (in Applikationen: zeitpunktbezogen), Ermöglichung der langfristigen Speicherung (5-10 Jahre)
  • Nicht-Volatilität: Daten werden dauerhaft vorgehalten und sind nicht vergänglich; Daten werden nicht überschrieben, sondern erneut hochgeladen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Ziele eines Data Warehouse

A
  • Effiziente Bereitstellung von Daten: Für Auswertungen und Analysen, Ermöglichung einer einfachen Zusammenführung der Daten zu Analysezwecken
  • Unterstützung der Geschäftsprozesse: Beitrag zur Strategieerreichung eines Unternehmens
  • Abschaffung von Insellösungen: Verbesserung der Kommunikation zwischen Aufgabenbereichen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Komponenten eines DWH-Systems

A
  • DWH
  • Operational Data Store (ODS)
  • Arbeitsbereich (staging area)
  • ETL-Komponente
  • Metadatenbanksystem
  • Analysekomponente (Data Access, OLAP, Data Marts)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Abgrenzung operative/dispositive Daten: Ziel

A

O: Unterstützung des Tagesgeschäfts
D: Entscheidungsunterstützung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Abgrenzung operative/dispositive Daten: Zustand

A

O: Häufig redundant und inkonsistent
D: kontrollierte Redundanzen und konsistent

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Abgrenzung operative/dispositive Daten: Modellierung

A

O: Funktions-/transaktionsorientiert
D: Sachgebiets- oder themenorientiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Abgrenzung operative/dispositive Daten: Zeitbezug

A

O: aktuell, zeitpunktbezogen
D: Historienbetrachtung, Zeitverlauf

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Abgrenzung operative/dispositive Daten: Ausrichtung

A

O: detaillierte, granulare Geschäftsvorfalldaten
D: meist verdichtet, transformiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Komponente des DWH-Systems: DWH

A
  • Datenbasis/DWH als Kern des DWH-Systems
  • Sammel-/Integrationsfunktion: Sammlung der Daten aus den Datenquellen + zentrales zur Verfügung stellen
  • Distributionsfunktion: Verteilung der gesammelten Daten an das DWH-System im Unternehmen
  • Auswertungsfunktion: Durchführung von Analysen der gesammelten Daten
17
Q

Komponente des DWH-Systems: ODS

A
  • Definition: Eine nicht-dauerhafte, detaillierte Sammlung von Daten zur Unterstützung betrieblicher Informationen.
  • Funktion: Integration und zeitnahe Auswertung von Daten, die in Quellsystemen schwer möglich sind
18
Q

Komponente des DWH-Systems: Arbeitsbereich

A
  • Funktion: Temporäre Zwischenspeicherung von Daten, um Beeinträchtigungen im DWH und den Datenquellen zu vermeiden
  • Aufgaben: Transformation und Integration der Daten vor dem Laden ins DWH
19
Q

Komponente des DWH-Systems: ETL-Komponente

A
  • Funktion: Sicherstellung der Datenqualität durch Extraktion, Transformation und Laden der Daten
20
Q

Komponente des DWH-Systems: Metadatenbanksystem

A
  • Funktion: Bereitstellung von Hintergrundinformationen über Datenquellen, Transformationen und Verdichtungen
  • Unterteilung in datenverarbeitungstechnische und betriebswirtschaftliche Informationen
  • Komponenten: Informationskatalog (beinhaltet und beschreibt Informationsobjekte, z.B. Grafiken, Tabelle, Texte, Dateien) + Navigationshilfe (Browser)
  • Zusätzliche Informationen: Lexikon, Thesaurus, Datenstrukturverzeichnis, Glossar, Data Directory
21
Q

Komponente des DWH-Systems: Analysekomponente

A
  • Funktion: Unterstützung der Benutzer bei der Datenauswertung durch verschiedene Werkzeuge und Tools
  • Data Access: Berichtswerkzeuge zur Präsentation von Daten
  • OLAP: Multidimensionale Analyse von Daten
  • Data Marts: Analyseorientierte Systeme für spezifische Anwendungsthemen (z.B. einzelne Data Marts für verschiedene Abteilungen, die abteilungsspezifische Daten für Auswertungen bereitstellen)
22
Q

ETL-Komponente: Extraktion

A
  • Übertragung der Daten von der Datenquelle in den zwischengelagerten Arbeitsbereich
  • Herausforderung: Auswahl der extrahierenden Daten (Berücksichtigung der Datenbeschaffenheit und Relevanz), Automatisierung: Fehler sollen nicht den gesamten Prozess stoppen, sondern nachträglich korrigierbar sein
  • Häufigkeit: Periodisch, anfragegesteuert, ereignisgesteuert, sofortige Durchführung
23
Q

ETL-Komponente: Transformation

A
  • Anpassung der Daten zur Ladung ins DWH
  • Aufgaben: Standardisierung (Vereinheitlichung von Zeichenketten und Konvertierung von Kodierungen) + Bereinigung (Korrektur fehlerhafter Daten und Löschung redundanter oder veralteter Daten)
24
Q

ETL-Komponente: Laden

A
  • Übertragung der transformierten Daten ins DWH
  • Initiales Laden (einmalig) vs. Regelmäßige Aktualisierungen
  • Hoher Zeit- und Rechenaufwand
  • Historisierung der Daten
25
Q

Eigenschaften Data Marts

A
  • Autonomer Betrieb: Flexibler Zugriff auf benötigte Daten durch Abteilungen
  • Datenhaltung: Speichern nur der relevanten Daten zur Entscheidungsunterstützung
26
Q

Vor-/Nachteile Data Marts

A
  • Vorteile: geringe Rechnerleistung, kostengünstig, anpassbar an fachliche Gegebenheiten
  • Nachteile: hoher Aufwand für Qualitätssicherung, Datenredundanz, beschränkte Sicht auf Daten, schwierig für abteilungsübergreifende Analysen
27
Q

Eigenschaften OLAP

A
  • Online: Direkter Zugriff der Anwender auf den zentralen Datenbestand, um Daten zu betrachten oder zu manipulieren
  • Analytical: Ermöglicht unterschiedliche Sichten für Entscheidungsträger, im Gegensatz zu OLTP, das sich auf Geschäftsvorfälle konzentriert
  • Processing: Schnelle Berechnungen und Manipulationen durch den Anwender
28
Q

OLAP - 12 Regeln nach Codd

A
  1. Multidimensionale konzeptionelle Sichtweise auf die Daten: ermöglicht die Analyse, Aggregation und Korrelation von Daten. Ergebnisse werden visualisiert zur Verfügung gestellt
  2. Transparenz: Abfragen können ohne Kenntnisse der zugrundenliegenden Datenstrukturen durchgeführt werden
  3. Zugriffsmöglichkeit: Analysen auf Basis unternehmensinterner und externer Datenquellen sind möglich
  4. Gleichbleibende Antwortzeit bei der Berichterstellung: Antwortzeit bleibt unabhängig von der Anzahl der Dimensionen oder Datensätze konstant
  5. Client-Server-Architektur: Trennung von Speicherung, Verarbeitung und Darstellung. OLAP-Server bietet eine offene Schnittstelle.
  6. Generische Dimensionalität: Einheitliche Struktur und Funktionalität aller Dimensionen
  7. Dynamische Behandlung unvollständig besetzter Matrizen: Funktionalitäten bleiben auch bei unvollständig besetzten Matrizen erhalten
  8. Mehrbenutzerunterstützung: Mehrere Benutzer können parallel auf die gleichen Daten zugreifen. Konsistenz der Daten bleibt erhalten
  9. Uneingeschränkte kreuzdimensionale Operationen: Berechnungen über beliebige Dimensionen hinweg sind möglich
  10. Intuitive Darstellung und Bearbeitung der Daten: Anwender können Analysen selbstständig und intuitiv durchführen
  11. Flexible Berichterstellung: Berichtselemente aus verschiedenen Zeilen und Spalten sind frei positionierbar
  12. Unbegrenzte Anzahl von Dimensionen und Klassifikationsebenen: Analysen können mit einer beliebigen Anzahl von Dimensionen durchgeführt werden
29
Q

OLAP - Erweiterung der 12 Regeln

A
  1. Datenintegration: Zugriff auf die multidimensionale Datenstruktur und darunter liegende Daten
  2. Unterstützung verschiedener Analysemodelle: Vier Datenmodelle werden unterstützt:
    * kategorisches Datenmodell: Historische Daten werden mit aktuellen Daten verglichen, um den aktuellen Zustand zu definieren
    * exegetischen Datenmodell: Ursachenanalyse, die zu dem aktuellen Zustand geführt haben
    * kontemplative Modell: Simulation mit verschiedenen Werten oder Abweichungen von/zwischen Dimensionen
    * formelbasiertes Modell: Berechnung, durch welche Veränderungen von Kennzahlen und Parametern ein vorgegebener Zielzustand erreicht werden kann
  3. Trennung analyseorientierter von den operativen Daten: Veränderungen im DWH werden nicht ins Quellsystem übernommen
  4. Trennung der Speicherorte: Veränderungen werden nicht auf dem produktiven Datenbestand gespeichert
  5. Unterscheidung zwischen Null- und Fehlwerten: Es müssen fehlende Werte und Werte mit dem numerischen Wert 0 unterschieden werden können
  6. Behandlung von fehlenden Werten: Fehlende Werte sollen effizient verwaltet werden, sodass eine optimale Nutzung der Speicherkapazität gewährleistet werden kann
30
Q

OLAP - FASMI

A
  • Geschwindigkeit: Anfragen sollen in unter fünf Sekunden beantwortet werden
  • Analysemöglichkeit: Intuitive und benutzerfreundliche Analyse der Daten
  • Sicherheit: Mehrere Anwender können gleichzeitig auf dieselben Daten zugreifen
  • Multidimensionalität: Nutzung und Kombination multidimensionaler Daten für Analysen
  • Kapazität: Antwortzeiten bleiben unabhängig von der Anzahl der Anfragen und Datenmenge stabil
31
Q

MOLAP

A

Multidimensional OLAP
* Physische Speicherung: Daten werden tatsächlich physisch in mehrdimensionalen Datenbanken gespeichert
* Schnellere Antwortzeiten: Vorteilhaft für Analysen mit kleineren Datenmengen
* Höheres Datenvolumen: Je höher die Anzahl der Dimensionen, desto höher das Datenvolumen

31
Q

ROLAP

A

Relational OLAP
* Basiert auf relationalen DBMS: Implementierung nach dem Star- oder Snowflake-Schema
* Tabellenarten: Dimensionstabellen (Stammdaten) und Faktentabellen (Bewegungsdaten -> werden durch Stammdaten beschrieben)
* Dynamische Sichten: Multidimensionale Sichten werden dynamisch erzeugt

32
Q

OLTP

A

Online Transactional Processing
* Unterstützt operatives Geschäft
* Verwendet aktuelle und detaillierte Daten
* Operationen: Anlegen, Lesen, Ändern, Löschen von Daten
* Eignet sich für tägliche Geschäftsprozesse

vs. OLAP:
* Unterstützt Analyse und Entscheidungsfindung
* Nutzt historische und aggregierte Daten
* Operationen: Multidimensionale Abfragen, ad hoc-Analysen
* Eignet sich für strategische Analysen und Berichte

33
Q

Vorteile ROLAP gegenüber MOLAP

A
  • Verwaltung großer Datenvolumina: ROLAP kann große Datenvolumina besser verwalten
  • Flexibilität bei der Dimensionenwahl: Bei ROLAP kann die Anzahl der Dimensionen flexibel gewählt werden
  • Know-How: In den meisten Unternehmen ist das Know-How über die Verwendung von ROLAP-Anwendungen vorhanden, während es bei MOLAP-Anwendungen oft fehlt
  • Robuste Technologie: ROLAP basiert auf einer robusten Technologie, die in den meisten Unternehmen verfügbar ist
  • Keine Vorberechnungen notwendig: ROLAP-Anwendungen greifen auf bestehende relationale Tabellen zu, während MOLAP-Anwendungen einen hohen Vorberechnungsaufwand erfordern
34
Q

Pivotierung/Rotation

A
  • Drehung des OLAP-Würfels um horizontale/ vertikale Achse
  • Ziel: Austausch der Dimensionen zur weiteren Analyse
  • Bsp: Wechsel von Betrachtung Kunde/Produkt zu Region/Produkt
  • Pivotierung: Nutzung von Pivottabellen zur Darstellung mehr als drei Dimensionen.
  • Rotation: führt dazu, dass neue Dimensionen in die Tabelle aufgenommen werden
35
Q

Roll-Up & Drill-Down

A
  • Roll-Up: Aggregation der Daten, höhere Hierarchieebene (z.B. Städte zu Regionen)
  • Drill-Down: Detaillierung der Daten, tiefere Hierarchieebene (z.B. Region X zu Städten)
     Zielabhängig: Roll-Up für Übersicht, Drill-Down für Details
36
Q

Slice & Dice

A
  • Filterung der Gesamtdatenmenge
  • Slice: Eine Dimension auf einen Wert reduzieren (eine Scheibe) – z.B. nur eine Region/ Produkt
  • Dice: Filterung der Datenmenge, Auswahl einzelner Blöcke; Fokussierung auf einen Teilausschnitt aus der Realität – z.B. Berücksichtigung von zwei Produkten, zwei Regionen, zwei Kunden  neu entstandener Datenwürfel als Ergebnis