Aktuelle Entwicklungen im Bereich von Data-Warehouse- Systemen Flashcards
Was sind Aktuelle Entwicklungen im Bereich von DWH-Systemen?
Reduzierung der Ladelatenz
Reduzierung der Analyse-, Entscheidungs- und Umsetzungslatenz
MAP-Reduce: Verteiltes Speichern und paralleles Verarbeiten großer Datenmengen (am Beispiel Hadoop)
Einsatz von NoSQL-Datenbanksystemen
Worum geht es bei den aktuellen Entwicklungen?
Verringerung von Latenzzeiten: die Zeitverzögerung zwischen dem Eintreten eines Ereignisses und der zugehörigen Reaktion.
Automatisierung bestimmter Managementaufgaben durch das DWH-System.
Warum ist der Begriff Echtzeit ungeeignet?
In der Informatik verbindet man mit dem Begriff Echtzeit (Real Time) im Allgemeinen eine obere Zeitschranke, welche durch die Dauer eines gegebenen Vorgangs nicht überschritten wird.
Die absolute Zeitdauer ist dabei ohne Belang. Im Zusammenhang mit DWH-Systemen steht jedoch nicht diese Zeitschranke im Vordergrund, sondern vielmehr das Bestreben, Informationsverarbeitungsprozesse auch im Management zeitlich zu verkürzen und damit eine raschere Reaktion des Managements auf veränderte Gegebenheiten zu
ermöglichen
Wie kann man den Zeitraum zwischen Eintreten eines Ereignisses und der zugehörigen Reaktion untergliedern?
Zeitabschnitte zwischen zwei benachbarten Ereigniszeitpunkten werden durch jeweils eine Latenzzeit bezeichnet.
Im Rahmen des DWH-Systems beeinflussbar ist zunächst die Ladelatenz, in einem erweiterten DWH Verständnis (Aktives DWH-System) werden auch die Analyse-, Entscheidungs- und Umsetzungslatenz beeinflusst
Welche Zeitabschnitte gibt es?
Ereignis ist eingetreten
Ereignis ist wahrgenommen (Wahrnehmungslatenz)
Ereignis ist im operativen System erfasst (Erfassungslatenz)
Ereignis ist im DWH geladen (Ladelatenz)
Ereignis ist analysiert (Analyselatenz)
Entscheidung ist getroffen (Entscheidungslatenz)
Maßnahme ist umgesetzt (Umsetzungslatenz)
Was ist die Ladelatenz?
Die Ladelatenz bezeichnet die Zeitspanne zwischen der Erfassung des Ereignisses in der Datenbank des operativen Anwendungssystems bzw. der externen Datenquelle und der Bereitstellung im DWH
Was ist die Analyselatenz?
Die Analyselatenz wird durch die Zeitspanne zwischen der Bereitstellung eines entscheidungsrelevanten Datums im DWH und seiner Analyse durch das Management bestimmt
Was ist die Entscheidungslatenz?
Die Entscheidungslatenz bezeichnet die Zeitspanne zwischen der Analyse des Datums und dem Treffen der zugehörigen Entscheidung
Was ist die Umsetzungslatenz?
Die Umsetzungslatenz ist schließlich der Zeitabschnitt zwischen Entscheidung und Umsetzung der zugehörigen
Maßnahme durch das Management, sei es in Form von Zielvorgaben (Lenkungsziele) oder gestalterische Beeinflussung des Geschäftsprozesses (Gestaltungsziele)
Was ist ein aktives DWH-System?
Werden die Verkürzung der Analyselatenz, der Entscheidungslatenz und der Umsetzungslatenz durch (Teil-) Automatisierung der entsprechenden Aufgaben durch das DWH-System erreicht, so wird dieses zu einem Aktiven DWH-System erweitert.
Wie kann man Maßnahmen zur Reduzierung der Ladelatenz unterteilen?
Zeitverzögerung beim Laden von Daten aus internen und externen Datenquellen
Zeitverzögerung bei der internen Aktualisierung des DWH unterschieden.
Was sind Maßnahmen zum reduzieren der Ladelatenz bei internen Datenquellen?
- Zeitnahe, inkrementelle Extraktion der Daten aus internen Datenquellen (z.B. Nutzung von Triggerfunktionen)
- Nutzung von Integrationsinfrastrukturen für die Kopplung von operativen Systemen und DWH-System
Was sind Maßnahmen zum reduzieren der Ladelatenz bei externen Datenquellen?
- Pull-Prinzip: Erhöhung der Frequenz für die Übernahme externer Daten
- Push-Prinzip: Nutzung einer selbsttägigen Versorgung mit geänderten externen Daten
Was sind Maßnahmen zum reduzieren der Ladelatenz bei internen Aktualisierungen?
- Erhöhung der Frequenz für die interne Aktualisierung des DWH.
Wie kann die Analyselatenz reduziert werden?
- Aktive Benachrichtigung von Entscheidungsträgern über Veränderungen relevanter Daten
- Aktive Versorgung von Entscheidungsträgern mit veränderten Daten
Wie kann die Entscheidungslatenz reduziert werden?
- Automatisierung von Entscheidungsaufgaben des Managements
Wie kann die Umsetzungslatenz reduziert werden?
- Automatische Weiterleitung von Lenkungszielen an die Anwendungssysteme der operativen GP-Lenkung
- Automatische Umsetzung von Gestaltungszielen durch selbsttätige Anpassung von Geschäftsprozessen
Was ist das MapReduce Verfahren?
MAP-Reduce: Verteiltes Speichern und paralleles Verarbeiten großer Datenmengen.
Das Problem der Partitionierung von Datenbeständen und ihrer isolierten Weiterverarbeitung folgt dem Prinzip des „Teile und Herrsche“ („Divide and Conquer“) und ist ein Grundprinzip der Bearbeitung von Big Data. Das Map-Reduce-Prinzip wird von verschiedenen Software-Bibliotheken unterstützt. Eine der bekanntesten ist Hadoop
Wie funktioniert das Map Reduce Verfahren?
Map: Daten werden in kleinere Einheiten aufgeteilt und verteilt verarbeitet, um Schlüssel-Wert-Paare zu erstellen.
Shuffle & Sort: Die Paare werden nach Schlüsseln sortiert und gruppiert, um ähnliche Werte zusammenzuführen.
Reduce: Die gruppierten Werte werden zusammengeführt, um die endgültige Ausgabe zu erstellen.
Was sind NoSQL Datenbanken?
alternative Ansätze zur Speicherung und Verwaltung von Daten bieten im Vergleich zu traditionellen relationalen Datenbanken (SQL-Datenbanken).
Was sind Vorteile von NoSQL DB?
- Dienen zur Speicherung von sehr großen Datenmengen („Big Data“), wie sie insbesondere im Umfeld von Web 2.0 vorkommen (Google, Facebook, Amazon, Yahoo, MySpace, LinkedIn, usw.).
- Von Anfang an auf einfache Skalierbarkeit ausgerichtet.
- Das System ist (nahezu) schemafrei.
- Einfache API.
Was sind Nachteile von NoSQL DB?
- Derzeit keine Standardisierung absehbar.
- „Der größte Nachteile von NoSQL-Datenbanken ist das Fehlen von SQL“.
- Eingeschränkte Konsistenz (eventually consistent, BASE, nicht ACID).
Was bedeutet Skalierbarkeit?
Ein System heißt (ideal) skalierbar, wenn seine Leistung mit dem Hinzufügen von Ressourcen in einem definierten Bereich proportional zunimmt.
Was bedeutet eingeschränkte Konsistenz?
Das CAP-Theorem besagt, dass bei DBMS stets nur zwei
der folgenden drei Anforderungen maximierbar sind: Consistency (jeder Nutzer hat die gleiche Sicht auf die Daten), Availability (jeder Nutzer kann immer Daten lesen und schreiben) und Partition tolerance (das System arbeitet auf physisch verteilten Netzwerken, bei denen Knoten ausfallen können). Während relationale DBMS CA-Systeme
darstellen, lassen sich NoSQL-Systeme im Allgemeinen entweder als CP- oder AP-Systeme klassifizieren.
Dies führt zu dem gegenüber dem ACID-Prinzip eingeschränkten Transaktionskonzept BASE (Basically Available, Soft-state, Eventually consistent).