Aktuelle Entwicklungen im Bereich von Data-Warehouse- Systemen Flashcards

1
Q

Was sind Aktuelle Entwicklungen im Bereich von DWH-Systemen?

A

Reduzierung der Ladelatenz
Reduzierung der Analyse-, Entscheidungs- und Umsetzungslatenz
MAP-Reduce: Verteiltes Speichern und paralleles Verarbeiten großer Datenmengen (am Beispiel Hadoop)
Einsatz von NoSQL-Datenbanksystemen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Worum geht es bei den aktuellen Entwicklungen?

A

Verringerung von Latenzzeiten: die Zeitverzögerung zwischen dem Eintreten eines Ereignisses und der zugehörigen Reaktion.

Automatisierung bestimmter Managementaufgaben durch das DWH-System.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Warum ist der Begriff Echtzeit ungeeignet?

A

In der Informatik verbindet man mit dem Begriff Echtzeit (Real Time) im Allgemeinen eine obere Zeitschranke, welche durch die Dauer eines gegebenen Vorgangs nicht überschritten wird.
Die absolute Zeitdauer ist dabei ohne Belang. Im Zusammenhang mit DWH-Systemen steht jedoch nicht diese Zeitschranke im Vordergrund, sondern vielmehr das Bestreben, Informationsverarbeitungsprozesse auch im Management zeitlich zu verkürzen und damit eine raschere Reaktion des Managements auf veränderte Gegebenheiten zu
ermöglichen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wie kann man den Zeitraum zwischen Eintreten eines Ereignisses und der zugehörigen Reaktion untergliedern?

A

Zeitabschnitte zwischen zwei benachbarten Ereigniszeitpunkten werden durch jeweils eine Latenzzeit bezeichnet.

Im Rahmen des DWH-Systems beeinflussbar ist zunächst die Ladelatenz, in einem erweiterten DWH Verständnis (Aktives DWH-System) werden auch die Analyse-, Entscheidungs- und Umsetzungslatenz beeinflusst

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welche Zeitabschnitte gibt es?

A

Ereignis ist eingetreten
Ereignis ist wahrgenommen (Wahrnehmungslatenz)
Ereignis ist im operativen System erfasst (Erfassungslatenz)
Ereignis ist im DWH geladen (Ladelatenz)
Ereignis ist analysiert (Analyselatenz)
Entscheidung ist getroffen (Entscheidungslatenz)
Maßnahme ist umgesetzt (Umsetzungslatenz)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist die Ladelatenz?

A

Die Ladelatenz bezeichnet die Zeitspanne zwischen der Erfassung des Ereignisses in der Datenbank des operativen Anwendungssystems bzw. der externen Datenquelle und der Bereitstellung im DWH

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist die Analyselatenz?

A

Die Analyselatenz wird durch die Zeitspanne zwischen der Bereitstellung eines entscheidungsrelevanten Datums im DWH und seiner Analyse durch das Management bestimmt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist die Entscheidungslatenz?

A

Die Entscheidungslatenz bezeichnet die Zeitspanne zwischen der Analyse des Datums und dem Treffen der zugehörigen Entscheidung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist die Umsetzungslatenz?

A

Die Umsetzungslatenz ist schließlich der Zeitabschnitt zwischen Entscheidung und Umsetzung der zugehörigen
Maßnahme durch das Management, sei es in Form von Zielvorgaben (Lenkungsziele) oder gestalterische Beeinflussung des Geschäftsprozesses (Gestaltungsziele)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist ein aktives DWH-System?

A

Werden die Verkürzung der Analyselatenz, der Entscheidungslatenz und der Umsetzungslatenz durch (Teil-) Automatisierung der entsprechenden Aufgaben durch das DWH-System erreicht, so wird dieses zu einem Aktiven DWH-System erweitert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wie kann man Maßnahmen zur Reduzierung der Ladelatenz unterteilen?

A

Zeitverzögerung beim Laden von Daten aus internen und externen Datenquellen

Zeitverzögerung bei der internen Aktualisierung des DWH unterschieden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was sind Maßnahmen zum reduzieren der Ladelatenz bei internen Datenquellen?

A
  • Zeitnahe, inkrementelle Extraktion der Daten aus internen Datenquellen (z.B. Nutzung von Triggerfunktionen)
  • Nutzung von Integrationsinfrastrukturen für die Kopplung von operativen Systemen und DWH-System
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind Maßnahmen zum reduzieren der Ladelatenz bei externen Datenquellen?

A
  • Pull-Prinzip: Erhöhung der Frequenz für die Übernahme externer Daten
  • Push-Prinzip: Nutzung einer selbsttägigen Versorgung mit geänderten externen Daten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sind Maßnahmen zum reduzieren der Ladelatenz bei internen Aktualisierungen?

A
  • Erhöhung der Frequenz für die interne Aktualisierung des DWH.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wie kann die Analyselatenz reduziert werden?

A
  • Aktive Benachrichtigung von Entscheidungsträgern über Veränderungen relevanter Daten
  • Aktive Versorgung von Entscheidungsträgern mit veränderten Daten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wie kann die Entscheidungslatenz reduziert werden?

A
  • Automatisierung von Entscheidungsaufgaben des Managements
17
Q

Wie kann die Umsetzungslatenz reduziert werden?

A
  • Automatische Weiterleitung von Lenkungszielen an die Anwendungssysteme der operativen GP-Lenkung
  • Automatische Umsetzung von Gestaltungszielen durch selbsttätige Anpassung von Geschäftsprozessen
18
Q

Was ist das MapReduce Verfahren?

A

MAP-Reduce: Verteiltes Speichern und paralleles Verarbeiten großer Datenmengen.

Das Problem der Partitionierung von Datenbeständen und ihrer isolierten Weiterverarbeitung folgt dem Prinzip des „Teile und Herrsche“ („Divide and Conquer“) und ist ein Grundprinzip der Bearbeitung von Big Data. Das Map-Reduce-Prinzip wird von verschiedenen Software-Bibliotheken unterstützt. Eine der bekanntesten ist Hadoop

19
Q

Wie funktioniert das Map Reduce Verfahren?

A

Map: Daten werden in kleinere Einheiten aufgeteilt und verteilt verarbeitet, um Schlüssel-Wert-Paare zu erstellen.

Shuffle & Sort: Die Paare werden nach Schlüsseln sortiert und gruppiert, um ähnliche Werte zusammenzuführen.

Reduce: Die gruppierten Werte werden zusammengeführt, um die endgültige Ausgabe zu erstellen.

20
Q

Was sind NoSQL Datenbanken?

A

alternative Ansätze zur Speicherung und Verwaltung von Daten bieten im Vergleich zu traditionellen relationalen Datenbanken (SQL-Datenbanken).

21
Q

Was sind Vorteile von NoSQL DB?

A
  • Dienen zur Speicherung von sehr großen Datenmengen („Big Data“), wie sie insbesondere im Umfeld von Web 2.0 vorkommen (Google, Facebook, Amazon, Yahoo, MySpace, LinkedIn, usw.).
  • Von Anfang an auf einfache Skalierbarkeit ausgerichtet.
  • Das System ist (nahezu) schemafrei.
  • Einfache API.
22
Q

Was sind Nachteile von NoSQL DB?

A
  • Derzeit keine Standardisierung absehbar.
  • „Der größte Nachteile von NoSQL-Datenbanken ist das Fehlen von SQL“.
  • Eingeschränkte Konsistenz (eventually consistent, BASE, nicht ACID).
23
Q

Was bedeutet Skalierbarkeit?

A

Ein System heißt (ideal) skalierbar, wenn seine Leistung mit dem Hinzufügen von Ressourcen in einem definierten Bereich proportional zunimmt.

24
Q

Was bedeutet eingeschränkte Konsistenz?

A

Das CAP-Theorem besagt, dass bei DBMS stets nur zwei
der folgenden drei Anforderungen maximierbar sind: Consistency (jeder Nutzer hat die gleiche Sicht auf die Daten), Availability (jeder Nutzer kann immer Daten lesen und schreiben) und Partition tolerance (das System arbeitet auf physisch verteilten Netzwerken, bei denen Knoten ausfallen können). Während relationale DBMS CA-Systeme
darstellen, lassen sich NoSQL-Systeme im Allgemeinen entweder als CP- oder AP-Systeme klassifizieren.

Dies führt zu dem gegenüber dem ACID-Prinzip eingeschränkten Transaktionskonzept BASE (Basically Available, Soft-state, Eventually consistent).

25
Q

Was ist Big Data?

A

Aus heutiger Sicht spricht man von Big Data, sobald eine kleine Anzahl von Terabyte (10^12) erreicht ist.

26
Q

Was sind Eigenschaften von Big Data?

A
  • Die Daten sind auf mehrere Speichereinheiten verteilt.
  • Klassische Datensicherung ist nicht mehr realisierbar.
  • Traditionelle rDBMS kommen an ihre Leistungsgrenzen. Das hängt u.a. mit dem Schichtenmodell von rDBMS zusammen, das alle Daten durchlaufen müssen (Mengenschnittstelle  externe Satzschnittstelle  interne Satzschnittstelle  Segmentschnittstelle  Dateisystem des Betriebssystems).
27
Q

Was sind Klassen von NoSQL DB?

A

Sortiert angeordnete spaltenorientierte Datenbanken
Key/Value-Datenbanken
Dokumentdatenbanken
Graphdatenbanken

28
Q

Welche Klassen von NoSQL DB gibt es?

A

Sortiert angeordnete spaltenorientierte Datenbanken

Key/Value-Datenbanken

Dokumentdatenbanken

Graphdatenbanken

29
Q

Was sind Sortiert angeordnete spaltenorientierte Datenbanken?

A

Im Gegensatz zu relationalen Datenbanksystemen sind die Daten spaltenorientiert angeordnet. Jede Datenbank stellt eine Menge von (Schlüssel, Wert)-Paaren dar, die nach ihrem Primärschlüssel sortiert gespeichert ist.

Der Wert umfasst eine variable Anzahl an Paaren aus Spaltenname (Schemaebene) und zugehörigem Datenelement (Ausprägungsebene). Gemeinsam behandelte Spalten werden dabei zu einer Spaltenfamilie zusammengefasst. Wegen der variablen Anzahl von Paaren je Zeile werden Null-Werte unterdrückt.

Beispiele sind Bigtable (Google), HBase (Apache), Cassandra (Facebook) und SimpleDB (Amazon).

30
Q

Was sind Key/Value-Datenbanken?

A

Die Datenbank besteht aus (Schlüssel, Wert)-Paaren.

Die Schlüssel können meist in Namensräume und Datenbanken aufgeteilt werden. Die Werte sind nicht nur Zeichenketten welche die zu speichernden Daten beinhalten, sondern können auch Hashtabellen, Sets oder Listen für den Zugriff auf Daten sein.

Beispiele sind Berkeley DB (Oracle) und Chordless

31
Q

Was sind Dokumentdatenbanken?

A

Strukturierte Datensammlungen (JSON, YAML, RDF, XML) werden zusammen mit einer ID abgelegt. Document Stores behandeln ein Dokument als Ganzes und vermeiden damit seine Zersplitterung.

Beispiele sind CouchDB (Apache) und MongoDB.

32
Q

Was sind Graphdatenbanken?

A

Die Datenbank besteht aus Graphen oder Bäumen, deren Knoten Entitäten und deren Kanten Beziehungen darstellen. Knoten und Kanten können durch Eigenschaften näher beschrieben werden.

Beispiele sind Neo4j und FlockDB. Es fällt der Bezug zu XML-Datenbanken (siehe SQL 2006 und SQL 2008) aus dem Bereich der relationalen Datenbanksysteme auf

33
Q

Welche Technologien werden e aus derzeitiger Sicht für DWH-Systeme kombiniert?

A

In-Memory-Technik

Spaltenorientierung

34
Q

Was ist In-Memory-Technik?

A
  • Die Datenbank befindet sich vollständig im Arbeitsspeicher.
  • Spezielle Kompressionsalgorithmen finden Anwendung.
  • Die Verarbeitungsgeschwindigkeit entsteht durch eine Kombination zwischen aufeinander abgestimmter Hardware und Software.
35
Q

Was ist Spaltenorientierung?

A
  • Im Gegensatz zu den zeilenorientierten relationalen Datenbanken sind die Datenbanken spaltenorientiert aufgebaut.
  • Die Datenbank besteht aus Zeilen, die einheitlich nach dem Schema (rowkey, columns) aufgebaut sind.
  • Jede Zeile umfasst eine beliebige Teilmenge von Spalten
  • Die Menge der Zeilen stellt somit eine Spaltenfamilie dar.
36
Q

Was ist eine Spaltenfamilie?

A

Die Definition, was eine Spaltenfamilie ist, erfolgt bei den einzelnen spaltenorientierten Datenbanken sehr unterschiedlich. Im Umfeld von Bigtable (Google) beschriebt der Begriff Spaltenfamilie ein Konzept zur logischen Gruppierung zusammengehöriger Spalten. Diese
Gruppierung kann auch innerhalb einer Zeile erfolgen. Auf dieser Basis werden in Bigtable die Skalierbarkeit und die Zugriffskontrolle realisiert.