Datenmanagement Flashcards

1
Q

Was ist XML?

A
  • XML: Extensible Markup Language
  • Auszeichnungssprache
  • Metasprache zur Definition von Dokumenten und Daten
  • Syntax zum Strukturieren von Dokumenten und Daten
  • strukturierte Repräsentation und den Austausch von Informationen (Integration)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind die Charakteristiken von XML?

A
  • einfach(intuitive Darstellung)
  • erweiterbar(generische Syntax, Zusatz-Standards nutzen diese Syntax)
  • standardisiert(weit verbreitet, Standard Tool)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie ist die Syntax von XML?

A
  • hierarchische Schachtelung von Beginn- und End-Tags
  • je XML Dokument genau ein Root-Element
  • Groß-/Kleinschreibung relevant
  • Attributwerte müssen mit Anführungsstrichen eingeschlossen sien
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche Dokumenttypen gibt es bei XML?

A

Einhaltung der XML-Syntax:
-well formed XML Dokument

Wohlgeformt und konformes Exemplar eines Dokumenttyps:
-valid XML Dokument

Metasprachliche Festlegung von Dokumenttypen:
-XSD: XML Schema Definition

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was wird im XSD-Dokument definiert?

A
  • Aufbau eines XML-Dokuments wird definiert
  • beschreibt die Struktur der XML-Dokumente
  • XSD ist die 1. Meta Ebene, umfasst die Definition von Datenstrukturen und die Typisierung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie werden Elemente definiert mit XSD für XML-Dokumente?

A
  • Mit Hilfe des Tags.

- jedes Element enthält einen Namen und einfachen Datentyp

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wie werden Attribute definiert mit XSD für XML-Dokumente?

A

Mit Attribut Tag.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind Complex Type Elemente bei XSD?

A
  • Complex Type Elemente können weitere Elemente und Attribute enthalten
  • mehrere Einträge möglich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist die Motivation für andere, nicht relationale DB-Technologien?

A
  • Bedeutung von Information wächst
  • mit Verdopplung von Informationen innerhalb weniger Jahren wird gerechnet
  • Ablage in Papierform nicht effizient
  • Daten und Informationen in unterschiedlichen Formaten
  • Verteilung der Daten auf mehrere Systeme notwendig/sinnvoll
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welches Prinzip wird bei relationalen DB verfolgt?

A
  • das ACID-Prinzip

- Atomicity, Consistency, Isolation und Durability müssen erfüllt sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welches Prinzip wäre bei verteilten DB Systemen ein alternativer Ansatz?

A
  • BASE-Prinzip
  • Basically Available, Soft State, Eventually Consistent
  • Konsistenz wird der Verfügbarkeit untergeordnet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist das CAP-Theorem von Eric Brewer?

A

Consistency:
-alle Clients sehen zur selben Zeit die selben Daten

Availabilty:
-Ausfall eines Clienten hindert restliche Clients nicht am Weiterarbeiten

Partition Tolerance:
-verteiltes System arbeitet trotz zufälliger Verluste von Nachrichten fehlerfrei weiter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind die Eigenschaften vom CAP-Theorem?

A
  • jedes verteilte System erfüllt zwei der CAP-Anforderungen gleichzeitig
  • wenn die DB verteilt ist und die Partitionstoleranz gegeben ist, behinder die Konsistenz die Verfügbarkeit
  • bei hoher Verfügbarkeit kann Konsistenz nicht gewährleistet sein
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sind NoSQL-Datenbanken?

A
  • besitzen im Gegensatz zu relationalen DB kein festes Schema
  • sind auf verteilte Systeme ausgerichtet, ermöglicht horizontal skalierbare und strukturierbare Datenspeicher
  • es können viele, kostengünstige Rechner für Speicherung verwendet werden
  • Performance Steigerung durch den Einsatz mehrerer Server
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Welche 4 Kategorien von NoSQL-DB gibt es?

A
  1. Key-Value Paare
  2. Dokumentenorientierte DB
  3. Spaltenorientierte DB
  4. Graphenorientierte DB
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was bedeutet die Kategorie Key-Value Paare bei NoSQL-DB?

A
  • Die Elemente werden über eindeutige Keys referenziert

- Diese Key werden zusammen mit den Pointern in einer Hastable gespeichert

17
Q

Was bedeutet die Kategorie Dokumentenorientierte DB bei NoSQL-DB?

A
  • Daten werden in Dokumenten gespeichert
  • Ein Dokument beinhaltet Daten, die üblicherweide in einer Abfrage abgefragt werden
  • Dokument besitzt kein Schema
  • Dokument besitzt einen Key, über den das Dokument aufgerufen werden kann
18
Q

Was bedeutet die Kategorie Spaltenorientierte Datenbanken bei NoSQL-DB?

A
  • Famielen/Gruppen von Spalten werden definiert, die zusammen betrachtet werden.
  • Bündel von Daten, wie z.B. Name und Adresse eines Kunden oder Liste von Bestellungen
  • eignet sich sehr gut für Verteilung von Daten
  • Änderungen der Struktur der Gruppierungen problematisch
19
Q

Was bedeutet die Kategorie Graphenorientierte DB bei NoSQL-DB?

A
  • Speicherung von Daten in Knoten von Graphen

- Herstellen von Beziehungen zwischen den Knoten

20
Q

Was ist Big Data?

A

High Volume, High Velocity and high variety information assets that demand cost-effective, innovative fors of informations processing for enhanced insight and decision making.

21
Q

Was sind die 3 V`s von Big Date?

A

Volume:
-Verarbeitung großer Datenmengen mit dem Ziel, bestimmte Fragestellungen effizient zu lösen

Velocity:
-Daten ändern sich mit hoher Geschwindigkeit, muss regelmäßig aktualisiert werden

Variety:
-Verarbeitung von Daten aus unterschiedlichen Quellen, die in unterschiedlichen Formaten vorliegen

22
Q

Welche zusätzlichen V`s hat Big Data?

A

Viability:
-Brauchbarkeit, Extraktion von Strukturen, Beziehungen und Informationen zur Entscheidungsunterstützung aus großer Datenmenge

Value:
-Information müssen Wertschöpfung dienen, Entscheidungsunterstützung dienen

23
Q

Was ist MapReduce?

A
  • von Google entwickeltes Programmiermodell zur parallelen Verarbeitung von großen Datenbeständen
  • Verarbeitung unstrukturierte oder semi-strukturierte Daten
  • nutzt verteilte Speicherung der Daten in Blöcken
  • Aufteilung der Berechnungen auf mehrere Rechner
  • nach Berechnung aggregiert das Framework die Ergebnisse
24
Q

Was sind Vorteile von MapReduce?

A
  • Entwickler müssen nur das Framework nutzen, keine Codeänderungen bei Änderung der Anzahl von Clients nötig
  • Verwendung normaler Computer möglich
  • keine Notwendigkeit für spezielle High-End Server
  • Skalierbarkeit
  • hohe Fehlertoleranz
  • hohe Ausfallsicherheit
25
Q

Welche Phasen hat MapReduce?

A
  1. Splitting
    - Datenmenge auf mehrere Teile aufteilen
  2. Mapping
    - zu jedem Element wird neues Key Value Paar erstellt
    - Output: Liste mit neuen Key Value Paaren
  3. Reducing
    - Input Key Value Paare
    - Aggregation der Listenwerte nach Key
    - Ergebnis: list
26
Q

Wie ist der Vergleich zwischen MapReduce und relationalen DBS?

A

MapReduce:

  • für Batch Verarbeitung von Daten
  • unstrukturierte Daten
  • nicht-normalisierte Daten
  • Petabytes
  • einmaliges Schreiben, vielfaches Lesen
  • dynamische Struktur
  • geringe Integrität
  • linear skalierbar

Relationale DBS:

  • gezielte Abfragen
  • strukturierte Daten
  • normalisierte Daten
  • Gigabytes
  • Interaktive und Batch Zugriff
  • statisches Schema
  • hohe Integrität
  • nicht linear skalierbar
27
Q

Was ist Hadoop?

A
  • Open Source Framework von Apache

- dient der parallelen Speicherung und Verarbeitung von großen Datenmengen in verteilten Anwendungssystemen

28
Q

Was sind die Eigenschaften von Hadoop?

A
  • Redundanz, dadurch hohe Ausfallsicherheit
  • Skalierbar, lineare Skalierbarkeit wird durch Master-Slave”Shared Nothing” Konzept erreicht
  • Fehlertoleranz: Wiederherstellungspunkte und Änderungsdokumentationen
29
Q

Was sind die Kernkomponenten von Hadoop?

A
  • Zookeeper(Koordination des Clusters)
  • HBase(Key-value-store)
  • HDFS(Datenspeicherung)
  • MapReduce(Datenverarbeitung)
  • Avro(RPC- und Serialisierungs-Framework)
30
Q

Wie ist HDFS von Hadoop aufgebaut?

A

Name node(nur Master):

  • Metadaten der Dateien
  • Zuordnung von Dateiblöcken zu Dateien
  • zuständig für alle Änderungen an Daten und Verzeichnissen

Data node:

  • beinhaltet die Daten
  • aufgeteilt in mehreren Dateiblöcken
  • jeder Dateblock n-mal repliziert
31
Q

Wie ist die MapReduce Engine von Hadoop aufgebaut?

A

Job Tracker(nur Master):

  • erhält Job vom Client
  • bestimmt Anzahl der Tasks
  • bestimmt, welcher Rechnerknoten welche Task ausführt

Task Tracker:

  • erhält Tasks vom Job Tracker
  • Ausführung des Tasks
  • Status Update an den Job Tracker
32
Q

Was sind Vorteile von NoSQL Datenbanken?

A
  • Datenreplikation einfach möglich
  • einfache API (Programmierschnittstelle)
  • Open Source Projekte verfügbar