Prüfungsfragen aus Protkollen [Ausstehend] Flashcards

Question

Wie können wir das Beispiel abändern damit es kein Problem mit der Negation gibt?

Answer 1

-Q(X) aus P(X) entfernen! Ausführung siehe Bild

Answer 2

Voraussetzung: Ein Abhänigkeitsgraph ohne Zykel, die Negation enthalten! Bei Zykeln mit Negation kommt der Algorithmus nicht zur Ausführung! ⇒ D.h. Programm nicht stratifizierbar und so nicht ausführbar ALSO: 1. Abhängigkeitsgraph aufstellen und auf Zykel prüfen/ ggf. Abbruch siehe oben! 2. Alle Knoten die eine ausgehende Kante mit Negation haben weglassen 3. Alle Knoten, die von den eben gelöschten Knoten abhängen ebenfalls entfernen 4. Der Rest, der übrig bleibt ist unser Stratum 0, welches zuerst berechnet werden muss 5. Stratum 1 sind dann die gelöschen Lösung im Bild

Answer 3

Sogenannte Zentralitätsmaße können folgendes Messen: * **Shortest Path**: „What is my closest connection to Barack Obama on Facebook?“ * „Welcher DBE Student hat die **meisten** Facebook-**Freunde**?“ * „Wie viele Freunde haben DBE Studenten auf Facebook im Durchschnitt?“ * „Welche Teilnehmer sind wichtig oder **einflussreich**?“ * „Welche Teilnehmer sind (in irgendeiner Weise) **auffällig**?“ * „Gibt es Gruppen ähnlicher Teilnehmer?“

Answer 4

Lösung --\> Bild

Answer 5

Informell: Wie oft ich (als Knoten) zwischen anderen Knoten bin A und B besprechen was, aber C (ich) liegt zwischen beiden. Also bekommt C mit was besprochen wird "haha". Aus sich von C ist das gut Angenommen aber es gibt viele Pfade von A nach B und nur ein Pfad geht dabei über C. Naja dann ist die Betweenes Centrality von C "nicht so toll" Gibt es nur einen Pfad, des dann auch über C führt ist das "das beste" ALSO: Beschreibt nicht Erreichbarkeit, sondern eher Informiertheit!

Answer 6

(\*mP) Sternförmiger Graph --\> Hub bzw Triad?! Bei Proximity Prestige war es der Stern (Hub) und hier auch?! Was ist der Unterschied? Naja wenn nur ein Pfad von vielen zwischen j und k über mich (i) führt ist BC minimal

Answer 7

Maß aus der Kategorie Distanz-basiert: Idee: Wie gut ein Knoten von den anderen Knoten im Graph erreichbar ist Erreichbarkeit (zweierlei) (1) Es gibt von vielen anderen Knoten des Graphen einen Pfad zu mir, besser als von wenigen Knoten ein Pfad zu mir ALSO: Von wie vielen Knoten kann ich über einen Pfad zu mir kommen (2) Wie lang sind diese Pfade? Kurze Pfade sind besser * *Zähler:** Anzahl der anderen Knoten die mich erreichen durch alle Knoten im Graph (Relative Größe der Influence Domain) * *Nenner:** Durchschnittliche **kürzeste-**Pfadlänge zu mir! (\*mP) maximal wenn --\> hub-artiger Graph = ich in der Mitte und von allen anderen Knoten gibt es eine Kante zu mir minimal wenn --\> Ii (Influence Domain) = leer also 0, durch 0 teilen gibt 0 BZW. Ii klein und Pfade lang

Answer 8

Es gibt beim Hub mit außenverbindungen weitere kürzeste wege, die nicht durch i führen (mittlerer Knoten) Jedoch hat dieser Graph kein negativen Einfluss auf Proximity Prestige

Answer 9

Also: erst Zentralitätsberechnung und dann darauf aufbauen weitere Berechungen Oder aber anders herum! Bsp --\> LinkedIn (FrauenGraph) ALSO: Welche Frauen nutzen hauptsächlich Männer um sich zu vernetzen vs. welche Frauen sind hauptsächlich auf ihr Frauennetzwerk gestützt? Unterschied zu vorhin --\> erst Graph A´ konstruiert (onlyFrauenGraph) und dann Zentralität berechnet Unten --\> (1) Berechnung (2) Zentralität Oben umgekert --\> (1) Zentralität (2) weitere Berechnung --\> Worauf will Böhm hinaus: Zentalitätsmaß sollte elementares Konstrukt bei der Anfrage sein und lässt sich an beliebiger Stelle einsetzen --\> Also aus 2 schritten einen machen! Beobachtung: Standard-Operatoren der RA nicht ausreichend zum formulieren der behavior-based trust policies. Zusätzliche Operatoren erforderlich. Berechnung direkt mit Zentralitäts Operator möglich --\> Beispeil entwickelter CENTRALITY Operator

Answer 10

Es ist grundsätzlich nicht erlaubt, auf Grund der nicht-Monotonizität! s kann zu Oszillation kommen!

Answer 11

Meine Antwort: Es kommt darauf an (1) Negatrion an min. 1 Stelle im Zykel: Programm nicht stratifizierbar! --\> nicht ausführbares Programm, sofern Negation, oder Zykel nicht entfent wird (2) Negation nicht im Zykel: Das Programm kann durch Stratifikation in eine ausfühbare Reihenfolge gebracht werden. Negation erst zum Schluss berechnen, wenn alle dafür notwendigen Relationen berechnet sind (Stratum0 (erst vollständig berechnen)/ Stratum 1 (Negation berechnen)) Also: Ein Stratum muss vor dem nächsten Stratum vollständig berechnet sein!

Answer 12

Nicht direkt, aber wir haben den Mengendifferenz Operator, der der Negation entpricht: Datalog: P(X) :- R(X), -Q(X) rel Algebra: R(X) - Q(X) bzw. R(X)\Q(X)

Answer 13

Relationale Algebra und Datalog sind unvergleichbar, d. h. Datalog hat Rekursion und relationale Algebra die Mengendifferenz. Man kann hier keine Aussage treffen was nun besser ist! Was man sagen kann ist, dass die Schnittmenge von RA und Datalog: ALSO: Datalog ohne Rekursion == relationale Algebra ohne diff-Operator. gleich wäre! Siehe Tonspur!

Answer 14

Aggregation kann zu Nicht-Monotonizität führen! Das **Überschreiben** durch die Aggregation (Summe) ist das Problem, es verletzt die monotonizität Eigeschaft (Es wird was rausgenommen und ersetzt).

Answer 15

am besten anhand eines Zahlenbeispiels erklären ⇒ Hier würde man durch Negation alle Zahlen/Werte, die nicht in R sind definieren würde (Hinweis: Darum Negation grundsätzlich nicht in Datalog erlaubt) ⇒ X wäre ein Tupel mit einer NUll (0) ⇒ Dann würden unendlich viele Zahlen in S(X) erzeugt, die eben nicht 0 sind!

Answer 16

1. monoton := Vergrößerung des Inputs (einer Anfrage/eines Operators) verkleinert nicht den Output. 2. Mengendifferenz 3. Ja, Datalog ist monoton. (Keine Negation in Rümpfen von Regeln erlaubt.) Beispiele siehe Tonspur

Answer 17

1. Vertex-centric (Giraph Framework)⇒ (machen im moment alle (2016)) 2. Graph-centric (Giraph++ Framework) 1. Vorteil ⇒ bessere Performance (da auf verteilten Rechnern) 2. Nachteil ⇒ Partitionierung muss vom Programmierer berücksichtigt werden. D.h ⇒ Mehr intelektueller Aufwand nötig für eigenen Code Giraph = Einfache Verarbeitungsmodell == Knotenorientierte VerMod (von Google) (1)**Partitionierung der Menge der Knoten** des Graphen, zwecks Parallelisierung * (2)Folge von **Iterationen, sogenannte supersteps, parallel**. * Ausführung einer Funktion **compute(),** anwendungsspezifisch und **vom Anwender** zu schreiben für **jeden Knoten.** * Es stehen graphspezifische Methoden (**Interface**) zu Verfügung, die in **compute()** verwendet werden können, * **Synchronisation** am Ende jedes Schritts. D.h. **Nach compute()** werden an **direkte Nachbarn** des Knoten **Nachrichten** gesendet und am Anfang des nächsten Schritts stehen diese Nachrichten der Funktion compute() zur Verfügung und werden verarbeitet * (3).Ausgabe des Ergebnisses. Giraph++ == Partitionsbasierte Verarbeitungsmodell Hier hingegen: **Nicht einzelne Knoten, sondern Teilgraphen (Partitionen)** ⇒ Compute für Teilgraphen. * Knoten werden **partitioniert UND** noch es gibt noch eine **Kopie (secondary copy)** der Knoten, die mit einer **ausgehenden Kante** mit einer **anderen Partition** verknüpft sind * Außerdem werden Zusammenhängende Knoten einer Partition sogleich im 0. Schritt mit d**em Minimum der Partition ausgestattet,** da ein Algo die zusammenhängenden Teilgraphen ausmacht und die Informationen schonmal an den Teilgraph verteilet! * **secondary** copy gehören **zur hiesigen**(ausgehenden) Partition und **primary** copy zur "**echten**"(ziel) Partition) * Besonderheit: Sammeln der eingehenden werte durch second copy´s an einer Partition in einer Tabelle und das anpassen der gesamten Partition auf einmal in dem das Minimum der Tabelle genommen wird! ⇒Vorteil = schneller als bisheriges durch den Graph diffundieren * ⇒ Vorteil: Nachrichtenaustausch geringer **Kommunikation nur noch zwischen Partitionen**. Von einer **secondary copy zur primary copy** des Knotens der "echten" Partition * ⇒Nachteil: Implementierung der Graph-Algorithmen durch Anwender muss Partitionierungen angemessen berücksichtigen.

Answer 18

Es können Knoten und Kanten übrig bleiben! ?? Bei Negation in Zykeln würde der Algo eh nicht ausgeführt ??

Answer 19

1. Typsystem: 1. Programmiersprachen --\> nicht relevant hier 2. Hier ⇒ Menge von Typen und Festlegung ihres Zusammenspiels, also welche Operationen es gibt um Instanzen eines Typs in einen anderen zu überführen 2. Das nämlich gesagt wird, welche Zustände zulässig sind.

Answer 20

Darstellung von z.B.: ``` #Soziale Netzwerke (SN), #Web Graphen, #Chemische (Struktur-) Formeln, #(Schematische) Karten (Netzpläne), #Prozess- und Programmausführungen. ```

Answer 21

Je eine Relation für Knoten (V) und Kanten (E). 1. Personen(Person,Attr1, Attr2, ...) 2. Beziehung(Person, Person, "Freundschaft") Knoten und Kanten können beliebige Attribute haben Falls unterschiedliche Knoten oder Kantentypen ⇒ Knackpunkte: * SQL stößt bei relevanten Informationsbedürfnissen an seine Grenzen. * Zentralitätsmaße (Wie beliebt/vernetzt etc. ist jmd.) * Oft Rekursion nötig (Über viele Kanten navigieren) * Anfrageverarbeitung wäre nicht effizient!

Answer 22

Graph-centric (Giraph++ Framework) Vorteil ⇒ bessere Performance (da auf verteilten Rechnern) Vorteil ⇒ Nachrichtenaustausch geringer Kommunikation nur noch zwischen Partitionen. Nachteil ⇒ Mehr intelektueller Aufwand nötig für eigenen Code

Answer 23

Bild und Ton!

Answer 24

(1) * PageRank – Kann als **Reputation oder Wichtigkeit** interpretiert werden. Kante steht für ‚recommendation‘, ‚positive mention‘, etc…. * Intuition: Für Knoten **ohne** eingehende Kanten, **PR ist minimal**. * Wird ein Knoten von anderem Knoten mit hoher Reputation referenziert, erhöht sich dessen Reputation. * Wird mit hoher Reputation **exklusiv** referenziert, erhöht sich die Reputation schneller. * Formel rekursiv: PR anderer Knoten geht in PRi ein! Salopp: wenn viele angesehene Knoten auf mich verweisen, ist das gut! (2) Es gibt nun ggf. Knoten, auf die keiner verweiset. Um dem Rechnung zu tragen gibt es den 1. Summanden. d = damping factor (orft um 0.9) naja auch Knoten, auf die keiner verweist sollen einen minimalen PR bekommen. Wert von 0 für Knoten auf die keiner verweist würde Berechnungen schwierig machen! Also: alle Knoten haben einen pos. PageRank

Answer 25

Schema-Evolution in Verbindung mit Sparsity Zum Beispiel Produktdaten bei Elektronikbauteilen 2000 Produktkategorien, insgesamt \> 5000 Attribute über alle Kategorien * Schema-Evolution ⇒ Anpassung des Datenbank-Schemas, während Datenbank bereits operational ist (Aufwändig) * Sprasity ⇒ Relation ist ‚dünn besetzt‘, viele NULL-Werte (Speichervergeudung) Bsp: //ständig neue Teile - mit neuen Attributen//manche Hersteller haben Attribute als "Alleinstellungsmerkmal". Andere haben dieses A. nicht, daher haben sie dort NULL-Werte Auch bei Anfragen muss man bei Sparsity viele Seiten Laden --\> Effizienz leidet == diese Schema-Evolution ist aufwändig und Sparsity ist störend

Answer 26

Physische Speicherung folgendermaßen! (Logische sicht bleibt Horizontal) 1. Logische horizontale Sicht auf vertikale Repräsentation (oder Binär = collum store) 2. Lösung: unterschiedliche vertikale Relationen pro Typ!

Answer 27

Tupel mit nur NULL-Werten grundsätzlich zulässig (pathologischer Fall) ⇒Vertikal: immer nur ein Tupel vorhanden, wenn auch ein Wert für ein Attribut vorhanden ist! Sprich das Tupel würde nicht repräsentiert werden! 1. **Es würde nicht** in der vertikalen Darstellung **repräsentiert.** **Aber:In diesem Ausnahmefall** lassen wir ein Eintrag in der relation vertikal zu, indem OID vorhanden ist es für Key und Value aber NULL-Werte besitzt 2. Wir können es in einer seperaten Relation speichern (nur für diese Fälle) 1. Das generischste, das es gibt, also das, welches am meisten umfasst!

Answer 28

1. **High Order View** ⇒ **Inhalt** der vertikalen Relation **Bestandteil des Schemas** der horizontalen Relation und umgekehrt!! 2. **Enablement Laye**r ⇒ dort findet die **Transformation von Anfragen** aus h-Sicht auf v-Sicht und die Transformation der Ergebnisse von v-Sicht auf h-Sicht statt 1. Aus Datenbanksicht ⇒ Anwendung über Datenbank 2. Aus Anwendungssicht ⇒ Bestandteil der Datenbank Genauer:Tonspur

Answer 29

[A] v2h **Wir gehen Spaltenweise vor**! Anm: **Projektion** ist Mengenwertig und **entfernt Duplikate** 1. **Schritt**: Dupplikate 1 Spalte in V mit Projektion eliminieren **π**_Oid(V) 2. Schritt: **Outer-Left-Join** mit **Projektion_Oid,Val** des 1. Attributs. Also: σ(**Key=A1**(V)) 3. Schritt: **Das gleiche** mit dem vorherigen Gesamtergebnis wie eben **nur mit** dem **2. Attribut ⇒ usw** ⇒ Alles schön und gut, geht jedoch so nicht weil * auch wenn wir Left-Outer-Join in relationale Algebra hinzuhmenen 1. **es gibt keinen** LOJoin mit Iteration und laufindex K (**Phantasie-Operator**) 2. benötigter String-Manipulation um A[**1**], A[**2**], A[**3**]... an A[**i**] anzuhängen gibt es nicht 3. Spalten Beschriftung klappt nicht (Higher-Order View) ⇒ h(Oid,Val,Val,Val..) kommt raus, statt h(Oid,A1,A2,A3...) Aus Skript Wo ‘knirscht’ es? * Es gibt keine Iteration (Schleife) * Übergang i ⇒ 'Ai'. * Spalten heißen alle 'Val'. * Es gibt Operator für Umbenennung in relationaler Algebra (b). * Jedoch nicht mit Datenbank-Inhalt als Argument. * Woher kommt das k? gibt es nicht [B] Naja, wir wollen ja, dass alle Zeilen, die wir im 1. Schritt erzeugt haben erhalten bleiben! **Und** Falls es entsprechungen gibt, **der Wert ergänzt** werden soll **und** falls es keine Entsprechung gibt **der NULL-Wert ergänzt** werden soll!

Answer 30

1. Schritt: **Selektieren** in Spalte A1 alles, wo was drin steht (σ_A1!=Null(H)) 1. Zudem Projezieren wir **Oid** (wo was **drin steht**), den **String "A1"** und den **Wert von A1 ⇒** π_Oid,"A1",A1 * Zwischen-Ergebnis 1. Tupel mit π_Oid,"A1",A1(σ_A1!=Null(H)) 2. **Analog** für weitere Attribute **A2,A3,...** 3. **Vereinigung** aller erzeugten Tupel (Zeilen) + **Pathologischer Fall** (Vereinigung zusätzlich mit Tupel, die leere Attributbez. und Attributwert enthalten) **Wo ‘knirscht’ es?** * Es gibt **keine Iteration** (Schleife) * Übergang i ⇒ 'Ai'. * Spaltenbeschriftungen **nicht umsetzbar** * Es gibt Operator für Umbenennung in relationaler Algebra (ß). * Jedoch **nicht mit** Datenbank-**Inhalt als Argument**. * Woher kommt das k? **gibt es nicht!**

Answer 31

Rewritings (1) Implementierung der Operatoren der relationalen Algebra. ⇒**Input in vertikaler** Repräsentation, **Ergebnis in horizontaler** Repräsentation.

Answer 32

Ich müsste ein Rewriting machen Horizontale Anfrage wäre ⇒ π_Oid(σ_A3=4(H)) in Vertikal ⇒ π_Oid(σ_Key=A3^Val=3(V))

Answer 33

* R für Rechteck. Mehrdimensionale räaumliche Indexstruktur. * Jeder Knoten des Baums entspricht einem Ausschnitt des Raums * Die **Wurzel** entspricht dem **gesamten Raum** * Die **Blattknoten** sind jeweils **Minimum Bounding** Rectangles, **der Datenobjekte, die in ihnen enthalten sind** Überlappung: Rechtecke überlappen sich (innere Knoten des R-Baums) ¡ Überlappungen sind unerwünscht, denn ⇒ wir müssen in mehrere Teilbäume absteigen d.h. es ist weniger effizient, als nur in einen Teilbaum abzusteigen ¡ **Vorgehen**: Wir steigen in die Teilbäume ab, die mit unserem Bereich, für den wir uns interessieren, eine Überlappung haben Anmerkung: Nearest Neighbour gleich wie bei Kd-Baum (Priority Queue usw)

Answer 34

Die Anzahl der Überlappungen nimmt mit der Anzahl der Dimensionen zu! Und warum ist das so? ⇒ Abstände können statistisch nicht Also: Problem: je mehr Dimensionen D hat, desto teurer wird wird die Tiefensuche, da wir in mehr und mehr Teilbäume absteigen müssen... **_R-Baum - Lösungsansätze_** 1. Mehrdimensionale Indexstruktur ist problematisch 1. ⇒ verwende **eindimensionale** Struktur, **z.B. iDistance** 2. Brauchen wir überhaupt immer exakte Ergebnisse? 1. ⇒ Approximate **Nearest Neighbour** via z.B. Locality Sensitive Hashing

Answer 35

Erinnerung: * **Bereichsanfrage**: abstieg in Baum wo sich jeweils Überlappungen ergeben * **kNN-Abfrage**: **Position** im **Raum** und wir Fragen uns **welche k** **Objekte** haben von dieser Position den **kleinsten Abstand** 1. Schritt: Priority **Queue erzeugen** und bei der Wurzel einsteigen. Also **erster Zustand** der Queue ist **die Wurzel** und sonst nichts 2. Schritt: Entnehme das erste Objekt aus der Queue und **betrachten** statt dessen **die Kinder** 3. Schritt: **Ordnen die Kinder** gemäß ihres geringsten **Abstandes** in die Queue ein noch beenden!

Answer 36

Teil1 **Vorgehen** des **Partitionieren** in 3 Steps **iDistance** 1. Im ersten Schritt wird der hochdimensionale Datenraum in einen Satz von **Partitionen** aufgeteilt. 2. Im zweiten Schritt wird **für jede Partition** ein **Referenzpunkt** festgelegt. O0, O1, . . . , 3. Im dritten Schritt werden schließlich alle Datenpunkte in einem **eindimensional**dargestellt Teil2 Möglichkeiten 1. **Raumbasierte** Partitionierung: zerteile Raum in **gleich große Partitionen** 1. vllt. für gleichverteilte Daten gut 2. Gleichverteilung ist in Praxis aber oft nicht gegeben 2. **Datenbasierte** Partitionierung: **Clustering** 1. jedes Clusteringverfahren möglich 2. hier: k-Means http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.65.5288&rep=rep1&type=pdf

Answer 37

**Beobachtung:** alle kNN von q (Query) liegen **im Raum**sphere(q; r\*) wobei der Abstand zum am**weitesten entfernten**Nearest Neighbour**kleiner r\* ist!** * *Problem**: r\* unbekannt * *Idee**: finde **r\* iterativ** 1. Schritt: Man legt einen **Query Punkt** in den Raum und startet mit **kleinem** Radius **r** an. 2. Schritt: **erweitere itterativ** den Radius **r** und sobald der entstehende Kreis (sphere(q,r)) eine **Partition** (da iDistance) schneidet finde alle Objekte der Partition Ein Array wird verwendet, um die m Datenraum-Partitionen und ihre jeweilige Referenz Punkte O1, O2, usw zu speichern. Das Array wird verwendet, um die Datenpartitionen zu ermitteln, die während der Query-Verarbeitung durchsucht werden. * **Array zu Verwaltung der Referenzpunkte**, beinhaltet zu jeder Partition: * Referenzpunkte Oi selbst * weiteste (maxi ) Distanz von Objekten in Partition i zu Oi http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.65.5288&rep=rep1&type=pdf

Answer 38

Beschreibung des Verfahrens https: //graphics.stanford.edu/courses/cs468-06-fall/Slides/aneesh-michael.pdf https: //www.youtube.com/watch?v=WyTx-TY0XvU exaktes kNN ist teuer Idee: **manchmal reicht auch eine Näherung**.. **Beispiel**: finde ähnlichsten Tweet Finde Objekt **p** Element D, der ein **e**-approximierter Nearest Neighbour von Query-Objekt **q** ist. D.h. es gilt für alle p' Element D Siehe Bild wobei p\* der wahre nächste Nachbar zu q ist. Mit anderen Worten, p ist innerhalb des relativen Fehlers des wahren nächsten Nachbarn. Allgemeiner ausgedrückt, für 1 k n ist ein k-ter (1)-approximierter nächster Nachbar von q ein Datenpunkt, dessen relativer Fehler vom wahren k-ter nächsten Nachbarn von q ist. Definieren Sie für 1 k n eine Folge von k näherungsweise nächsten Nachbarn des Abfragepunkts q als Folge von k eindeutigen Datenpunkten, so dass der i-te Punkt in der Folge eine Näherung an den i-ten ist

Answer 39

**Locality-Sensitive Hashing** * teile Datenobjekte aus **D in Buckets** auf * habe **mehrere** unterschiedliche ”**Bucketings**” * während Query: betrachte **nur** Objekte, die bei mind. einem Bucketing **im selben Bucket wie q** liegenn Intuition: **Objekte**, die **nah beieinander** liegen, sind im **selben Bucket**

Answer 40

Schema hier lediglich Attribute, keine Integritätsbedingungen.

Answer 41

Bild Meine Lsg

Answer 42

**Relationales Modell** * **Keine strukturierten Attribut-Werte** * erste Normalform (1NF) – **alle Attributwerte atomar.** **NF²** * Attribute müssen nicht atomar sein, **aber** * Es muss **mindestens ein atomares** Attribut geben. * Attribut kann selbst wieder **Menge von Attributen** sein. **Attributwert kann** selbst wieder **Relation sein**. ⇒ Möglicherweise natürlicher zur Darstellung komplexer Strukturen. (Lesbarer für Mensch) ⇒ Höhere Flexibilität **führt zu komplexen Definitionen der Operatoren** und Notwendigkeit neuer Operatoren.

Answer 43

**Partitioned Normal Form** * **Def1:** PNF entschachtelt durch äquivalente **1NF-Relation** darstellbar * **Def2:** PNF Relation durch **Folge** von **Nests** konstruierbar. **ALSO** ⇒Eine geschachtelte Relation, die **nicht duch Nestung herleitbar** ist ist **nicht in PNF** (2) Wenn **keine** **funktionale Abhängigkeit**, * *dann** auch **nicht** durch Nests **konstruierbar**

Answer 44

**Operatoren:** * **Nesting-Operator** * Neuer Strukturbaum, neues Schema. * Ähnelt in gewisser Weise Gruppierung. * Reihenfolge der Nesting-Operatoren ist von Bedeutung. * Lässt sich das an Beispiel von vorangegangener Folie zeigen? ⇒ Durch mehrmaliges Anwenden von Nesting enstehen so belibig tief geschachtelte NF² Relationen * **Unnesting-Operator** * **Pentdant zu Nesting**

Answer 45

**Definition der ‚herkömmlichen‘ Operatoren ändert sich**, ist hier **komplexer**. Definition gemäß Vossen-Buch: **Projektion** nur für ‚**top-level Attribute**‘. Keine wirkliche Einschränkung, wegen Nest-/Unnest-Operator im Folgenden.

Answer 46

Keine wirkliche Alternative zum relationalen Modell, man ist **nur dann ausdrucksmächtiger**, * wenn **neue Operatoren dazukommen**, z. B. Potenzmengen-Operator. Potenzmengen-Operator – erzeugt alle Teilmengen einer gegebenen Relation. ABER: Warum gibt es keinen Potenzmengen-Operator für die herkömmliche relationale Algebra? ⇒**Tupel** im Ergebnis des Potenzmengen-Operators enthalten wieder Mengen. **Nicht im herkömmlichen relationalen Modell darstellbar.**

Answer 47

Geschachtelte Relationen (‚Non First Normal Form‘): Attribut kann selbst wieder Menge von Attributen sein. Attributwert kann selbst wieder Relation sein. Es muss **mindestens ein atomares Attribut** geben. Das NF²-Datenmodell **bemüht sich** um die **Behebung** des **Aggregierungsproblems**, indem es die Spezifikation von Hierachien erlaubt * Enthält durch **Schachtelung**/Hierachien zusätzkliches **semantisches Wissen** * **Anwenderfreudlich (lesbarkeit)** ⇒ keinen Joins von verscheidenen Relationen nötig **ABER:** Es löst nicht das Problem der Reihenfolge bzw. der Ordnung der Daten, wie es in. In der Praxis spielt die Reihenfolge der Daten eine wichtige Rolle

Answer 48

**Problem früher (1+2)** * Hauptspeicher auf **wenige MB begrenzt** * Nur kleiner Teil der Daten passt in den Hauptspeicher (DRAM) (**32 MB**) * **Vergleichsweise riesige** Festplattenkapazität **(2 GB) ⇔ s.o** * Genutzt als Primärspeicher * Extrem **hohe Zugriffslücke** von HS DRAM **(32 MB)** auf Disk **(2 GB)** * Parallele Anfrageverarbeiten um HD Latenz zu kompensieren * Minimierung der HD-Zugriffe durch geschickte Pufferstrategien * Architekturelle Altlasten des ‚System R‘ aus den 70ernSpeicher klein **Problem heute** * Hauptspeicherkapazitäten von 1000e GB * Nutzung als Primärspeicher * **Zugriffslücke zwischen HS und Disk eliminiert** * Problem: **Traditionelle Architektur zielt auf Minimierung der Diskzugriffe** Beobachtung: **Es gibt eine offensichtlich immer größer werdende Zugriffslücke zwischen CPU und Hauptspeicher (DRAM)** ⇒ CPU wartet Großteil der Zeit auf Daten des Hauptspeichers Auch bezeichnet als **memory wall** **Lösung: (3)** * Caches bzw. **cache-awareness** ähnelt dem Puffermanagement * Prinzip der Lokalität * Räumlich (Zugriff Adressbereich in Nachbarschaft) * Zeitlich (Zugriff Addressbereich in naher Zukunft) * **Provozieren** der effizienten Ausnutzung * Tupel-at-a-Time (--+) * Operator-at-a-Time (-++) * vektorbasiert (Menge von Tupel) (**+++**) * Speicherlayout * zeilenorientiert (+) * + schreiben mehrere Attr. * - lesen (Cold Data = laden unnützer Daten) * spaltenorientiert * + lesen einzelne Attr. * - schreiben mehrere Attr.

Answer 49

Caches bzw. cache-awareness **(Übersicht) an Maßnahmen** **Prinzip der Lokalität** * Räumlich (Zugriff Adressbereich in Nachbarschaft) * Zeitlich (Zugriff Addressbereich in naher Zukunft) **Speicher/Cache Zugriff** * Cache Hit: Daten im Cache vorhanden * werden aus Cache gelesen * kein Zugriff auf Hauptspeicher * Cache Miss: * gesamte Cache Line aus Hauptspeicher * CPU wartet bis Daten verfügbar **Provozieren der effizienten Ausnutzung ⇒ Alternative Modelle moderner DBs** * **Tupel-at-a-Time** (--+) * + kleine Zwischenergebnisse passen in DRAM (Hauptsp.) * - Kombinierte Ausführung aller Operatoren zu groß f. Cache * Cache Miss * - Function-Call-Overhead **Operator-at-a-Time** (-++) || "Zweischneidiges Schwert" * + kein Function-Call-Overhead * + Optimierbarer Code * - Daten passen nicht in Cache * oft DRAM lesen * passt nicht in DRAM ⇒ **Strategie versagt** **Vektorbasiert** (Vektor = Menge von Tupel) (+++) ⇒ Vektor muss **groß genug** sein für Methoden-Aufruf-Kompensation ⇒ Vektor muss **klein genug** sein um Cache nicht zu verstopfen **Speicherlayout** * zeilenorientiert (+) * + schreiben mehrere Attr. * - lesen (Cold Data = laden unnützer Daten) * spaltenorientiert * + lesen einzelne Attr. * - schreiben mehrere Attr. **Hier Verbindung zu OLAP-lesend =+Spalten und OLTP-mixed +** * Workload lesend? schreibend? mixed? Speicherlayout!

Answer 50

**Kurzübersicht** **2 Technologien für das Arbeiten mit Datenbanksystemen** [https://www.youtube.com/watch?v=Zd4VK3gHYs0](https://www.youtube.com/watch?v=Zd4VK3gHYs0) [https://www.youtube.com/watch?v=I-HVEP8xoQo](https://www.youtube.com/watch?v=I-HVEP8xoQo) **OLAP (Methoden) Hauptspeicherdatenbanken** * Typisches Daten-Zugriffsmuster * Wenige **Attribute** * Alle oder **große** zusammenhängende **Anzahl an Tupel** * ⇒ Bsp. Reports, Analyse, Aggregierte Daten * ****Hauptsächlich **lesend** ****⇒ Spaltenorientiertes Layout bietet sich an * + Lesezugriff einzelne Attr. * - schreiben mehrere Attr ⇒ Optimierungsziel - Response time Leseoperationen 1. **Kompressionsverfahren** * ****Ordnungserhaltende Wörterbuchcodierung * Bit Packing * Lauflängenkodierung * Ziel: Bessere Cacheausnutzung durch Reduktion des Datenvolumens Frage: Wie minimiere ich die Kosten für das Hauptproblem spaltenorientierter DB-Systeme: Tupel-Rekonstruktion 1. Spezielle **Optimierungen** der Anfrageverarbeitung (Materialisierungstrat.) ⇒ nur bei Spaltenorientierung * **Frühe** Materialisierung * **Späte** Materialisierung Im Gegensatz zum Online Transaction Processing (OLTP) steht hier die Durchführung komplexer Analysevorhaben im Vordergrund, welche ein sehr hohes Datenaufkommen verursachen **Transaktionale Workloads (OLTP)** * Typisches Zugriffsmuster * Wenige **Tupel** * **Tupel** im Ganzen * ****Bsp ⇒ Neuen Kunden/Artikel eifügen * **Mischung** aus Lese- und Schreiboperationen ⇒ Zeilenorientiertes Layout bietet sich an * + Schreiboperationen * + Tupelzugriff mehrere Attr.

Answer 51

**Ordnungserhaltende Wörterbuchcodierung** * Wörterbuch aus original Wert und Ersetzungswert * Komprimierung **O(log card(n))**, Dekomprimierung in **O(1)** * + Verarbeitung auf komprimierten Werten * + gut für Strings **Bit Packing** * Ausnutzung von **Slacks**: Ungenutzte Bits eines Datentyps * - Verarbeitung auf komprimierten Werten nicht trivial **Lauflängenkodierung** * Reduktion von Sequenzen des gleichen Wertes * Speichert 2-Tupel (Häufigkeit, Code) * - Funktioniert nur bei Spaltenorientierung * + Sortierung kann Kompressionsfaktor erhöhen

Answer 52

**Einzeleffekte** * Reduktion der Gesamtgröße der Daten * Mehr Daten pro Cache-Level * + Ausnutzung der Speicherbandbreite **Anforderungen** * Verlustlos, sonst Datenfehler * Leichtgewichtige (De-)Kompression, sonst Verlust des Performanz- Gewinns auf CPU Seite * Idealziel: Anfrageverarbeitung auf komprimierten Daten

Answer 53

**Materialisierungsstrategien** **Frühe Materialisierung** * zum frühest-möglichen Zeitpunkt * ganzer Teile der Relation * Reduziert die Kosten, wenn ein Attribut in einem Plan mehrfach benötigt wird **Späte Materialisierung** * zum spätest-möglichen Zeitpunkt * Reduziert Rekonstruktionsaufwand auf tatsächliche Tupel im Resultat * Erhält Vorteile aus Kompression und Speicher-Layout so lange wie möglich

Answer 54

Dann nehmen wir **Vektorwertige Ausführung**. * Dabei Trade-off **Vektorgröße** zwischen **Kompensation des call-overheads** und Größe der resultierenden Zwischenergebnisse * (Wollte noch ungefähre Vektorgröße wissen - 1k Tupels)

Answer 55

Protokoll: ausführlicher Monolog zu Spalten und Zeilenorientierter Speicherung mit allen Vor und Nachteilen und was für welche Queries gut ist. 2 Ansätze (Speicherlayouts) 1. Zeilenorientierte Speicherung (**row store**)Alle Tupel (mit ihren Attributen) sequentiell auf Seiten gespeichert * + Gut: **Schreib**operationen / Tupelzugriff (**mehrere Attribute**) * - Schwierig: cold data bei Attributzugriffen (Aggregationen etc.) 2. Spaltenorientierte Speicherung (**column store**) Alle Werte eines Attributs sequentiell auf Seiten gespeichert * + Gut: **Lesender** Attributzugriff auf **einzelne** Attribute (Aggregationen etc.) * - Schwierig: Schreiboperationen / Tupelzugriff (mehrere Attribute)

Answer 56

Protokoll: Hybride Datenbank, die mit beiden Workloads auskommen **Hyper gewählt** von mir: Grundprinzip: OLAP benötigt nicht die allerneuesten Daten * OLAP Anfragen auf Snapshot der Daten **Copy on Write Mechanismus** * Jedes Mal wenn OLTP Anfrage ein Datenobjekt ändern will, erschafft der Linux Kernel erst eine neue Seite mit den alten Daten für OLAP * OLAP Anfragen * fast aktuelle und konsistente Daten * Danach kann OLTP ungefährdet die Seite modifizieren Bei OLAP gibt es copy on write, sodass OLAP Anfragen auf den alten Daten weiterlaufen, während die OLTP-Query auf der ursprünglichen Seite arbeitet. Dabei werden Seiten syscalls dupliziert

Answer 57

Protokoll: Entweder nochmal page copy mit anschließendem merge oder einfach sequenziell --\> Dann illustriert warum OLAPs nur auf den älteren Daten arbeiten können.

Answer 58

Häufig benötigte Daten (hot data) passt oft vollständig in Cache 90% der Ausführungszeit resultiert von nur 10 % des Codes **Räumliche Lokalität** * Nach einem Zugriff auf einen Adressbereich erfolgt nächster Zugriff mit hoher Wahrscheinlichkeit auf eine Adresse in **unmittelbarer Nachbarschaft** *Beispiel: Scan einer Spalte* **Zeitliche Lokalität** * Adressbereiche, auf die zugegriffen wird, werden auch in naher Zukunft mit hoher Wahrscheinlichkeit wieder benutzt werden *Beispiel: Selektionsprädikate* ⇒ DB-Systeme profitieren von der Lokalität von Daten und Code

Answer 59

Grundsätzlich gibt es **zwei Ansätze** 1. Zeilenorientierte Speicherung (row store) 1. **Alle Tupel** (mit ihren Attributen) **sequentiell auf Seiten** gespeichert * **+** Gut: Schreiboperationen / Tupelzugriff (mehrere Attribute) * **-** Schwierig: cold data bei Attributzugriffen (Aggregationen etc.) 2. Spaltenorientierte Speicherung (column store) 1. **Alle Werte** eines Attributs **sequentiell auf Seiten** gespeichert * **+** Gut: Lesender Attributzugriff auf einzelne Attribute (Aggregationen etc.) * **-** Schwierig: Schreiboperationen / Tupelzugriff (mehrere Attribute) **Anfrage:** 1. Jeder Zugriff auf l\_shipdate Attribut eines Tupel resultiert in **großer Menge nicht benötigter** Daten im Cache 2. Jeder Zugriff auf l\_shipdate ist **entweder bereits gecached** oder die nächsten Werte werden **gleich mitgeladen** **Fazit** **⇒ Keine Standardlösung: Workload-basierte Entscheidung nötig** *Grundsätzlich zwei Arten von Workloads***:** * **Analytisch (OLAP): read**-mostly / append only * **Transaktional** **(OLTP): mixed** workloads, read and write

Answer 60

* kommerziell Verfügbarer **Konzeptioneller Rahmen** für die **Parallelisierung** von Datenverarbeitung/Berechnungen * **Zwei Funktionen** (map und reduce), die **anwendungsspezifisch zu implementieren** sind. * **Framework** kümmert sich um die Ausführung. ⇒ Grund **große Datenbestände**! : Bisherige Technologie an ihre Grenzen gestoßen **Vorteil:** Zusätzlicher reduce-Schritt nach reduce. Oft besser, um möglichst wenige Daten zu transportieren. BILD!

Answer 61

Gremlin – Sprache für **Graph-Traversierung.** Schritte heißen**: Pipes** (in XPath waren es Location-steps), dessen Teilergebnisse mit **next() weiterverarbeitet** werden können * ⇒ **Pipes werden zeilenweise abgearbeitet** (ähnl. Datalog) **siehe Bild** **Benutzt HTTP Post Methode** * g.V #gibt alle Knoten zurück * g.E #gibt alle Kanten zurück * g.v(0) #auf einzelne Knoten zugreifen (mit entsprechender ID) * g.v(0).map() #gibt alle name-wert Paare zurück * g.v(0).name #gibt name aus * Konvention: Jeder Knoten muss ein name-Attribut haben. * g.V.**filter**{it.**name == 'riesling'**} #it. für Iteration und filter=selektion Außerdem: * .inE, .outE #gib mir die eingehenden**/**ausgehenden Kanten zurück * .bothE #quasi **ungerichtet!** egal, ob ein- oder ausgehend Kanten * .inV, .outV #**Knoten** an denen die Kante beginnt bzw. endet * .out = outE.inV, #Kanteübersprungen, **direkter weg Knoten-\>Knoten** * .in =inE.outV #Same here * .exept([alice]) #Alle Knoten außer alice * .filter{!it.equals(alice)} #Same here Beispiel: g.V.filter{...}.out #**alle per ausgehender Kante erreichbare Nachbarknoten**, die die filterbedingung überstehen (A)Komplizierter als in XPath, da hier Kanten explizit modelliert (B)D. h. man muss Alice explizit ausschließen, obwohl Navigation bei ihr begonnen hat.

Answer 62

Liefert die Elemente die in der **aktuellen Pipe (Zeile) berechnet wurden**! **.class** gibt aus von welchem **Typ** das **bis hierhin** berechnete **Ergebnis** ist ⇒nur .class --\> dass es sich um eine Pipe handelt, also eine Menge von Knoten, Kanten oder irgendwas ⇒.next().class #erst Element, dann fragen von welchem Typ Also: **Teilergebnisse von Pipes können weiterverarbeitet werden!**

Answer 63

**Erklärung** * .loop (**3**) #**vorangegangene Schritte, die** wiederholt werden sollen! Also sollen die 3 Schritte zuvor wiederholt werden! * .loop(3) {**it.loops \<= 2**} #diese 3 vorang. Schritte sollen **2 mal angehängt** werden! * .dedup.name #deduplicate, bitte Ausgabe **ohne Duplikate** **⇒** alice.bothE('friends').bothV.except([alice]).loop(3){ it.loops \<= 2 }.dedup.name (B) ja das geht mit einem **angehängten .paths!**

Answer 64

⇒ Mit **Gremlin.defineStep( "",[Vertex, Pipe]), {})** #"" **{**name der Fuktion**}** **[Vertex, Pipe] #**anwendbar auf Knoten und Pipe muss explizit angegeben werden * Zudem **\_().sideEffect{} #**Seiteneffekt wird ausgelöst Variable "start" wird mit "it" (dem aktuellen Knoten, den wir in de rHnad halten) instanziiert! **Diese** können wir **innerhalb** des Ausrucks **wieder verwenden!**

Answer 65

Bild! .exept geht auch!

Answer 66

Ausführungszeit einer Transaktion meist deutlich \< 1s **Bei serieller Ausführung (single-Threading)** * 1)Locking: **nicht benötigt**, weil serielle Ausführung * #Sicherstellung der Serialisierbarkeit von Transaktionen * 2)Latches: **nicht benötigt**, weil kein gleichzeitiger Zugriff * #Schutz von Datenstrukturen vor Problematischen Modifikationen durch verschränkte Verarbeitung * 3)(optional) MVCC – Multi Version Concurrency Control – erlaubt teilweise das Ignorieren von Locks =\> mehr Parallelisierung möglich ⇒Zusätzlich Mechanismen erzeugen signifikanten Mehraufwand !!**Traditionelle System nutzen Multi-Threading** um den Durchsatz zu erhöhen * ⇒Traditionelle Systeme profitieren nicht wirklich von Hauptspeichertechnik aufgrund von Mehraufwand * loggin, * locking, * latchin, * Pufferverwaltung

Answer 67

Kürzester Pfad ist in dieser Liste vorne; nur diesen ausgeben. (elvis. costars.loop(1){ it. loops \< 4 & !it.object.equals(bacon) }.filter{it.equals(bacon)}.paths \>\> 1) * **\>\> 1** bedeutet gib mit den ersten Pfad aus(das erste Element), also den kürzesten. Denn die mit .path werden die Pfaden in aufsteigender länge nacheinander ausgegeben * !it.object.equals(bacon) bedeutet, das das Object bacon im loop selbst nicht auftreten soll! * ⇒**Problem:** diese Art der Anfrage setzt implizites Wissen voraus.⇒ nämlich, dass die Pfade in geordneter Reihenfolge ausgegeben werden!

Answer 68

Beispiel: Alle Paare von Freunden g.V.outE('friends').transform{[it.outV.name.next(), it.inV.name.next()]} ==\> [Patty, Tom] ==\> [Patty, Alice] **Erläuterung:** mit g.V.outE('friends') haben wir alle freundes Kanten aller Knoten in der Hand Nun nehmen wir diese Kante und erstellen folgendes Array**[**name des Knoten von dem die Kante ausgeht, name des Knoten bei dem die Kante eingeht**]**

Answer 69

In der Welt stellen anscheinend alle Knoten, die mit einer 'friends' Kante verbunden sind Personen dar , daher wird mit g.V.both('friends') gearbeitet ⇒ entspricht allen Personen Lösung: g.V.both('friends').dedup.transform{ [it.name, it.out('likes').name.toList()]