Kapitel 17: Betriebliche Anwendungen von Datenbanksystemen DWH Flashcards
Was versteht man unter OLTP: Online Transaction Processing
- Beispiele
- Flugbuchungssystem
- Bestellungen in einem Handelsunternehmen
- Charakterisierung
- Hoher Parallelitätsgrad
- Viele (Tausende pro Sekunde) kurze Transaktionen
- TAs bearbeiten nur ein kleines Datenvolumen
- „mission-critical“ für das Unternehmen
- Hohe Verfügbarkeit muss gewährleistet sein
- Normalisierte Relationen (möglichst wenig Update-Kosten)
- Nur wenige Indexe (wegen Fortschreib
Welche DWH Anwendungen gibt es?
OLAP: Online Analytical Processing
Wie hat sich die Auslastung der Transatlantikflüge über die letzten zwei Jahre entwickelt?
oder
Wie haben sich besondere offensive Marketingstrategien für bestimmte Produktlinien auf die Verkaufszahlen ausgewirkt
Stern-Schema und Anwendungen
Anwendungen
Verkäufe in Mitte, außenherum Kunde, Produkte …
- Eine sehr große Faktentabelle
- Alle Verkäufe der letzten drei Jahre
- Alle Telefonate des letzten Jahres
- Alle Flugreservierungen der letzten fünf Jahre ! normalisiert
- Mehrere Dimensionstabellen
- Zeit
- Filialen
- Kunden
- Produkt
- Oft nicht normalisiert
Normalisierung führt zu Schneeflockenschema
Wie könnte eine Anfrage im Stern-Schema aussehen
select sum(v.Anzahl), p.Hersteller from Verkäufe v, Filialen f, Produkte p, Zeit z, Kunden k
where z.Saison = ‘Weihnachten’ and
z. Jahr = 2001 and k.wieAlt < 30 and
p. Produkttyp = ‘Handy’ and f.Bezirk = ‘Bayern’ and v.VerkDatum = z.Datum and v.Produkt = p.ProduktNr and v.Filiale = f.FilialenKennung and v.Kunde = k.KundenNr
[page17image4528]
group by p.Hersteller;
Wie können Roll-up / Drill-down Anfragen aussehen?
select Jahr, Hersteller, sum(Anzahl)
from Verkäufe v, Produkte p, Zeit z
where v.Produkt = p.ProduktNr and v.VerkDatum = z.Datum
and p.Produkttyp = ‘Handy’
group by p.Hersteller, z.Jahr;
roll up –> <– drill-down
select Jahr, sum(Anzahl)
from Verkäufe v, Produkte p, Zeit z
where v.Produkt = p.ProduktNr and v.VerkDatum = z.Datum
and p.Produkttyp = ‘Handy’
group by z.Jahr;
Was ist die ultimative Verdichtung?
select sum(Anzahl) from Verkäufe v, Produkte p where v.Produkt = p.ProduktNr and p.Produkttyp = 'Handy';
Wie können Slide und Dice Operationen ausseehen?
insert into Handy2DCube Materialisierung von ( select p.Hersteller, z.Jahr, sum(v.Anzahl)
from Verkäufe v, Produkte p, Zeit z
where v.Produkt = p.ProduktNr and p.Produkttyp = ‘Handy’ and v.VerkDatum = z.Datum
group by z.Jahr, p.Hersteller ) union
( select p.Hersteller, to_number(null), sum(v.Anzahl)
from Verkäufe v, Produkte p
where v.Produkt = p.ProduktNr and p.Produkttyp = ‘Handy’
group by p.Hersteller ) union
( select null, z.Jahr, sum(v.Anzahl)
from Verkäufe v, Produkte p, Zeit z
where v.Produkt = p.ProduktNr and p.Produkttyp = ‘Handy’
and v.VerkDatum = z.Datum
group by z.Jahr ) union
( select null, to_number(null), sum(v.Anzahl)
from Verkäufe v, Produkte p
where v.Produkt = p.ProduktNr and p.Produkttyp = ‘Handy’ )
Beispiel für Cube Operator
select p.Hersteller, z.Jahr, f.Land, sum(v.Anzahl)
from Verkäufe v, Produkte p, Zeit z, Filialen f
where v.Produkt = p.ProduktNr and p.Produkttyp = ‘Handy’
and v.VerkDatum = z.Datum and v.Filiale = f.Filialenkennung group by cube (z.Jahr, p.Hersteller, f.Land);
Klassifikationsregeln im Data Mining
Klassifikationsregeln
- Vorhersageattribute ! V1, V2, …, Vn
- Vorhergesagtes Attribut A ! Klassifikationsregel
- P1(V1) ∧ P2(V2) ∧ … ∧ Pn(Vn)èA = c ! Prädikate P1, P2, .., Pn
- Konstante c
- Beispielregel
(wieAlt>35) ∧ (Geschlecht =m ́) ∧ (Autotyp=
Coupé ́) è (Risiko= ́hoch ́)
Wie werden Entscheidungs/ Klassifikationsbäume erstellt
- Trainingsmenge
- Große Zahl von Datensätzen, die in der Vergangenheit gesammelt wurden
- Sie dient als Grundlage für die Vorhersage von „neu ankommenden“ Objekten
- Beispiel: neuer Versicherungskunde wird gemäß dem Verhalten seiner „Artgenossen“ eingestuft
- Rekursives Partitionieren
- Fange mit einem Attribut an und spalte die Tupelmenge
- Jede dieser Teilmengen wird rekursiv weiter partitiniert
- Bis nur noch gleichartige Objekte in der jeweiligen Partition sind
Erkäre die Assoziationsregeln
- Beispielregel
- Wenn jemand einen PC kauft, dann kauft er/sie auch einen Drucker
- Confidence
- Dieser Wert legt fest, bei welchem Prozentsatz der Datenmenge, bei der die Voraussetzung (linke Seite) erfüllt ist, die Regel (rechte Seite) auch erfüllt ist.
- Eine Confidence von 80% für unsere Beispielregel sagt aus, dass vier Fünftel der Leute, die einen PC gekauft haben, auch einen Drucker dazu gekauft haben.
- Support
- Dieser Wert legt fest, wieviele Datensätze überhaupt gefunden wurden, um die Gültigkeit der Regel zu verifizieren.
- Bei einem Support von 1% wäre also jeder Hundertste Verkauf ein PC zusammen mit einem Drucker.
Verkaufstransaktionen und Warenkröbe
- Finde alle Assoziationsregeln L -> R ! mit einem Support größer als
- minsupp und
- einer Confidence von mindestens
- minconf
- Dazu sucht man zunächst die sogenannten frequent itemsets, also Produktmengen, die in mindestens minsupp der Einkaufswägen/ Transaktionen enthalten sind
- Der A Priori-Algorithmus basiert auf der Erkenntnis, dass alle Teilmengen eines FI auch FIs sein müs
Erkläre den A Priori Algorithmus
für alle Produkte
überprüfe ob es ein frequent itemset ist, also in mindestens minsupp Einkaufswägen enthalten ist
k:=1
iteriere solange
für jeden frequent itemset Ik mit k Produkten
generiere alle itemsets Ik+1 mit k+1 Produkten und Ik ⊂ Ik+1
lies alle Einkäufe einmal (sequentieller Scan auf der Datenbank)
und überprüfe, welche der (k+1)-elementigen itemset- Kandidaten mindestens minsupp mal vorkommen
k:=k+1
bis keine neuen frequent itemsets gefunden werden
Sie eine SQL-Anfrage, die basierend auf dem Schema aus Abbildung 1 einen dreidimensio- nalen Quader berechnet, der es unserem Handelsunternehmen erlaubt, entlang der folgen- den Dimensionen drill-down/roll-up Anfragen zu stellen:
- Produkttyp,
- Bezirk,
- Alter.
Das Handelsunternehmen ist dabei nur an Daten aus Deutschland interessiert, die in die Hochsoommersaison fallen. Verwenden Sie den Cube Operator
Top-K Berechnung
Die in Abbildung 2 dargestellten Relationen Autos und Unterhalt dienen der Bewertung von Autos. Eine junge Studierende sucht ein Auto mit guter Balance zwischen Sportlichkeit und Kosten. Sie u ̈berlegt sich wie die drei Werte Preis, PS und monatlicher Unterhalt in einen Score umberechnet werden ko ̈nnen und nutzt schließlich folgende Formel:
Preis − (100 ∗ PS) + 24 ∗ Unterhalt
Zeigen Sie die phasenweise Berechnung der Top-3 Ergebnisse jeweils mit dem Threshold- und dem NRA-Algorithmus. Pru ̈fen sie vor der Berechnung ob Teile der Scoringformel schon innerhalb jeder Relation vorberechnet werden ko ̈nnen.