BI & Data Science Flashcards
Was sind Daten?
Eine Menge von Zeichen (Liste oder Abfolge).
Mehrzahl: Datum
D = „25“
Was sind Informationen
Daten mit einem klar definierten Kontext
Z.B.: Fc Bayern 2:1 BVB
Der Kontext beschreibt, wo die Daten herkommen, was sie beschreiben und wie sie erzeugt wurden
Was ist Wissen?
Wenn mehrere Informationen in einem bewussten Vorgang und nach klaren Regeln miteinander kombiniert wird
Was sind Entscheidungen?
Wenn Informationen und Wissen eingesetzt werden um eine daraus eine Aktion abzuleiten.
Im Datenumfeld entscheiden die „Agenten“
Was ist „Business Intelligence“?
Die Nutzung von Daten um daraus betriebswirtschaftliche Entscheidungen abzuleiten.
Ziele müssen zuvor klar definiert werden
-> Datifizeirung: Der intensive Wille Daten zu sammeln
-> Die aufgebaute Datenanalyse Infrastruktur ständig verbessern
Was sind „Kennzahlen“?
- messbare Größen
- wirtschaftlich bedeutsam
- quantifizierbar (z.B. in Zahlen)
Beispiele:
Absolute Kennzahl -> Fahrzeit, Gesamtkosten
Relative Kennzahl -> mit Maßeinheit (Stückkosten) // -> ohne Maßeinheit (Rendite, Krankenstand)
Welche Dimensionen der Datenqualität gibt es? (4)
- Vollständigkeit
- Aktualität
- Relevanz
- Korrektheit
Was ist „Data Mining“?
Die Suche nach unbekannten Muster oder Beziehungen im Datenbestand des DWH
Allgemeine Anforderungen an die Referenzarchitektur eines DWH?
- idealtypisch gestaltet
- primär Funktionsorientiert
Anforderungen an das DWH: (4)
- Unabhängigkeit zwischen den Datenquellen und Auswertungssystemen (Verfügbarkeit, Belastung)
- Dauerhafte Bereitstellung der Daten
- Flexibilität
- Skalierbarkeit
Was machen „Monitore“ im DWH?
Sie entdecken und melden Änderungen der Datenquellen an den DWH-Manager
- triggerbasiert
- Zeitstempelbasiert
- Log basiert
Was machen „Extraktoren“ im DWH?
Sie selektieren und transportieren Daten aus den Quellen in den Arbeitsbereich
- periodisch
- auf Anfrage
- ereignisgesteuert
- sofortig
Was machen „Transformatoren“ im DWH?
Sie vereinheitlichen, bereinigen, integrieren, konsolidieren, aggregierten und ergänzen die Daten
- Datentypen anpassen
- Konvertierungen
- Vereinheitlichung
- Umrechnung
Was machen „Ladekomponenten“ im DWH?
Sie laden die transformierten Daten aus einem Bereich/DB in den nächsten
Welche Arten der „Datenbereinigung“ gibt es?
Data Scrubbing: Unzulänglichkeiten in Daten erkennen und beseitigen (Regelbasiert)
Data Auditing: Mit Data Mining Zusammenhänge in Daten finden und Regeln ableiten
Beispiele der Codd‘schen Regeln (7)
- Transparenz
- Zugriffsmöglichkeiten
- Gleichbleibende Antwortzeiten
- Client/Server - Architektur
- Mehrbenutzer Unterstützung
- Flexible Berichterstellung
- unbegrenzte Anzahl an Dimensionen
Ansätze der Datenanalyse: (3)
- Pivotierung / Rotation des Datenwürfels
- Drill-down / Roll-up
- Slice and dice
Visualisierungsmöglichkeiten der Datenanalyse
- Streudiagramm
- Heat Map
Arten der Datenbankspeicherung
- relationales Speichermodell (SQL)
- multidimensionales Speichermodell
Was sind Appliance Datenbanksysteme
Integrierte Hard- und Software für das DBMS und somit konkret für ihren Anwendungsfall spezialisiert.
- self-tuning / self-maintaining
- sehr gute Skalierbarkeit
- massive parallel processing
Was ist das „Snowflake Schema“ und was sind dessen Vor- und Nachteile?
Es ist ein Ansatz / Modell zur Speicherung von Daten in einem OLAP / DWH System.
Es besteht aus einem Fact table mit allen wichtigen Werten, in den dahinter liegenden Dimensionen sind weitere beschreibende Informationen enthalten und es können dahinter wiederum Dimensionen liegen. -> normalisiert
Vorteile: Es wird weniger Speicherplatz benötigt, da Redundanzen vermieden werden
Nachteile: Es leidet die Performance, da die Joint Prozesse sehr komplex sind
Was ist das „Star Schema“ und was sind dessen Vor- und Nachteile?
Es ist ein Ansatz / Modell zur Speicherung von Daten in einem OLAP / DWH System.
Wird meist für Ableitungs- AuswerteDBs verwendet
Die Dimensionen werden denormalisert:
In der Mitte ist der fact table in dem alle wichtigen Daten enthalten sind, außenrum sind die verschiedenen Dimensionen welche die Ausprägungen der Daten beschreiben
Vorteile: hohe Performance und schnell, da einfache Anfragen
Nachteile: mehr Speicherbedarf, da Daten redundanten (In Fact tabel und Dimensionen) gespeichert werden
Welche Ansätze gibt es um die Datenqualität zu prüfen? (4)
- Spaltenanalyse
- Abhängigkeitsanalyse
- Beziehungsanalyse
- Regelanalyse
Wie funktioniert die Spaltenanalyse?
Einzelne Attribute werden für sich alleinstehend geprüft:
- Wertebereich
- Zeichenkettenlänge
- Datumsform