BI & Data Science Flashcards
Was sind Daten?
Eine Menge von Zeichen (Liste oder Abfolge).
Mehrzahl: Datum
D = „25“
Was sind Informationen
Daten mit einem klar definierten Kontext
Z.B.: Fc Bayern 2:1 BVB
Der Kontext beschreibt, wo die Daten herkommen, was sie beschreiben und wie sie erzeugt wurden
Was ist Wissen?
Wenn mehrere Informationen in einem bewussten Vorgang und nach klaren Regeln miteinander kombiniert wird
Was sind Entscheidungen?
Wenn Informationen und Wissen eingesetzt werden um eine daraus eine Aktion abzuleiten.
Im Datenumfeld entscheiden die „Agenten“
Was ist „Business Intelligence“?
Die Nutzung von Daten um daraus betriebswirtschaftliche Entscheidungen abzuleiten.
Ziele müssen zuvor klar definiert werden
-> Datifizeirung: Der intensive Wille Daten zu sammeln
-> Die aufgebaute Datenanalyse Infrastruktur ständig verbessern
Was sind „Kennzahlen“?
- messbare Größen
- wirtschaftlich bedeutsam
- quantifizierbar (z.B. in Zahlen)
Beispiele:
Absolute Kennzahl -> Fahrzeit, Gesamtkosten
Relative Kennzahl -> mit Maßeinheit (Stückkosten) // -> ohne Maßeinheit (Rendite, Krankenstand)
Welche Dimensionen der Datenqualität gibt es? (4)
- Vollständigkeit
- Aktualität
- Relevanz
- Korrektheit
Was ist „Data Mining“?
Die Suche nach unbekannten Muster oder Beziehungen im Datenbestand des DWH
Allgemeine Anforderungen an die Referenzarchitektur eines DWH?
- idealtypisch gestaltet
- primär Funktionsorientiert
Anforderungen an das DWH: (4)
- Unabhängigkeit zwischen den Datenquellen und Auswertungssystemen (Verfügbarkeit, Belastung)
- Dauerhafte Bereitstellung der Daten
- Flexibilität
- Skalierbarkeit
Was machen „Monitore“ im DWH?
Sie entdecken und melden Änderungen der Datenquellen an den DWH-Manager
- triggerbasiert
- Zeitstempelbasiert
- Log basiert
Was machen „Extraktoren“ im DWH?
Sie selektieren und transportieren Daten aus den Quellen in den Arbeitsbereich
- periodisch
- auf Anfrage
- ereignisgesteuert
- sofortig
Was machen „Transformatoren“ im DWH?
Sie vereinheitlichen, bereinigen, integrieren, konsolidieren, aggregierten und ergänzen die Daten
- Datentypen anpassen
- Konvertierungen
- Vereinheitlichung
- Umrechnung
Was machen „Ladekomponenten“ im DWH?
Sie laden die transformierten Daten aus einem Bereich/DB in den nächsten
Welche Arten der „Datenbereinigung“ gibt es?
Data Scrubbing: Unzulänglichkeiten in Daten erkennen und beseitigen (Regelbasiert)
Data Auditing: Mit Data Mining Zusammenhänge in Daten finden und Regeln ableiten
Beispiele der Codd‘schen Regeln (7)
- Transparenz
- Zugriffsmöglichkeiten
- Gleichbleibende Antwortzeiten
- Client/Server - Architektur
- Mehrbenutzer Unterstützung
- Flexible Berichterstellung
- unbegrenzte Anzahl an Dimensionen
Ansätze der Datenanalyse: (3)
- Pivotierung / Rotation des Datenwürfels
- Drill-down / Roll-up
- Slice and dice
Visualisierungsmöglichkeiten der Datenanalyse
- Streudiagramm
- Heat Map
Arten der Datenbankspeicherung
- relationales Speichermodell (SQL)
- multidimensionales Speichermodell
Was sind Appliance Datenbanksysteme
Integrierte Hard- und Software für das DBMS und somit konkret für ihren Anwendungsfall spezialisiert.
- self-tuning / self-maintaining
- sehr gute Skalierbarkeit
- massive parallel processing
Was ist das „Snowflake Schema“ und was sind dessen Vor- und Nachteile?
Es ist ein Ansatz / Modell zur Speicherung von Daten in einem OLAP / DWH System.
Es besteht aus einem Fact table mit allen wichtigen Werten, in den dahinter liegenden Dimensionen sind weitere beschreibende Informationen enthalten und es können dahinter wiederum Dimensionen liegen. -> normalisiert
Vorteile: Es wird weniger Speicherplatz benötigt, da Redundanzen vermieden werden
Nachteile: Es leidet die Performance, da die Joint Prozesse sehr komplex sind
Was ist das „Star Schema“ und was sind dessen Vor- und Nachteile?
Es ist ein Ansatz / Modell zur Speicherung von Daten in einem OLAP / DWH System.
Wird meist für Ableitungs- AuswerteDBs verwendet
Die Dimensionen werden denormalisert:
In der Mitte ist der fact table in dem alle wichtigen Daten enthalten sind, außenrum sind die verschiedenen Dimensionen welche die Ausprägungen der Daten beschreiben
Vorteile: hohe Performance und schnell, da einfache Anfragen
Nachteile: mehr Speicherbedarf, da Daten redundanten (In Fact tabel und Dimensionen) gespeichert werden
Welche Ansätze gibt es um die Datenqualität zu prüfen? (4)
- Spaltenanalyse
- Abhängigkeitsanalyse
- Beziehungsanalyse
- Regelanalyse
Wie funktioniert die Spaltenanalyse?
Einzelne Attribute werden für sich alleinstehend geprüft:
- Wertebereich
- Zeichenkettenlänge
- Datumsform
Wie funktioniert die Abhängigkeitsanalyse?
Vergleich von Datensätzen miteinander
- Reihenfolge
Wie funktioniert die Beziehungsanalyse?
Es werden statistische Gegebenheiten der Datenreihen oder andere Datenquellen einbezogen:
- Innerhalb der Standardabweichung
- In anderen Quellen nicht vorhanden
Wie funktioniert die Regelanalyse?
Es wird überprüft ob bestimmte Regeln eingehalten werden (physikalisch, operativ, wirtschaftlich, etc.):
- kann nicht größer / kleiner sein als xyz
- keine negativen Werte
- Wenn x = 10, dann y max 50
Was sind die 7V-Definitionen eines BigData Systems?
Volume - Datenmenge
Velocity - Geschwindigkeit der Datenverarbeitung
Variety - Vielfalt von Datenquellen /typen
Veracity - Zuverlässigkeit
Variability - Variation von Datenformaten
Value - Nutzen aus den Daten
Validity - Datenqualität
Aus welchen Phasen besteht der „Big Data Management Zyklus“?
Capture: Datensuche
Organize: Die Daten organisieren und speichern
Integrate: Integration der Daten in die Analysen
Analyze: Auswertung und Analyse der Daten
Act: Entscheidungen treffen (wirtschaftlich), Prozess anpassen