BI & Data Science Flashcards

1
Q

Was sind Daten?

A

Eine Menge von Zeichen (Liste oder Abfolge).
Mehrzahl: Datum
D = „25“

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind Informationen

A

Daten mit einem klar definierten Kontext
Z.B.: Fc Bayern 2:1 BVB

Der Kontext beschreibt, wo die Daten herkommen, was sie beschreiben und wie sie erzeugt wurden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist Wissen?

A

Wenn mehrere Informationen in einem bewussten Vorgang und nach klaren Regeln miteinander kombiniert wird

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was sind Entscheidungen?

A

Wenn Informationen und Wissen eingesetzt werden um eine daraus eine Aktion abzuleiten.

Im Datenumfeld entscheiden die „Agenten“

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist „Business Intelligence“?

A

Die Nutzung von Daten um daraus betriebswirtschaftliche Entscheidungen abzuleiten.
Ziele müssen zuvor klar definiert werden

-> Datifizeirung: Der intensive Wille Daten zu sammeln
-> Die aufgebaute Datenanalyse Infrastruktur ständig verbessern

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind „Kennzahlen“?

A
  • messbare Größen
  • wirtschaftlich bedeutsam
  • quantifizierbar (z.B. in Zahlen)

Beispiele:
Absolute Kennzahl -> Fahrzeit, Gesamtkosten
Relative Kennzahl -> mit Maßeinheit (Stückkosten) // -> ohne Maßeinheit (Rendite, Krankenstand)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Welche Dimensionen der Datenqualität gibt es? (4)

A
  • Vollständigkeit
  • Aktualität
  • Relevanz
  • Korrektheit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist „Data Mining“?

A

Die Suche nach unbekannten Muster oder Beziehungen im Datenbestand des DWH

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Allgemeine Anforderungen an die Referenzarchitektur eines DWH?

A
  • idealtypisch gestaltet
  • primär Funktionsorientiert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Anforderungen an das DWH: (4)

A
  • Unabhängigkeit zwischen den Datenquellen und Auswertungssystemen (Verfügbarkeit, Belastung)
  • Dauerhafte Bereitstellung der Daten
  • Flexibilität
  • Skalierbarkeit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was machen „Monitore“ im DWH?

A

Sie entdecken und melden Änderungen der Datenquellen an den DWH-Manager

  • triggerbasiert
  • Zeitstempelbasiert
  • Log basiert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was machen „Extraktoren“ im DWH?

A

Sie selektieren und transportieren Daten aus den Quellen in den Arbeitsbereich

  • periodisch
  • auf Anfrage
  • ereignisgesteuert
  • sofortig
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was machen „Transformatoren“ im DWH?

A

Sie vereinheitlichen, bereinigen, integrieren, konsolidieren, aggregierten und ergänzen die Daten

  • Datentypen anpassen
  • Konvertierungen
  • Vereinheitlichung
  • Umrechnung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was machen „Ladekomponenten“ im DWH?

A

Sie laden die transformierten Daten aus einem Bereich/DB in den nächsten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Welche Arten der „Datenbereinigung“ gibt es?

A

Data Scrubbing: Unzulänglichkeiten in Daten erkennen und beseitigen (Regelbasiert)

Data Auditing: Mit Data Mining Zusammenhänge in Daten finden und Regeln ableiten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Beispiele der Codd‘schen Regeln (7)

A
  • Transparenz
  • Zugriffsmöglichkeiten
  • Gleichbleibende Antwortzeiten
  • Client/Server - Architektur
  • Mehrbenutzer Unterstützung
  • Flexible Berichterstellung
  • unbegrenzte Anzahl an Dimensionen
17
Q

Ansätze der Datenanalyse: (3)

A
  • Pivotierung / Rotation des Datenwürfels
  • Drill-down / Roll-up
  • Slice and dice
18
Q

Visualisierungsmöglichkeiten der Datenanalyse

A
  • Streudiagramm
  • Heat Map
19
Q

Arten der Datenbankspeicherung

A
  • relationales Speichermodell (SQL)
  • multidimensionales Speichermodell
20
Q

Was sind Appliance Datenbanksysteme

A

Integrierte Hard- und Software für das DBMS und somit konkret für ihren Anwendungsfall spezialisiert.

  • self-tuning / self-maintaining
  • sehr gute Skalierbarkeit
  • massive parallel processing
21
Q

Was ist das „Snowflake Schema“ und was sind dessen Vor- und Nachteile?

A

Es ist ein Ansatz / Modell zur Speicherung von Daten in einem OLAP / DWH System.
Es besteht aus einem Fact table mit allen wichtigen Werten, in den dahinter liegenden Dimensionen sind weitere beschreibende Informationen enthalten und es können dahinter wiederum Dimensionen liegen. -> normalisiert

Vorteile: Es wird weniger Speicherplatz benötigt, da Redundanzen vermieden werden

Nachteile: Es leidet die Performance, da die Joint Prozesse sehr komplex sind

22
Q

Was ist das „Star Schema“ und was sind dessen Vor- und Nachteile?

A

Es ist ein Ansatz / Modell zur Speicherung von Daten in einem OLAP / DWH System.

Wird meist für Ableitungs- AuswerteDBs verwendet
Die Dimensionen werden denormalisert:
In der Mitte ist der fact table in dem alle wichtigen Daten enthalten sind, außenrum sind die verschiedenen Dimensionen welche die Ausprägungen der Daten beschreiben

Vorteile: hohe Performance und schnell, da einfache Anfragen

Nachteile: mehr Speicherbedarf, da Daten redundanten (In Fact tabel und Dimensionen) gespeichert werden

23
Q

Welche Ansätze gibt es um die Datenqualität zu prüfen? (4)

A
  • Spaltenanalyse
  • Abhängigkeitsanalyse
  • Beziehungsanalyse
  • Regelanalyse
24
Q

Wie funktioniert die Spaltenanalyse?

A

Einzelne Attribute werden für sich alleinstehend geprüft:
- Wertebereich
- Zeichenkettenlänge
- Datumsform

25
Q

Wie funktioniert die Abhängigkeitsanalyse?

A

Vergleich von Datensätzen miteinander
- Reihenfolge

26
Q

Wie funktioniert die Beziehungsanalyse?

A

Es werden statistische Gegebenheiten der Datenreihen oder andere Datenquellen einbezogen:
- Innerhalb der Standardabweichung
- In anderen Quellen nicht vorhanden

27
Q

Wie funktioniert die Regelanalyse?

A

Es wird überprüft ob bestimmte Regeln eingehalten werden (physikalisch, operativ, wirtschaftlich, etc.):
- kann nicht größer / kleiner sein als xyz
- keine negativen Werte
- Wenn x = 10, dann y max 50

28
Q

Was sind die 7V-Definitionen eines BigData Systems?

A

Volume - Datenmenge
Velocity - Geschwindigkeit der Datenverarbeitung
Variety - Vielfalt von Datenquellen /typen
Veracity - Zuverlässigkeit
Variability - Variation von Datenformaten
Value - Nutzen aus den Daten
Validity - Datenqualität

29
Q

Aus welchen Phasen besteht der „Big Data Management Zyklus“?

A

Capture: Datensuche
Organize: Die Daten organisieren und speichern
Integrate: Integration der Daten in die Analysen
Analyze: Auswertung und Analyse der Daten
Act: Entscheidungen treffen (wirtschaftlich), Prozess anpassen