Big Data & Data Science Flashcards

1
Q

Deskriptive Analyse

A

Untersuchung von Vorgängen in der Vergangenheit

z.b. Report zum Jahresumsatz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Prädiktive Analyse

A

Sagt wahrscheinliche Resultate vorher und erstellt fundierte Prognosen anhand historischer Daten

verlängert Trends in die Zukunft, um mögliche Ergebnisse abzuleiten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Präskriptive Analyse

A

nutzt Daten aus vielen Quellen, zb Statistiken, ML & Data-Mining

um mögliche zukünftige Ergebnisse zu identifizieren und die beste Option zu zeigen

liefert umsetzbare Erkenntnisse statt Rohdaten, sagt was geschehen sollte und nicht nur könnte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Algorithmus Definition

A

Eindeutige Handlungsvorschrift zur Lösung eines Problems/Klasse von Problemen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Algorithmus Eigenschaften

A

Finitheit
Ausführbarkeit
Dynamische Finitheit/Platzkomplexität
Terminierung oder Zeitkomplexität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Algorithmus Eigenschaften - Finitheit

A

Verfahren muss in einem endlichen Text eindeutig beschreibbar sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Algorithmus Eigenschaften - Ausführbarkeit

A

Jeder Schritt des Verfahrens muss ausführbar sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Algorithmus Eigenschaften - Platzkomplexität

A

Verfahren darf zu jedem Zeitpunkt nur endlich viel Speicherplatz benötigen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Algorithmus Eigenschaften - Terminierung

A

Verfahren darf nur endlich viele Schritte benötigen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Deterministischer Algorithmus

A

wenn er bei selben Vorrausetzungen immer das selbe Ergebnis liefert

zu jedem Zeitpunkt der nächste Schritt eindeutig definiert ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Induktion

A

Generalisierung von in der Realität beobachteten Regelmäßigkeiten zu einer allg. Vermutung

-> Hypothensenbildung

Bottom Up

Bsp: 30 Bohnen ziehen - alle weiß, nochmal 30 ziehen - alle weiß. Ergo: Alle Bohnen müssen weiß sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Deduktion

A

Ableitung von Aussagen aus anderen (allg.) Aussagen mit Hilfe logischer Regeln

-> Hypothesenprüfung

Bohnen in Sack gefüllt. Alle waren weiß. Bohne aus dem Sack nehmen-> sie ist weiß

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Abduktion

A

Verknüpfung von EInzelbeobachtungen und Erkennen (Vermuten) von Regeln

-> Hypothesenbildung

Top-Down

Sack, ich sehe weiße Bohnen, ich finde weiße Bohne iwo im raum. -> Bohne muss aus dem Sack sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Big Data - Aufteilung der Probleme

A

Infrastruktur
Analytics
Anwendungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Big Data - Aufteilung der Probleme - Infratruktur

A

Hadoop, NoSQL, Data Warehouse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Big Data - Aufteilung der Probleme - Analytics

A

Analysen, VIsualisierung, BI, Machine Learning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Big Data - Aufteilung der Probleme - Anwendungen

A

Wirtschaftsbezogen: Gesundheit, Marketing, Betrugserkennung, FInanzen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Business Intelligence

A

Sammelbergriff für IT-gestützten Zugriff auf Informationen & Analysen und Aufbereitung dieser Informationen

Ziel: aus vorhandenem Wissen neues handlungsorientiertes Wissen generieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Big Data

A

Informationen mit hohem Volumen (Volume)

hoher Geschwindigkeit (velocity)

hoher Vielvalt (Variety)

Veracity (Richtigkeit)

brauchen innovative Formen der Verarbeitung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Big Data Volume

A

Scale of Data
ca 90% der Daten wurden in letzten 2 Jahren geschaffen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Big Data Velocity

A

Speed of Data

ca 50.000 GB/Sekunde beträgt geschätzte Datenübertragung im Internet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Big Data Veracity

A

Certainity of Data
3,1 Bio $ geschätzter jährlicher Verlust in US für schlechte Datenqualität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Big Data Variety

A

Variety of Data
90% neu geschaffener Daten sind unstrukturiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

BI schlagworte

A

Data Subsets
Historisch
Strukturiert
Single Source of Application
Statisch
Private Daten
Data growth as a burden to manage

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Big Data Schlagworte

A

All Data & Meta Data
fast real-Time
strukturiert und unstrukturiert
multiple Sources/Apps
Dynamisch
privat und öffentlich
Data as a new source of copetitive opputunity

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Data science

A

Untersuchung von Daten

Umfasst Entwicklung von Methiden zur Erfassung, Speicherung und Analyse von Daten um nützliche Informationen effektiv zu extrahieren

Ziel: Wissen aus jeder Art von Daten zu gewinnen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Decision Cycle

A

Collect
Prepare
Examine
Model
Decide
Act

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Treiber für Big Data

A

Menschen
Firmen
Sensores & Beacons

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Künsctliche Intelligence (KI)

A

Wissenschaft, Dinge intelligent zu machen

Sammelbegriff für die Fähigkeit von Computern menschliche Aufgaben auszuführen

Umfang umstritten, verändert sich ständig

konzentiert sich auf Schaffug von intelligenten Maschinen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

KI aktivitäten bsp

A

Speech recognition
learning
planing
problem solving

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Machine Learning (ML)

A

Ansatz zur Erreichung künstlciher Intelligenz durch Systee, die aus Erfahrungen lernen, um Muster in einem Datensatz zu finden

Computer muster anahnd von Beispielen zu erkennen, anstatt sie mit regeln zu programmieren

ist KI-Disziplin

ermöglicht es Computern neue Situationen durch Analyse, Selbsttraining, Beobachtung und Erfahrung zu bewältigen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Machine Learning vorgehen

A

benötigt einige Daten

lernt muster aus Daten

arbeitet mit neuen unbekannten Daten

schätzt welche neuen Daten wahrscheinlilch sind, basierend auf Schritt 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Machine learning - bedeutsam?

A

ML lernt selbstständig aus übergebnene Daten

kann für andere Dinge wiederverwendet werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Deep Learing (DL)

A

Tehnik zur Implementierung von Machine Learning
-> Deep Natural Networks (DNNs)

Konzept: geschrieben Code Strukturen in Schichten angeordnet, erinnern lose dem menschlichen Gehirn, kann aus Mustern und Beispielen lernen

Familie von Methoden die für ML verwendet wird

Sammlung von Algorithmen, die in ML verwendet werden, um hochranginge Abstraktionen in Daten zu modellieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Machine Learning 3 wichtigste Kategorien

A

Supervised Learning

Unsupervised Learning

Reinforcement leraning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Supervised Learning

A

Classification

Regression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Unsupervised Learning

A

Clustering

Dimensionality Reduction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Reinforcement Learinign bsp

A

Game AI
Skill Acquistuin
learning tools
robot navigation
real-time decision

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

ML Pipeline

A

Get Data
Clean, Prepare & Manipulate Data
Train Model
Test Data
Improve

40
Q

KNN Algortihmus

A

K-Nearest-Neighbour

für Klassifikation & Regression

Idee: ähnliche DP liefern ähnliches Ergebniss

wählt die k nächsten Nachbarn eines DP aus und klassifiziert DP anhand der Merheit der Klassifikation seiner NAchbar

41
Q

KNN Pro

A

einfache Implementierung

kann auf große Datenmengen angewendet werden

42
Q

KNN Contra

A

Abhängigkeit von Wahl des Ks

Sensitiv gegenüber Außreisern

43
Q

MCAR

A

Missing Completely at Random

Fehlen der Werte ist zufällig & nicht mit anderen Variablen im Datensatz verknüpft

Keine Beziehung zwischen Fehlen der Werte & verbleibenden Variablen

44
Q

MAR

A

Missing at Random

Fehlen der Werte ist nicht zufällig, kann durch andere Variablen im Datensat erklärt werden

Beziehung zwischen Fehlen der Werte & anderen Variablen im DS/anderen bekannten Daten

45
Q

MNAR

A

Missing not at Randon

Fehlen der Werte nicht zufällig, kann nicht durch andere Variablen erklärt werden

keine Beziehung zwischen Fehlen der Werte und anderen Variablen

46
Q

Umgang mit fehlenden Werten

A

Löschen der Kompletten Instanz (Zeile)

Löschen des Attributes (Spalte)

Qualitative Imputation des Wertes

Imputation (ersetzen des Wertes)

47
Q

Umgang mit fehlenden Werten - Qualitative Imputation des Wertes

A

fehlende Werte durch theoretische Werte ersetzen

48
Q

Umgang mit fehlenden Werten - Imputation

A

Statitisches Ersetzen, wert durch wert eines statistischen Verfahrens ersetzten

Modelbasiertes Ersetzen, Wert durch Wert aus einem Modell ersetzten

49
Q

Umgang mit fehlenden Werten - Imputation - statistisch

A

Mean-/ Meds-/ Modimputation

Multiple Imputation (mehrere Möglichkeiten in betracht ziehen)

Hot-Deck-Imputation (ähnliche Werte werden genommen)

50
Q

Umgang mit fehlenden Werten - Imputation - modelbasiert

A

Regression

K-N-N

Bayes

51
Q

Metrik

A

Abstandsfunktion

ordnet zwei Elemente (Punkte) einer Menge (Raum) einen nichtnegativen reellen Wert (Abstand) zu

Jede Norm erzeugt eine Metrik

52
Q

Norm

A

Abbildung in einem Vekrtorraum über Köper der reellen oder Komplexen Zahlen in Menge der nicht negativen reellen Zahlen

erfüllt für alle Vektoren & Skalare folgende Axiome

Definitheit

Absolute Homogenität

Dreiecksungleichung

53
Q

Bekannteste Normen -> Metriken

A

P-Normen -> Mikowski-Metriken

54
Q

Spezialfälle der Mikowski-Metriken

A

Absteigende Reihenfolge der Verwendungshäufigkeit:

p = 2 Euklidische Metrik/Norm

p = 1 Manhatten Metrik/Norm

p = unendlich Maximus Metrik/Norm

55
Q

Euklidische Metrik/Norm

A

Berechnung Abstand zweier Punkte über Satz des Pythagoras

Länge der direkten geraden Strecke zwischen zwei Punkten

56
Q

Manhatten Metrik/Norm

A

Berechnung Abstand zweier Punkte über Laufen bon orthogonalen Strecken in basis Dimensionen

57
Q

unendlich Maximus Metrik/Norm

A

Nur Dimension mit Maximalem Abstand wird berücksichtig

anderen Dimensionen werden vergessen

58
Q

Trainingsdaten

A

Daten um Modell zu trainieren

59
Q

Testdaten

A

Daten um Leistung des Modells zu bewerten (nach training)

Modell wird auf diesen Daten getestet

60
Q

Validierungsdaten

A

weiterer unabhängiger Datensazu

um Modellhyperparameter abzustimmen

Modell ompimierung

61
Q

Anstelle des Durchschnitts trifft man immer wieder den Meidan an. Welchen wichtigen Vorteil hat er ggü. dem Durchschnitt?

A

Der Median ist weniger anfällig gegen Extemwerte

62
Q

wenn ich einen Zeilenverktor (a1 a2 a3) mit einem Spaltenvektor
(b1
b2
b3) multipliziere bekomme ich was

A

einen Wert a1b1+a2b2+a3b3

63
Q

wenn ich einen Spaltenvektor
(b1
b2
b3)
mit einem Zeilenverktor (a1 a2 a3) multipliziere bekomme ich was?

A

eine 3x3 Matrix
(b1a1 b1a2 b1a3
b2a1 b2a2 b2a3
b3a1 b3a2 b3b3)

64
Q

Was gehört zur Deskriptiven Analyse

A

Data & Wissens Management
Data Quality Monitoring
Regressionsanalyse
Modellierung
“Was ist geschehen?”

65
Q

Was gehört zu Prädiktiven Analyse

A

Data & Wissens Management
Data Quality Monitoring
Regressionsanalyse
Modellierung
Simulation
“Was Könte geschehen?”

-> deksrpitive Analyse (Was ist geschehen!)

66
Q

Was gehört zu Präskiptiven Analyse

A

Data & Wissens Management
Data Quality Monitoring
Regressionsanalyse
Modellierung
Simulation
Entscheidungspolitik
“Bestes mögliches Ergebnis”

-> deksrpitive Analyse (Was ist geschehen!)
-> Prädiktive Analyse (was könnte geschehen!)

67
Q

Welche der Vs in Big Data wachsen mit zunehmender Geschwindigkeit

A

Volume
Velocity
Variety

68
Q

Welche Kräfte und Technologien sind die größten Antriebe für die zunehmende Beudeutung und das wachsen von Big Data

A

Menschen
Unternehmen
Sensoren und Signale

69
Q

Der deduktive Ansatz der Daten Analyse ist?

A

Theorie-> Hypothese-> Beobachtung-> Bestätigung
Top-Down

70
Q

der induktive Ansatz der Daten Analyse ist?

A

Beobachtung-> Mustererkennung-> Hypothese-> Theorie
Bottom-up

71
Q

DBSCAN

A

Density Based Spatial Clusterin of Appliction with Noise

dichtebasierter Clusteralgorithmus

verbindet dicht zusammenliegende DP

Ausreißer/Rauschen wird erkannt

72
Q

OPTICS

A

Ordering Points to identify Cluster Structures

73
Q

DBSCAN - e-Nachbarschaft

A

Epsilon-Nachbarschaft

DP q der innerhalt epsilon Radius eines anderen Punktes p liegt

74
Q

DBSCAN - Kernobjekt

A

Core

wenn die e-Nachbarschaft eines Punktes aus der MinPts Anzahl besteht

75
Q

DBSCAN - MinPts

A

Mindestanzahl an DP um ein Cluster zu bildern

76
Q

DBSCAN dichtebestimmbar

A

DP der innerhalb der e-Nachbarschaft liegt

77
Q

Grenzpunkt

A

Border

wenn punkt dichtebestimmbar zu kernpunkt aber selbst kein Kernpunkt ist.

liegt am Rand

78
Q

DBSCAN - Rauschen

A

Noise
wenn punkt nicht dichtebestimmt und kein kernpunkt ist

79
Q

Ausssagenlogik Bedeutungen

A

^ -> und
v -> oder und
¬ -> negiert

80
Q

CAP - Theorem

A

Ein System (Datenbank, Hadoop) kann nicht gleichzeitif alle drei Eigenschaften erfüllen

Consistency (Konsistenz)

Availability (Verfügbarkeit)

Partition Tolerance

SQL - CA
NoSQL - AP

81
Q

CAP - Theorem - C

A

Consistency (Konsistenz)

in verteilten Systemen muss sichergestellt werden, dass nach Transaktion alle Replikate des Datensatztes aktualisiert werden

All nodes/clients see same data at same times

82
Q

CAP - Theorem - A

A

Availability (Verfügbarkeit)

Im Sinne von akzeptablen Antwortzeiten

Alle Anfragen werden “schnell” beantwortet

83
Q

CAP - Theorem - P

A

Partition Tolerance (Datenverarbeitung verteilit auf mehrere Maschinen)

Ausfalltolerant der Rechner-/Servernetze

System arbeitet auch bei Verlust von Nachrichten einzelner Netknoten/Partitionen des Netztes weiter

84
Q

Clustering Methoden

A

Partitionierungsmethode

Hierarchialmethode

Density-based methodes/Dichtebasiert

Modellbasiert

85
Q

Anforderung an Clustering Algorithmus

A

Skalierbarkeit

Fähigkeit mit vielfältigen Arten von Attributen umzugehen

Robustheit gegen Rauschen/Ausreißer

Fähigkeit mit hoch dimensionalen DS umzugehen

86
Q

Warum wird Clustering gemacht?

A

Explorative Daten Analyse

Binning/Gruppieren von Instanzen die sich ähnlich verhalten

87
Q

Clustering

A

Unsupervised Learning

Algorithmen soll nachtürlich vorgegebene Klassen entdecken

Gruppierung instanzen in Gruppen mit ähnlichen Merkmalen

88
Q

Klassifikation

A

Supervised Learning

vordefinierte Klassen

89
Q

Varianz

A

Maß für die Abweichung zum Mittelwert

verwendung bei metrischen Variablen

n = anzahl der Elemente (zb. punkte)

di = z.b. Größe der Elemente

d (mit strich) = durschnittliche Größe aller Elemente

90
Q

Entropie

A

Zustandsgröße welche die Unordnung in einem System/Datensatz angibt

Verwendung bei kategorialen Variablen

91
Q

Norm

A

ist eine Abbildung von einem Vektorraum v über einen Körper K der reelen oder komplexen Zahlen in der menge der nicht negativen reelen Zahlen

92
Q

Metrik

A

Abstandsfunktion

93
Q

Dominante Werte

A

Werte die vorherschend sind, sodass andere Attribute keinen Einfluss mehr auf das Erbenis hätten

Lösung:
Standardisation
Normalisation

94
Q

Normierung - Standadisation

A

Methode zur Neuskalierung von Werten, die den Merkmalen der Standarnormalverteillung entsprechen

95
Q

Normierung - Normalisierung

A

Ändern der Werte auf eine Standardskala
Daten wernde zwischen 0 und 1 skaliert

96
Q

Arten Metadaten

A

Deskriptive (Beschreiben Inhalt der Daten)

Strukturelle (Info über Beziehung und Orga der Daten)

Administrative (Info über Ersteller)

Technische (Technische Infos)

97
Q
A