Data Science & AI Flashcards

You may prefer our related Brainscape-certified flashcards:
1
Q

Wie werden Daten zu strategische Ressourcen?

A

Daten als Prozessergebnis => Daten als Befähiger von Prozessen => Daten als Befähiger von produkten => Daten als Produkt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche Datenkategorien gibt es im Datenschutz?

A

Allgemeine Daten (Inkl. Wirtschaftsdaten): Statistiken, Konstruktionsdaten, Produktionsdaten, Verkaufsdaten, etc.
Verstärkter Schutz
Personenbezogene Daten: Anschrift, Name, Geburtsdatum
Besonderer Schutz
Persönliche Daten: Telefongespräche, E-Mail
Besondere Arten: Gesundheit, Rasse, Religion
Weitere: Berufsgeheimnisse, Bankdaten, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind die Inhalte der DSGVO?

A

Aus Unternehmensperspektive:
Transparenz, Einwilligung, Zweckbindung, Gebot der Datenminimierung, Zeitbezug, Rechenschaftspflicht
Aus Data Science Perspektive:
Anonymisierung, Pseudonymisierung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. Was sind die wichtigsten Faktoren der IT-Sicherheit?
A
  1. Vetraulichkeit: Nicht von unbefugten einsehbar
  2. Integrität: Systeme können nicht unbemerkt verändert werden
  3. Verfügbarkeit: Die Systeme, Informationen, Netze sind verfügbar.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was bedeutet Informaionsethik? (Def.)

A

Es beschäftigt sich mit der Moral im Bezug auf Informationstechnolofgien. Damit verbunden, wie wir uns hinsichlich dieser Technologie verhalten oder verhalten sollen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind die vier V’s und “Value within the Data”

A

Volume: Data at rest (Terabytes, Petabytes, Exabytes)
Velocity: Data in motion (Echtzeit, neartime, Streams)
Variety: Data in many forms (Strukturierte, Semi-, Unstrukturierte Daten)
Veracity: Data in doubt (Fehlende, ungenaue, fehlerhaft Daten)
Value: Siehe Value Karte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Welche Ebenen von Nachsicht, Aktuell bis zur Vorhersage gibt es im Data Science im Sinne des “Value”? Und welche Frage steht dort im Fokus?

A

Prescriptive Analytics: Wie können wir es bewerkstelligen?
Predictive Analytics: Was wird passieren?
Diagnostic Analytics: Warum ist es passiert?
Descriptive Analytics: Was war geschehen?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist eine mögliche Definition von Data Mining & Knowledge Discovery in Databases (KDD)?

A

Data Mining ist ein Schritt im KDD-Prozess; es ist die Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Daten.
Data Mining ist die Extraktion und Entdeckung von implizitem, bisher nicht bekanntem und potenziell nützlichem Wissen aus Daten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist ein Algorithmus?

A

Ein Algorithmus ist eine aus endlich vielen Schritten bestehende eindeutige Handlungsvorschrift zur Lösung eines Problems oder einer Klasse von Problemen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sind Expertensysteme? Was ist Machine learning?

A
Expertensysteme:
Expertenwissen (Kausalität: Ursache-Wirkung)
Festes, definiertes Regelwerk
Viele Zeilen Quellcode
Es gibt keinen fehlerfreien Quelltext

Machinelles Lernen (ML):
Input-Output-Daten (statistische Korrelation)
Training, Validierung, Anwendung (dynamisch)
Wenige Zeilen Quellcode
Fehler? Daten, Training, Validierung, Anwendung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welche Arten von ML gibt es?

A
  1. Supervised Learning: Trainiert algorithmen, um klassification oder regressen mit einem labelled data set zu machen
  2. Unsupervised Learning: Trainiert algorithmen um Cluster oder assoziationen mit einem ungelabelden Dataset zu finden.
  3. Reinforcement Learning: Trainiert einen agenten um gewisse aktionen in einem Umgebebung ohne data set durchzuführen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie heißen die Phasen des CRISP-DM Modells? (DE/EN)

A
Geschäftsverständnis (Business Understanding)
Datenverständnis (Data Understanding)
Datenaufbereitung (Data Preparation)
Modellbildung (Data modelling)
Modellbewertung ( Evaluation)
Einsatz der Ergebnisse (Deployment)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Business Understanding?

A

Ziele: Domänenwissen aufbauen, Geschäftsverständnis entwickeln, Projektziele formulieren
Schritte / Aktivitäten: Geschäftsziel bestimmen, IST-Zustand analysieren, Analyseziele festlegen, Projektplan erstellen
*Fragen: *Was ist das Ziel dieser DM-Analyse? Welche Ergebnisse werden von wem wozu benötigt?
Zu welcher DM-Kategorie gehört diese Analyse? GIbt es erste Ideen/ Hypothesen, die übeprüft werden?
Antworten: Analyseziel: Vorhersage, ob ein Passagier überlebt oder nicht (Klassfikationsanalyse)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Data Understanding?

A
  • Ziele: *Datenverständnis entwickeln, Datenqualität analysieren und bewerten
  • Schritte / Aktivitäten: *Daten sammeln, Daten beschreiben, Daten untersuchen, Datenqualität prüfen
  • Fragen: *In welcher Form und Formaten sind die Daten gegeben? Können diese so verarbeitet werden?Wie können ggf. weiteren Daten beschafft werden? Sind die Datenwerte korrekt oder gibt es noch fehlerhafte Daten?
  • Antworten: *KNIME (bzw. Anaconda)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Data Preparation?

A
  • Ziele: *Datenqualität erhöhen und Daten für die Modellbildung vorbereiten
  • Schritte/Ziele: *Daten auswählen, Daten reinigen, Features extrahieren, Daten integrieren, Daten formatieren
  • Fragen: *In welcher Form werden die Daten vom Modell benötigt? Müssen Daten hierzu angepasst
    bzw. korrigiert werden? Sind die Daten konsistent? Wie gehen wir mit fehlenden Werten um?
  • Antworten: *KNIME (bzw. Anaconda)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Data modelling?*

A
  • Ziele: *Modell trainieren (mittels Lernalgorithmus) und validieren
  • Schritte/Ziele: *Verfahren auswählen, Testdesign aufbauen, Modell bilden, Modell bewerten
  • Fragen: *Gibt es bereits Verfahren und Lernalgorithmen, die wir als Modell verwenden können? Wie teilen wir unsere Daten für das Training und die Validierung auf? Welche Gütekriterien lassen sich berechnen? Wie kann man diese Werte interpretieren?
  • Antworten: *Klassifikationsverfahren: Naive Bayes, Entscheidungsbaum (Decision Tree), k Nearest Neighbor (kNN), Support Vector Machine (SVM), Künstliches Neuronales Netzwerk (KNN), Random Forrest, Gradient Boosted Trees usw. Als Gütekriterien können bspw. die Genauigkeit (Accuracy) und die Area under ROC curve (AURC) verwendet werden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Deployment?

A
  • Ziele:*Anwendung des „besten“ Modells
  • Schritte / Aktivitäten:* Einsatz planen, Kontrolle und Wartung planen, Bericht erstellen, Projekt validieren
  • Fragen:* Wie soll das „beste“ Modell nun eingesetzt werden? In welcher Form werden die Ergebnisse benötigt? Wie werden diese Ergebnisse dann weiterverarbeitet bzw. wer bekommt die Ergebnisse? Muss dieses ggf. in zeitlichen Abständen nachtrainiert werden?
  • Antworten:* Mit dem „besten“ Modell werden nun die Klassen (Überlebt, Nicht-überlebt) für die neuen Datenobjekte in den Testdaten berechnet. Die Ergebnisse werden als CSV-Datei (Spalten: ID, Survived) gespeichert und bei der Data Science Plattform Kaggle hochgeladen. Abschließend bekommt man einen Score als Bewertung / Feedback.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Evaluation?

A
  • Ziele:* Finden des besten Models
  • Schritte / Aktivitäten:* Ergebnisse beurteilen, Prozess validieren, nächste Schritte festlegen
  • Fragen:* Welches ist das beste “Modell”? Ist das “beste” Modell genug? SInd weitere Iterationen nötig? Gibt es ggf. Schwächen im Prozess?
  • Antworten:* Die Frage muss im Kontext der jeweiligen Aufgabe & Ziele beantwortet werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was führte dazu, dass Daten so ein Bedeutung gewinnen?

A
  1. Datenvokumen nimmt exponentiell zu
  2. Mooeresches Gesetz (exponentieller Wachstum)
  3. CRM => Viele Daten
  4. Daten als Kapital
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Beschreibe eine Assoziationsanalyse und nennen ein Bespiel.

A

Suche nach Abhängigkeiten zwischen den Objekten.

z.B Warenkorbanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Beschreibe eine Clusteranalyse und nennen ein Bespiel.

A

Erschafffe einheitlicher, homogener Objektteilmengen. zB. Erstellen eines Kunden-Portfolios

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Beschreibe eine Klassifikationsanalyse und nennen ein Bespiel.

A

Aufteilung der Objekte in vordefinierten Klassen.

Z.B. Abwanderungsrate => Kundenbindungsmaßnahmen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Beschreibe eine Regressionsanalyse und nennen ein Bespiel.

A

Identifikation von Trends im Datenzeitbezug. => Vorhersagen in Verkauf und Umstaz (Absatz- / Produktionsplanung)

1) Bivariate lineare Regression: Geradengleichung -> Minimierung Fehlerquote, Regressionskoedffizient, Korrelationskoeffizient und Bestimmtheitsmaß berechnen
2) Multivariate lineare Regresssion: Linearkombination, Berechnung des korrigierten Bestimmheitsmaßes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Was ist die Verbindung von Data Science zu KI?

A

Data Science verwendet und passt die Algorithmen und Methoden der KI an, um aufgrund von zugrunde liegenden Daten vorhersagen treffen zu können => ML & Neuronale Netze

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Was ist die Verbindung von Big Data zu KI?

A

Für KI wird eine große Datenmenge beötigt, erst hier durch kann der Mehrwert generiert werden. Wichtigste Technoligen -> Neuronale Netze

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Welche Zeichen und Datentypen gibt es?

A

1) Arabische Zahlen, ASCII

2) Ganze Zhalen, Gleitkommazahlen, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Welche Skalenniveaus gibt es?

A

Daten:

  • > Norminalskala (keine Rangordnung)
  • > Ordinalskala (Rangordnung ohne Abstände) -> Meist diskutiert
  • > Kardinal-Metrische Skala (Rangordnung) -> Meist stetig
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Was sind kriterien für gute Datenqualität?

A
  • Glaubwürdigkeit -> Korrektheit, Konsistenz
  • Nützlichkeit -> Vollständig, Genauigkeit
  • Interpretierbarkeit -> Einheitlichkeit, Eindeutigkeit
  • Schlüssenintegrität (relationel) -> Eindeutig zurordnenbar
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Wie können Daten visualisiert werden?

A

Balken, Torte, Linie, Fläche, Scatterplot, Blasen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Wie sieht eine Modellierung aus vom Ablauf?

A

Partitionierung/Sampling: Trainingsdaten [Modell]
=>
Daten: Validierungsdaten [Trainiertes Modell] -> Testdaten [Finales Modell]
=>
Neue Daten [Finales Modell]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Wofür nutzt der Online-Handel die Assoziationsanalyse?

A
  1. Recommender-System -> Wir empfehlen auch
  2. Cross-Selling => zusätzliche Verkäufe
  3. Up-Selling => höherwertiges Produkt verkaufen
32
Q

Wie wird eine Assoziationsanalyse durchgeführt?

A
  1. Schritt: Warenkorbanalyse:
    - Sammlung von statistischen Analysemethoden zur Erstllung von Abhängigkeiten
    - Menge aller innerhalb eines Zeitraums gekaufter Produkte
  2. Assoziationsregel:
    - Beschreibung Korrelation zwischen gemeinsam auftretender Dingen
  3. Assoziationsanalyse:
    - Zweck ist das ermitteln von items, die das Auftreten anderer Items innerhalb einer Transaktion implizieren
33
Q

Nenne alle Paratemer für die Rechnung!

A
i = item
t= transaction
D = Datenbasis
a->b = Assozationsregel
D = Alle transaktionen
Ta= Transaktion zu A
Tb= Transaktion zu B
Tab= Transaktion zu A mit B und B mit A = A und B
34
Q

Wie berechnet sind der confidence ?

A

Confidence (x->y) ) = Txy/Tx

Confidence (y->x) ) = Tyx/Ty

35
Q

Wie berechnet sind der lift ? Was sind die Maßnahmen aus dem Lift? Wie lässt sich eine Interpratation beschreiben?

A

Lift (x->y) = Lift (y->x) = (TabD)/(TaTb)
<1 => Up-Selling
=1 => keine spez. Aktion
>1 => Cross-Selling (komplementär)

Bsp. Lift= 10.
Interpreation: Der Kauf von Schuhen ist um 10x, wenn eine Schuhcreme (oder umgekehrt) gekauft wurde, somit gibt es ein hohes Cross-selling potenzial
Anwendung im stationären Handel: Zahnpasta neben den zahnbürsten platzieren
Anweundung im Online-Handel: Andere kaufen auch das Produkt
=> Bei beiden Bundleangebote

Lift= 0,5 Der Kauf von Schuhen ist halb so hoch und daher wird Up-Selling empfohlen. Da die Schuhe mehr kosten von Schuhcreme auf Schuhe.
Stationärer Handel: Verkäufer bietet Schuhe anstatt schuhcreme an, wenn jemand schuhcreme kauft
Online-Handel: Suche nach Schuhcreme => Schuhe werden angeoten oben in der Trefferliste

36
Q

Was sind die Merkmale und Gütekritierien für die Clusteranalyse?
Darstellungsformen der Clusteranalyse?

A

Merkmale:

  • Schaffung von einheitlichen, homogen Objekteilmengen,
  • Verfahrung zur Schaffung von Segmente
  • Unsupervised learning ohne label (ziele)

Gütekriterien:

1) Homogenität eines Cluster
- > Standardbweichung und Varianz als Homogenitätsmaß sollten für die Objekte innerhalb der Clsuter möglichst klein sein
2) Heterogenität zwischen den Cluster
- > Mittelwert als heterognetitätsmaß. Die Mittelwerte der Merkmal sollten sich deutlich unterscheiden

Darstellung:

1) Dendogramm
2) Struktogramm

37
Q

Welche Verfahren gibt es in derClusteranalyse + Defintion

A

ist ein Segmentverfahren zur Gruppenbildung homogener Objekte. Die Gruppen sind möglichst heterogen zueinander. Unsupervised learning, weil die Zielwerte unbekannt sind.

Hierarchische Verfahren: Bottom-Up agglomerative
Top-down divisive

Partitionierende Verfahren: k-mean: Objekte werden nach und nach zugeordnet, wobei das Zentrum immer neu berechnet wird.

38
Q

Welche Klassifikationsmethoden gibt es? und fasse diese Kurz zusammen.

A
  1. Binäre Klassifikation:
    - Alle Objekte sind bereit Klassen zugeordnet
    - Durch Training soll funktion erlernt werden zukünftige neue Objekt aufgrund ihrer Attribute zu klassifizieren
    - Gütekriterien zum Vergleich von Verfahren & Einschätzen
    - Confusion Matrix als wichtiges Hilfsmittel der Modellevaluation
  2. Naive Bytes:
    - > Einfaches Verfahren auf Basis wahrscheinlichkeitstheoretischer Grundlage
    - > Zur Klassifikation die wahrscheinliste Hypothese suche
    - > Effizienz & schnell, aber nur bei vereinfachten Annahmen
  3. Entscheidungsbaumanalyse:
    - > Ermöglicht die Ableitung einfacher Regeln, für die Entscheidungen. Neue Obejekte automatisch den bestehenden Klassen zuordnen.
    - > OBjekte werden durch Attribut-Wert-Paare beschrieben und durch vollständige Pfade klassifiziert
39
Q

Was sind die Messgrößen bei der binären Klassifikation?

A

True positive => positive Datensätze werden als korrekt klassifiziert
true negative => negative Datensätze werden als korrekt klassifiziert
false positive => positive Datensätze werden als falsch klassifiziert
false negative => negative Datensätze werden als falsch klassifiziert

40
Q

Wie lässt sich die Güte von Klassifikation ermitteln und was sind Darstellungsformen?

A
  1. Spezifität (correct rejection rate) und falsch-positiv-rate (Ausfallrate
  2. Sensitivity: (trefferquote) und Falsch-negative (miss-rate
  3. Postiver (wirksamkeit) und negativer Vorhersagewert (Trennfähigkeit)
  4. Korrekt- (Vertraungswacheinlichkeit) und Falschklassifikation
  5. Kombinierte Maße ( Überprüfung, wie sich Gterkriterien beeinflussen)

Darsteluung : ROC darstellung für sensitivität und spezifität
AURC (area under ROC curve) (Je größer die fläche, desto besser die Aussagen)

41
Q

Was sind die Vor- und Nachteile von Naive Bytes?

A

Vorteile:
-einfach zu programmieren
-keine großen trainingsmengen nötig
-trotz stark vereinfachten Annahme seh effizient
Nachteile:
-Unabhängigkeitsnnahme stimmt fast nie
-Es gibt “bessere” Klassifikationsverfahren

42
Q

Was ist bei der Entscheidungsbaumanalyse post- und pre-pruning

A

Dadurch vermeidet man Overfitting!

Post-pruning -> nach dem Training unnötige Objekte entfernen
Pre-pruning -> während des Trainings rechzeitiges Abbrechen Baum bleibt so

43
Q

Was sind die Vor- und Nachteile der Entscheidungsbaumanalyse

A
Vorteile:
-einfache Nachvollziehbar, Anwendbar
-Effizientes Lernen aus vielen Beispielen möglich
-Gute Klassifikationsgüte
Nachteile:
-Nicht robust gegenüber Rauschen
-Tendenz zum Overfitting
44
Q

Wie unterscheiden sich Interpolation und Extrapolation bei der Regressionsanalyse?

A

Interpolation: -> Abschätzung unbekannter Werte zw. bekannten Werten
Extrpolation: -> Abschätzung in Bereichen, wo keien Daten vorhanden sind = Prognose

45
Q

Was für Prognosen gibt es bei der Regressionsanalyse?

A

1) Entwicklungsprognose: Vorhersagen über Werte, die nicht beeinflusst werden können
Verfahren: KNN
2) Wirkungsprognose: Analyse kausaler Effekte, einstellbarer Variablen
Verfahren: Multivariante Regression

46
Q

Was ist der unterschied zwischen korrelation vs. Regression?

A

Korrelation untersucht die ungerichteten Zusammenhänge zwischen metrischen Variablen.

EIne Regressionsanalyse bildet dagegen einen funktionalen Zusammenhang der unabhängigen Variablen von einer der mehreren abhängigen Variablen ab.

47
Q

Was ist linearen Regression? und was sind gütekriterien?

A

Modellierung der Beziehung zwischen einer abhänigen und mind. einer unabhänigen Variablen.

Funktionaler Zusammenhang.

MSE= Der mittlere quadratische Fehler
MAD= Der mittlere absoluten Fehler
MAPE= Der mittlere absolute prozentuale Fehler
48
Q

Was ist die gemeinsamkeit und sind die unterschiede zwischen Regressionsanalyse und Klassifikation?

A

Gemeinsam: Überwachten lernen
Unterschiede:

Regression

  • Kontinuierlicher Zielwert
  • metrische Skalen
  • Trendlinie

Klassifikation

  • diskrete Zielwerte
  • Normalskala
  • trennlinie
49
Q

Was ist Enseble Learning?

A

Technik im ML im Bereich Predictive Analytics genauer der Klassifikation. und Regressionsanalyse.
Gruppen von modellen werden trainniert und bilden ein komitee, um aggregiertr Vorhersagen zu machen, dieid.R. eine bessere Vorhersagensgüte und eine geringere Überanpassung als das einzelne Modell haben (supervised learning)

50
Q

Was ist “parallele Verfahren” im Zusammenhang mit Enseble Learning?

A

A) Modelle parallel mit vielen Stichproben trainieren
1) Bagging:
-Auf Basis von Trainingsmengen werden neue Strichproben erzeugt
-Zufälliges ziehen mit zurücklegen
2) Pasting: WIe Bagging nur ziehen ohne zurücklegen -> disjunkte Stichproben
Voraussetzung: Genügend Stichproben

B) Stacking
wie Bagging oder Pasting, aber:
Optimierung der Abstimmungsverfahren
Dieser Meta-Lerner bekommt die Vorhersagen der einzelnen Modelle des Ensembles als Input-Werte und benutzt diese als Trainingsdaten, um mittels eines geeigneten Lernalgorithmus die tatsächliche Zielwerte möglichst gut zu reproduzieren

51
Q

Was ist Boosting /Ada Boosting bzw. sequentielle Verfahren im Zusammenhang mti Enseble Learning?

A

Sequentiell, itteratives Verfahren, welche die Schwächen des vorherigen Modells nutzt, um dieses im nächsten Schirtt zu verstärken und ein Starkes Modell zu schaffen

1.ada-Boosting -> 1. normales training 2. validierung 3.Schwierige Trainingsdaten höher gewichten

52
Q

Was ist ein Random Foret und ein Gradient Boosted Tree?

A

Random Forest = Bagging + Entscheidungsbaum

Gradient Boosted Tree = Boosting + Entscheidungsbaum

53
Q

Was ist ein Agglomeratives Clusterverfahren (hierarchisches Verfahren)?

A
  • Bottom-up-prinzip
  • beginnend mit k lcustern werden die ähnlichen clsuter zusammengefasst
  • Ähnliche Cluster werden basierend auf K immer größer zusammengefasst
  • Dabei wird die Distanzmatrix zu den Objekten berechnet
  • Die MAtrix wird für jede “Vergrößung” der Zusammenfassung neu berechnet, bis jedes Objekt zu einem Cluster gehört
54
Q

Was ist ein divisives Clusterverfahren(hierarchisches Verfahren)?

A
  • top-down-ansatz

- Beginnend mit nur einem Cluster werden die Daten weiter aufgeteilt in immer heterogener Clsuter

55
Q

Was ist die k-mean Methode bzw. das Vorgehen?(hierarchisches Verfahren)

A

Clusterzentren => Vorgehen:
K Cluster-zentren zufällig wählen
1. Ordne jedes Obejkt je nach Distanz genau einem Zentrum zu
2. Neuberechnung der k-Cluster zentren
3. Wiederhole die beiden Schritte bis zur Konvergenz

56
Q

Wie werden Cluster-Distanzen berechnet?

A
  1. Singel Linkage: minimale Distanz
  2. Complete Linkage: Maximale Distanz
  3. Avarage Linkage: mittlerere Distanz
  4. Zentroid: Abstand der Schwerpunkte (mittlerer Wert)
57
Q

Was sind die Vor- und Nachteile von Clustering?

A

Vorteile:

  • Für kleine Datensätze geeignet
  • Anzahl der Cluster muss nicht vorbestimmt werden
  • Komplexe Distanzmaße möglich
  • Visualisierung als Dendrogramm

Nachteile:
-Schlechte Laufzeit (Performance): Anzahl Distanzen ∼ 𝑛2, 𝑛 Iterationen
-Eine endgültige Zuordnung erfolgt nicht, d.h. der Anwender muss selbst entscheiden, wo im Dendrogramm
der „Schnitt“ gemacht werden soll (ggf. Elbow-Kriterium im Struktogramm benutzen)
-Ausreißer können zu winzigen Clustern führen

58
Q

Was sind die Vor- und Nachteile von Assoziationsanalyse (apriori algorithmus)?

A

Vorteile
 Nutzt die Monotonie-Bedingung aus, um den Lösungsraum zu verkleinern.
 Effiziente Möglichkeit die Candidate Itemsets zu speichern (Hash-Tree-Speicherung)
 Gute Performance (im Vergleich zu früheren Algorithmen wie AIS oder SetM)
 Apriori-MapReduce-Algorithmus in einer Hadoop-Umgebung (Big Data)

Nachteile
 Parameterwahl (Mindestsupport, Mindestconfidence)
 Für große k werden (zu) viele Datenbank-Scans notwendig
 Für kleine k werden (zu) viele Candidate itemsets berechnet (=> Frequent Pattern Growth (FPG))
 Häufig werden (zu) viele Assoziationsregeln generiert (=> ggf. Mindestlift zur Filterung)

59
Q

Was sind die Vor- und Nachteile von Regressionsanalyse?

A
Vorteile
 Einfache Methode zur Prognose
 Solides mathematisch fundiertes Modell
 Viele Anwendungsmöglichkeiten
 In Excel bereits integriert, in vielen anderen Anwendungen ebenfalls

Nachteile
 Auswahl der Funktionenklasse (linear, polynomial, logarithmisch, exponentiell, …)
 Scheinkorrelationen möglich
 Systematische Störungen verfälschen das Ergebnis
 Überanpassung (Overfitting) möglich, insbes. bei vielen Modellparametern

60
Q

Was ist Kreuzvalidierung?

A

Eine Methode bei dem du mit allen Daten validierst. Z.b Leave one out

61
Q

Was ist Gradient Boosting bzw. ein sequentielles Verfahren im ensemble learning?

A

Basis: Gradientverfahren
-Fehlerfunktion / Kostenfunkton / Loss function wird partiell nach den Gewichtungen abgeleitet
Iteratives Verfahren

Iteratives Verfahren: Richtung und Größe dieses Gradienten werden zur Fehlerkorrektur und für den nächsten Versuch verwendet
-Nächster Versuch = neues Modell

62
Q

Vor- und Nachtteile Ensemble Learning

A

Vorteile:

  • Oft wird eine bessere Genauigkeit erzielt als mit den einzelnen Modellen
  • Für Klassifikations- und Regressionsaufgaben gleichermaßen einsetzbar
  • Kann für verschiedene Modelle (nicht nur Entscheidungsbäume) verwendet werden

Nachteile:
-Ergebnisse sind nun nicht mehr nachvollziehbar, wie ggf. bei den einzelnen Modellen

63
Q

Vor- und Nachteile Bagging

A

Vorteile

  • Bagging: Zusätzliche Informationen (Wichtigkeit der Attribute) werden geliefert
  • Bagging: Parallelisierung des Trainings der einzelnen Modelle ist ggf. möglich

Nachteile

  • Bagging: Große Datenmengen werden benötigt
  • Bagging: Mehr Rechenzeit für die Vorhersage wird benötigt
  • Boosting: Sehr rechenintensives Training, falls Parallelisierung nicht möglich ist
  • Boosting: Eine Überanpassung (Overfitting) ist möglich
64
Q

Vor- und Nachteile

Künstliche Neuronale Netzwerke

A

Vorteile
 Lernfähigkeit und Generalisierungsfähigkeit
 Adaptionsfähigkeit: Auch ohne Kenntnis von (komplexen) Ursache-Wirkungs-Zusammenhängen kann Verhalten über
Ein- und Ausgangsdaten nachgebildet werden
 Fehlertoleranz (bspw. bei verrauschten Daten) und Verarbeitung ungenauer oder sogar widersprüchlicher
Informationen

Nachteile
 Auswahl und Vorverarbeitung der Trainingsdaten (Inputs): „Blei => Gold“?
 Training: viele Parameter => hohe Dimension => globales Optimum?
 Überanpassung (Overfitting) möglich, d.h. schlechte Generalisierungsleistung
 Black Box: Man bekommt kein verständliches Modell (für die Ursache-Wirkungs-Beziehungen)

65
Q

Was sind Künstliche Neuronale Netze?

A
  • eingerichteter, gewichteter Graph mit künstlichen Neuronen als Knoten und Verbindungen
  • eigener Bereich der KI
  • sind Computerprogramme, die der Funktionsweise des Gehirn nachempfunden sind
  • sind vielseitig einsetzbar & können u.a.zur Klassifikation und zur Regression verwendet werden
  • Adaptionsfähig
66
Q

Merkmale von KNN?

A

Algorithmen, nach dem das KNN lernt, für ein vorgegeben Eingabe (input) eine gewünscht Ausgabe (output) zu produzieren Input ->Blackbox -> output

67
Q

Multilayer Perzeption (MLP) von KNN

A
Vollständig verbundene, vortwärts-gerichtetes KNN mit Neuronen in verborgenen Schichten
- Eingabeschicht (input-layer)
-verborgene Schicht (hidden layer)
-Ausgabeschicht (outpur layer)
Lernen:
-element hinzufügen
-element löschen
-element ändern)
68
Q

Vor- und Nachteile von KNN?

A

Vorteile
-Lernfähigkeit und Generalisierungsfähigkeit
-Adaptionsfähigkeit: Auch ohne Kenntnis von (komplexen) Ursache-Wirkungs-Zusammenhängen kann Verhalten über
Ein- und Ausgangsdaten nachgebildet werden
-Fehlertoleranz (bspw. bei verrauschten Daten) und Verarbeitung ungenauer oder sogar widersprüchlicher
Informationen

Nachteile

  • Auswahl und Vorverarbeitung der Trainingsdaten (Inputs): „Blei => Gold“?
  • Training: viele Parameter => hohe Dimension => globales Optimum?
  • Überanpassung (Overfitting) möglich, d.h. schlechte Generalisierungsleistung
  • Black Box: Man bekommt kein verständliches Modell (für die Ursache-Wirkungs-Beziehungen)
69
Q

Welche Knoten werden im Knime in Phase 2 Data Understanding genutzt?

A
  1. CSV Reader: Um die (Trainings- / Test-) Daten einzulesen
  2. ValueCounter: Zähl die Anzahl der Vorkomnisse aller Werte in einer ausgewählten Spalte
  3. Statistics: Um erste Analysen durchzuführen (Min, Max, Standardabweichung, etc.)
  4. Concatenate: Um die (Trainings- / Test-) Daten zusammenzuführen
70
Q

Welche Knoten werden in KNIME in Phase 3 genutzt?

A
  1. Missing Value: hilft bei der Behandlung fehlender Daten (innerhalb der Zeilen)
  2. Number to String: Konvertiert Zahlen (in einer Spalte) in Zeichenfolgen
  3. Category to Number: Spalten mit nominalen Daten werden als ganze Zahl abgebildet
  4. Raumsplitter: Aufteilung der Zeilen nach bestimmten Kritierien
  5. Correlation Filter: Um Stark korrelierende Spalten zu entfernen (Komplexitätsreduzierung)
  6. Equal size sampling: Um das Ungeichgewicht in der Datenmengen ins Gleichgewicht zu bringen. Dadurch wird das Modell nicht stärker in eine Richtung trainiert
71
Q

Welche Knoten werden in KNIMEin Phase 4 genutzt?

A
  1. X-Partitioner (bei superv. Learning.): Um die Daten zu partitionieren
  2. ” Predictor: Um das Modell mit den Validierungsdaten zu validieren
  3. “Learner: Um das Modell mit den Trainingsdaten zu trainieren
  4. “X-Aggregator”: Um Validierunsgregeln zu aggregieren
  5. “Scorer”: -Um gemittelte Validierungsergebnisse anzuzeigen
  6. “ROC”: Knoten zur osualiserung
  7. “ScatterPlot”: Knoten zur Visualierung
72
Q

Was ist Data Science? Welche Felder umfasst Data Science und was sind die typischen Aufgaben eines Data Scientists?

A

1.Felder: Mathematik & Statistik, Domänenwissen und Fachwissen, Information
2. Diziplinen: Forschung, Machine Learning, Software Engineering
3. Aufgaben: Diziplinen von oben, Datenverarbeitung, Datenbearbeitung, Datenanalyse, Anwendung von Datenanalyseverfahren und Datenvisualierung. Daraus folgt Musterkennung und Erkenntnisgewinnung.
Nutzt: Data Mining, Knowledge Discovery in Databases (KDD), Machine Learning

73
Q

Wie berechnet man den Support und wie ist dieser zu interpretieren?

A

Support (A->B) = Support (B->A)= Tab/D

Interpreation : Geringer Support = untergeordnete Rolle für die Gesamttransaktionen
Für den Support spielt es keine Rolle, welches Produkt zuerst gekauft wurde

74
Q

Gütekriterien von der Klassifikation?

A

Vier-Felder-Tafel:
-Konfusionsmatrix
Receiver Operating Chracteristics (ROC):
-Identifizierung der optimalen Parameter eines Lernverfahrens

75
Q

Wie heißt der Algorithmus der Entscheidungsbaumanalyse?

A

IDE3, CART

76
Q

Wie funktioniert der Apiori Algorithmus?

A

Damit können assoziationsregeln der Form A->B aus einer Vielzahl von Transactionen gefunden werden. Wenn A vorkommt, dann kommt auch B ( mit einer gewissen wahrscheinlichkeit) vor.
Standisiertes Verfahren zur Bildung von Assoziationsregeln:
Phase 1: Suche frequent Intemset (iterativ)
Phase 2: Bilde Assoziationsregeln (iteratik, rekursiv)