Data Science & AI Flashcards

1
Q

Wie werden Daten zu strategische Ressourcen?

A

Daten als Prozessergebnis => Daten als Befähiger von Prozessen => Daten als Befähiger von produkten => Daten als Produkt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche Datenkategorien gibt es im Datenschutz?

A

Allgemeine Daten (Inkl. Wirtschaftsdaten): Statistiken, Konstruktionsdaten, Produktionsdaten, Verkaufsdaten, etc.
Verstärkter Schutz
Personenbezogene Daten: Anschrift, Name, Geburtsdatum
Besonderer Schutz
Persönliche Daten: Telefongespräche, E-Mail
Besondere Arten: Gesundheit, Rasse, Religion
Weitere: Berufsgeheimnisse, Bankdaten, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind die Inhalte der DSGVO?

A

Aus Unternehmensperspektive:
Transparenz, Einwilligung, Zweckbindung, Gebot der Datenminimierung, Zeitbezug, Rechenschaftspflicht
Aus Data Science Perspektive:
Anonymisierung, Pseudonymisierung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. Was sind die wichtigsten Faktoren der IT-Sicherheit?
A
  1. Vetraulichkeit: Nicht von unbefugten einsehbar
  2. Integrität: Systeme können nicht unbemerkt verändert werden
  3. Verfügbarkeit: Die Systeme, Informationen, Netze sind verfügbar.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was bedeutet Informaionsethik? (Def.)

A

Es beschäftigt sich mit der Moral im Bezug auf Informationstechnolofgien. Damit verbunden, wie wir uns hinsichlich dieser Technologie verhalten oder verhalten sollen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind die vier V’s und “Value within the Data”

A

Volume: Data at rest (Terabytes, Petabytes, Exabytes)
Velocity: Data in motion (Echtzeit, neartime, Streams)
Variety: Data in many forms (Strukturierte, Semi-, Unstrukturierte Daten)
Veracity: Data in doubt (Fehlende, ungenaue, fehlerhaft Daten)
Value: Siehe Value Karte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Welche Ebenen von Nachsicht, Aktuell bis zur Vorhersage gibt es im Data Science im Sinne des “Value”? Und welche Frage steht dort im Fokus?

A

Prescriptive Analytics: Wie können wir es bewerkstelligen?
Predictive Analytics: Was wird passieren?
Diagnostic Analytics: Warum ist es passiert?
Descriptive Analytics: Was war geschehen?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist eine mögliche Definition von Data Mining & Knowledge Discovery in Databases (KDD)?

A

Data Mining ist ein Schritt im KDD-Prozess; es ist die Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Daten.
Data Mining ist die Extraktion und Entdeckung von implizitem, bisher nicht bekanntem und potenziell nützlichem Wissen aus Daten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist ein Algorithmus?

A

Ein Algorithmus ist eine aus endlich vielen Schritten bestehende eindeutige Handlungsvorschrift zur Lösung eines Problems oder einer Klasse von Problemen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sind Expertensysteme? Was ist Machine learning?

A
Expertensysteme:
Expertenwissen (Kausalität: Ursache-Wirkung)
Festes, definiertes Regelwerk
Viele Zeilen Quellcode
Es gibt keinen fehlerfreien Quelltext

Machinelles Lernen (ML):
Input-Output-Daten (statistische Korrelation)
Training, Validierung, Anwendung (dynamisch)
Wenige Zeilen Quellcode
Fehler? Daten, Training, Validierung, Anwendung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welche Arten von ML gibt es?

A
  1. Supervised Learning: Trainiert algorithmen, um klassification oder regressen mit einem labelled data set zu machen
  2. Unsupervised Learning: Trainiert algorithmen um Cluster oder assoziationen mit einem ungelabelden Dataset zu finden.
  3. Reinforcement Learning: Trainiert einen agenten um gewisse aktionen in einem Umgebebung ohne data set durchzuführen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie heißen die Phasen des CRISP-DM Modells? (DE/EN)

A
Geschäftsverständnis (Business Understanding)
Datenverständnis (Data Understanding)
Datenaufbereitung (Data Preparation)
Modellbildung (Data modelling)
Modellbewertung ( Evaluation)
Einsatz der Ergebnisse (Deployment)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Business Understanding?

A

Ziele: Domänenwissen aufbauen, Geschäftsverständnis entwickeln, Projektziele formulieren
Schritte / Aktivitäten: Geschäftsziel bestimmen, IST-Zustand analysieren, Analyseziele festlegen, Projektplan erstellen
*Fragen: *Was ist das Ziel dieser DM-Analyse? Welche Ergebnisse werden von wem wozu benötigt?
Zu welcher DM-Kategorie gehört diese Analyse? GIbt es erste Ideen/ Hypothesen, die übeprüft werden?
Antworten: Analyseziel: Vorhersage, ob ein Passagier überlebt oder nicht (Klassfikationsanalyse)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Data Understanding?

A
  • Ziele: *Datenverständnis entwickeln, Datenqualität analysieren und bewerten
  • Schritte / Aktivitäten: *Daten sammeln, Daten beschreiben, Daten untersuchen, Datenqualität prüfen
  • Fragen: *In welcher Form und Formaten sind die Daten gegeben? Können diese so verarbeitet werden?Wie können ggf. weiteren Daten beschafft werden? Sind die Datenwerte korrekt oder gibt es noch fehlerhafte Daten?
  • Antworten: *KNIME (bzw. Anaconda)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Data Preparation?

A
  • Ziele: *Datenqualität erhöhen und Daten für die Modellbildung vorbereiten
  • Schritte/Ziele: *Daten auswählen, Daten reinigen, Features extrahieren, Daten integrieren, Daten formatieren
  • Fragen: *In welcher Form werden die Daten vom Modell benötigt? Müssen Daten hierzu angepasst
    bzw. korrigiert werden? Sind die Daten konsistent? Wie gehen wir mit fehlenden Werten um?
  • Antworten: *KNIME (bzw. Anaconda)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Data modelling?*

A
  • Ziele: *Modell trainieren (mittels Lernalgorithmus) und validieren
  • Schritte/Ziele: *Verfahren auswählen, Testdesign aufbauen, Modell bilden, Modell bewerten
  • Fragen: *Gibt es bereits Verfahren und Lernalgorithmen, die wir als Modell verwenden können? Wie teilen wir unsere Daten für das Training und die Validierung auf? Welche Gütekriterien lassen sich berechnen? Wie kann man diese Werte interpretieren?
  • Antworten: *Klassifikationsverfahren: Naive Bayes, Entscheidungsbaum (Decision Tree), k Nearest Neighbor (kNN), Support Vector Machine (SVM), Künstliches Neuronales Netzwerk (KNN), Random Forrest, Gradient Boosted Trees usw. Als Gütekriterien können bspw. die Genauigkeit (Accuracy) und die Area under ROC curve (AURC) verwendet werden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Deployment?

A
  • Ziele:*Anwendung des „besten“ Modells
  • Schritte / Aktivitäten:* Einsatz planen, Kontrolle und Wartung planen, Bericht erstellen, Projekt validieren
  • Fragen:* Wie soll das „beste“ Modell nun eingesetzt werden? In welcher Form werden die Ergebnisse benötigt? Wie werden diese Ergebnisse dann weiterverarbeitet bzw. wer bekommt die Ergebnisse? Muss dieses ggf. in zeitlichen Abständen nachtrainiert werden?
  • Antworten:* Mit dem „besten“ Modell werden nun die Klassen (Überlebt, Nicht-überlebt) für die neuen Datenobjekte in den Testdaten berechnet. Die Ergebnisse werden als CSV-Datei (Spalten: ID, Survived) gespeichert und bei der Data Science Plattform Kaggle hochgeladen. Abschließend bekommt man einen Score als Bewertung / Feedback.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was sind die Ziele, Schritte/Aktivitäten, eine Frage und eine Antwort für Evaluation?

A
  • Ziele:* Finden des besten Models
  • Schritte / Aktivitäten:* Ergebnisse beurteilen, Prozess validieren, nächste Schritte festlegen
  • Fragen:* Welches ist das beste “Modell”? Ist das “beste” Modell genug? SInd weitere Iterationen nötig? Gibt es ggf. Schwächen im Prozess?
  • Antworten:* Die Frage muss im Kontext der jeweiligen Aufgabe & Ziele beantwortet werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was führte dazu, dass Daten so ein Bedeutung gewinnen?

A
  1. Datenvokumen nimmt exponentiell zu
  2. Mooeresches Gesetz (exponentieller Wachstum)
  3. CRM => Viele Daten
  4. Daten als Kapital
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Beschreibe eine Assoziationsanalyse und nennen ein Bespiel.

A

Suche nach Abhängigkeiten zwischen den Objekten.

z.B Warenkorbanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Beschreibe eine Clusteranalyse und nennen ein Bespiel.

A

Erschafffe einheitlicher, homogener Objektteilmengen. zB. Erstellen eines Kunden-Portfolios

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Beschreibe eine Klassifikationsanalyse und nennen ein Bespiel.

A

Aufteilung der Objekte in vordefinierten Klassen.

Z.B. Abwanderungsrate => Kundenbindungsmaßnahmen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Beschreibe eine Regressionsanalyse und nennen ein Bespiel.

A

Identifikation von Trends im Datenzeitbezug. => Vorhersagen in Verkauf und Umstaz (Absatz- / Produktionsplanung)

1) Bivariate lineare Regression: Geradengleichung -> Minimierung Fehlerquote, Regressionskoedffizient, Korrelationskoeffizient und Bestimmtheitsmaß berechnen
2) Multivariate lineare Regresssion: Linearkombination, Berechnung des korrigierten Bestimmheitsmaßes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Was ist die Verbindung von Data Science zu KI?

A

Data Science verwendet und passt die Algorithmen und Methoden der KI an, um aufgrund von zugrunde liegenden Daten vorhersagen treffen zu können => ML & Neuronale Netze

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Was ist die Verbindung von Big Data zu KI?
Für KI wird eine große Datenmenge beötigt, erst hier durch kann der Mehrwert generiert werden. Wichtigste Technoligen -> Neuronale Netze
26
Welche Zeichen und Datentypen gibt es?
1) Arabische Zahlen, ASCII | 2) Ganze Zhalen, Gleitkommazahlen, etc.
27
Welche Skalenniveaus gibt es?
Daten: - > Norminalskala (keine Rangordnung) - > Ordinalskala (Rangordnung ohne Abstände) -> Meist diskutiert - > Kardinal-Metrische Skala (Rangordnung) -> Meist stetig
28
Was sind kriterien für gute Datenqualität?
- Glaubwürdigkeit -> Korrektheit, Konsistenz - Nützlichkeit -> Vollständig, Genauigkeit - Interpretierbarkeit -> Einheitlichkeit, Eindeutigkeit - Schlüssenintegrität (relationel) -> Eindeutig zurordnenbar
29
Wie können Daten visualisiert werden?
Balken, Torte, Linie, Fläche, Scatterplot, Blasen
30
Wie sieht eine Modellierung aus vom Ablauf?
Partitionierung/Sampling: Trainingsdaten [Modell] => Daten: Validierungsdaten [Trainiertes Modell] -> Testdaten [Finales Modell] => Neue Daten [Finales Modell]
31
Wofür nutzt der Online-Handel die Assoziationsanalyse?
1. Recommender-System -> Wir empfehlen auch 2. Cross-Selling => zusätzliche Verkäufe 3. Up-Selling => höherwertiges Produkt verkaufen
32
Wie wird eine Assoziationsanalyse durchgeführt?
1. Schritt: Warenkorbanalyse: - Sammlung von statistischen Analysemethoden zur Erstllung von Abhängigkeiten - Menge aller innerhalb eines Zeitraums gekaufter Produkte 2. Assoziationsregel: - Beschreibung Korrelation zwischen gemeinsam auftretender Dingen 3. Assoziationsanalyse: - Zweck ist das ermitteln von items, die das Auftreten anderer Items innerhalb einer Transaktion implizieren
33
Nenne alle Paratemer für die Rechnung!
``` i = item t= transaction D = Datenbasis a->b = Assozationsregel D = Alle transaktionen Ta= Transaktion zu A Tb= Transaktion zu B Tab= Transaktion zu A mit B und B mit A = A und B ```
34
Wie berechnet sind der confidence ?
Confidence (x->y) ) = Txy/Tx | Confidence (y->x) ) = Tyx/Ty
35
Wie berechnet sind der lift ? Was sind die Maßnahmen aus dem Lift? Wie lässt sich eine Interpratation beschreiben?
Lift (x->y) = Lift (y->x) = (Tab*D)/(Ta*Tb) <1 => Up-Selling =1 => keine spez. Aktion >1 => Cross-Selling (komplementär) Bsp. Lift= 10. Interpreation: Der Kauf von Schuhen ist um 10x, wenn eine Schuhcreme (oder umgekehrt) gekauft wurde, somit gibt es ein hohes Cross-selling potenzial Anwendung im stationären Handel: Zahnpasta neben den zahnbürsten platzieren Anweundung im Online-Handel: Andere kaufen auch das Produkt => Bei beiden Bundleangebote Lift= 0,5 Der Kauf von Schuhen ist halb so hoch und daher wird Up-Selling empfohlen. Da die Schuhe mehr kosten von Schuhcreme auf Schuhe. Stationärer Handel: Verkäufer bietet Schuhe anstatt schuhcreme an, wenn jemand schuhcreme kauft Online-Handel: Suche nach Schuhcreme => Schuhe werden angeoten oben in der Trefferliste
36
Was sind die Merkmale und Gütekritierien für die Clusteranalyse? Darstellungsformen der Clusteranalyse?
Merkmale: - Schaffung von einheitlichen, homogen Objekteilmengen, - Verfahrung zur Schaffung von Segmente - Unsupervised learning ohne label (ziele) Gütekriterien: 1) Homogenität eines Cluster - > Standardbweichung und Varianz als Homogenitätsmaß sollten für die Objekte innerhalb der Clsuter möglichst klein sein 2) Heterogenität zwischen den Cluster - > Mittelwert als heterognetitätsmaß. Die Mittelwerte der Merkmal sollten sich deutlich unterscheiden Darstellung: 1) Dendogramm 2) Struktogramm
37
Welche Verfahren gibt es in derClusteranalyse + Defintion
ist ein Segmentverfahren zur Gruppenbildung homogener Objekte. Die Gruppen sind möglichst heterogen zueinander. Unsupervised learning, weil die Zielwerte unbekannt sind. Hierarchische Verfahren: Bottom-Up agglomerative Top-down divisive Partitionierende Verfahren: k-mean: Objekte werden nach und nach zugeordnet, wobei das Zentrum immer neu berechnet wird.
38
Welche Klassifikationsmethoden gibt es? und fasse diese Kurz zusammen.
1. Binäre Klassifikation: - Alle Objekte sind bereit Klassen zugeordnet - Durch Training soll funktion erlernt werden zukünftige neue Objekt aufgrund ihrer Attribute zu klassifizieren - Gütekriterien zum Vergleich von Verfahren & Einschätzen - Confusion Matrix als wichtiges Hilfsmittel der Modellevaluation 2. Naive Bytes: - > Einfaches Verfahren auf Basis wahrscheinlichkeitstheoretischer Grundlage - > Zur Klassifikation die wahrscheinliste Hypothese suche - > Effizienz & schnell, aber nur bei vereinfachten Annahmen 3. Entscheidungsbaumanalyse: - > Ermöglicht die Ableitung einfacher Regeln, für die Entscheidungen. Neue Obejekte automatisch den bestehenden Klassen zuordnen. - > OBjekte werden durch Attribut-Wert-Paare beschrieben und durch vollständige Pfade klassifiziert
39
Was sind die Messgrößen bei der binären Klassifikation?
True positive => positive Datensätze werden als korrekt klassifiziert true negative => negative Datensätze werden als korrekt klassifiziert false positive => positive Datensätze werden als falsch klassifiziert false negative => negative Datensätze werden als falsch klassifiziert
40
Wie lässt sich die Güte von Klassifikation ermitteln und was sind Darstellungsformen?
1. Spezifität (correct rejection rate) und falsch-positiv-rate (Ausfallrate 2. Sensitivity: (trefferquote) und Falsch-negative (miss-rate 3. Postiver (wirksamkeit) und negativer Vorhersagewert (Trennfähigkeit) 4. Korrekt- (Vertraungswacheinlichkeit) und Falschklassifikation 5. Kombinierte Maße ( Überprüfung, wie sich Gterkriterien beeinflussen) Darsteluung : ROC darstellung für sensitivität und spezifität AURC (area under ROC curve) (Je größer die fläche, desto besser die Aussagen)
41
Was sind die Vor- und Nachteile von Naive Bytes?
Vorteile: -einfach zu programmieren -keine großen trainingsmengen nötig -trotz stark vereinfachten Annahme seh effizient Nachteile: -Unabhängigkeitsnnahme stimmt fast nie -Es gibt "bessere" Klassifikationsverfahren
42
Was ist bei der Entscheidungsbaumanalyse post- und pre-pruning
Dadurch vermeidet man Overfitting! Post-pruning -> nach dem Training unnötige Objekte entfernen Pre-pruning -> während des Trainings rechzeitiges Abbrechen Baum bleibt so
43
Was sind die Vor- und Nachteile der Entscheidungsbaumanalyse
``` Vorteile: -einfache Nachvollziehbar, Anwendbar -Effizientes Lernen aus vielen Beispielen möglich -Gute Klassifikationsgüte Nachteile: -Nicht robust gegenüber Rauschen -Tendenz zum Overfitting ```
44
Wie unterscheiden sich Interpolation und Extrapolation bei der Regressionsanalyse?
Interpolation: -> Abschätzung unbekannter Werte zw. bekannten Werten Extrpolation: -> Abschätzung in Bereichen, wo keien Daten vorhanden sind = Prognose
45
Was für Prognosen gibt es bei der Regressionsanalyse?
1) Entwicklungsprognose: Vorhersagen über Werte, die nicht beeinflusst werden können Verfahren: KNN 2) Wirkungsprognose: Analyse kausaler Effekte, einstellbarer Variablen Verfahren: Multivariante Regression
46
Was ist der unterschied zwischen korrelation vs. Regression?
Korrelation untersucht die ungerichteten Zusammenhänge zwischen metrischen Variablen. EIne Regressionsanalyse bildet dagegen einen funktionalen Zusammenhang der unabhängigen Variablen von einer der mehreren abhängigen Variablen ab.
47
Was ist linearen Regression? und was sind gütekriterien?
Modellierung der Beziehung zwischen einer abhänigen und mind. einer unabhänigen Variablen. Funktionaler Zusammenhang. ``` MSE= Der mittlere quadratische Fehler MAD= Der mittlere absoluten Fehler MAPE= Der mittlere absolute prozentuale Fehler ```
48
Was ist die gemeinsamkeit und sind die unterschiede zwischen Regressionsanalyse und Klassifikation?
Gemeinsam: Überwachten lernen Unterschiede: Regression - Kontinuierlicher Zielwert - metrische Skalen - Trendlinie Klassifikation - diskrete Zielwerte - Normalskala - trennlinie
49
Was ist Enseble Learning?
Technik im ML im Bereich Predictive Analytics genauer der Klassifikation. und Regressionsanalyse. Gruppen von modellen werden trainniert und bilden ein komitee, um aggregiertr Vorhersagen zu machen, dieid.R. eine bessere Vorhersagensgüte und eine geringere Überanpassung als das einzelne Modell haben (supervised learning)
50
Was ist "parallele Verfahren" im Zusammenhang mit Enseble Learning?
A) Modelle parallel mit vielen Stichproben trainieren 1) Bagging: -Auf Basis von Trainingsmengen werden neue Strichproben erzeugt -Zufälliges ziehen mit zurücklegen 2) Pasting: WIe Bagging nur ziehen ohne zurücklegen -> disjunkte Stichproben Voraussetzung: Genügend Stichproben B) Stacking wie Bagging oder Pasting, aber: Optimierung der Abstimmungsverfahren Dieser Meta-Lerner bekommt die Vorhersagen der einzelnen Modelle des Ensembles als Input-Werte und benutzt diese als Trainingsdaten, um mittels eines geeigneten Lernalgorithmus die tatsächliche Zielwerte möglichst gut zu reproduzieren
51
Was ist Boosting /Ada Boosting bzw. sequentielle Verfahren im Zusammenhang mti Enseble Learning?
Sequentiell, itteratives Verfahren, welche die Schwächen des vorherigen Modells nutzt, um dieses im nächsten Schirtt zu verstärken und ein Starkes Modell zu schaffen 1.ada-Boosting -> 1. normales training 2. validierung 3.Schwierige Trainingsdaten höher gewichten
52
Was ist ein Random Foret und ein Gradient Boosted Tree?
Random Forest = Bagging + Entscheidungsbaum | Gradient Boosted Tree = Boosting + Entscheidungsbaum
53
Was ist ein Agglomeratives Clusterverfahren (hierarchisches Verfahren)?
- Bottom-up-prinzip - beginnend mit k lcustern werden die ähnlichen clsuter zusammengefasst - Ähnliche Cluster werden basierend auf K immer größer zusammengefasst - Dabei wird die Distanzmatrix zu den Objekten berechnet - Die MAtrix wird für jede "Vergrößung" der Zusammenfassung neu berechnet, bis jedes Objekt zu einem Cluster gehört
54
Was ist ein divisives Clusterverfahren(hierarchisches Verfahren)?
- top-down-ansatz | - Beginnend mit nur einem Cluster werden die Daten weiter aufgeteilt in immer heterogener Clsuter
55
Was ist die k-mean Methode bzw. das Vorgehen?(hierarchisches Verfahren)
Clusterzentren => Vorgehen: K Cluster-zentren zufällig wählen 1. Ordne jedes Obejkt je nach Distanz genau einem Zentrum zu 2. Neuberechnung der k-Cluster zentren 3. Wiederhole die beiden Schritte bis zur Konvergenz
56
Wie werden Cluster-Distanzen berechnet?
1. Singel Linkage: minimale Distanz 2. Complete Linkage: Maximale Distanz 3. Avarage Linkage: mittlerere Distanz 4. Zentroid: Abstand der Schwerpunkte (mittlerer Wert)
57
Was sind die Vor- und Nachteile von Clustering?
Vorteile: - Für kleine Datensätze geeignet - Anzahl der Cluster muss nicht vorbestimmt werden - Komplexe Distanzmaße möglich - Visualisierung als Dendrogramm Nachteile: -Schlechte Laufzeit (Performance): Anzahl Distanzen ∼ 𝑛2, 𝑛 Iterationen -Eine endgültige Zuordnung erfolgt nicht, d.h. der Anwender muss selbst entscheiden, wo im Dendrogramm der „Schnitt“ gemacht werden soll (ggf. Elbow-Kriterium im Struktogramm benutzen) -Ausreißer können zu winzigen Clustern führen
58
Was sind die Vor- und Nachteile von Assoziationsanalyse (apriori algorithmus)?
Vorteile  Nutzt die Monotonie-Bedingung aus, um den Lösungsraum zu verkleinern.  Effiziente Möglichkeit die Candidate Itemsets zu speichern (Hash-Tree-Speicherung)  Gute Performance (im Vergleich zu früheren Algorithmen wie AIS oder SetM)  Apriori-MapReduce-Algorithmus in einer Hadoop-Umgebung (Big Data) Nachteile  Parameterwahl (Mindestsupport, Mindestconfidence)  Für große k werden (zu) viele Datenbank-Scans notwendig  Für kleine k werden (zu) viele Candidate itemsets berechnet (=> Frequent Pattern Growth (FPG))  Häufig werden (zu) viele Assoziationsregeln generiert (=> ggf. Mindestlift zur Filterung)
59
Was sind die Vor- und Nachteile von Regressionsanalyse?
``` Vorteile  Einfache Methode zur Prognose  Solides mathematisch fundiertes Modell  Viele Anwendungsmöglichkeiten  In Excel bereits integriert, in vielen anderen Anwendungen ebenfalls ``` Nachteile  Auswahl der Funktionenklasse (linear, polynomial, logarithmisch, exponentiell, ...)  Scheinkorrelationen möglich  Systematische Störungen verfälschen das Ergebnis  Überanpassung (Overfitting) möglich, insbes. bei vielen Modellparametern
60
Was ist Kreuzvalidierung?
Eine Methode bei dem du mit allen Daten validierst. Z.b Leave one out
61
Was ist Gradient Boosting bzw. ein sequentielles Verfahren im ensemble learning?
Basis: Gradientverfahren -Fehlerfunktion / Kostenfunkton / Loss function wird partiell nach den Gewichtungen abgeleitet Iteratives Verfahren Iteratives Verfahren: Richtung und Größe dieses Gradienten werden zur Fehlerkorrektur und für den nächsten Versuch verwendet -Nächster Versuch = neues Modell
62
Vor- und Nachtteile Ensemble Learning
Vorteile: - Oft wird eine bessere Genauigkeit erzielt als mit den einzelnen Modellen - Für Klassifikations- und Regressionsaufgaben gleichermaßen einsetzbar - Kann für verschiedene Modelle (nicht nur Entscheidungsbäume) verwendet werden Nachteile: -Ergebnisse sind nun nicht mehr nachvollziehbar, wie ggf. bei den einzelnen Modellen
63
Vor- und Nachteile Bagging
Vorteile - Bagging: Zusätzliche Informationen (Wichtigkeit der Attribute) werden geliefert - Bagging: Parallelisierung des Trainings der einzelnen Modelle ist ggf. möglich Nachteile - Bagging: Große Datenmengen werden benötigt - Bagging: Mehr Rechenzeit für die Vorhersage wird benötigt - Boosting: Sehr rechenintensives Training, falls Parallelisierung nicht möglich ist - Boosting: Eine Überanpassung (Overfitting) ist möglich
64
Vor- und Nachteile | Künstliche Neuronale Netzwerke
Vorteile  Lernfähigkeit und Generalisierungsfähigkeit  Adaptionsfähigkeit: Auch ohne Kenntnis von (komplexen) Ursache-Wirkungs-Zusammenhängen kann Verhalten über Ein- und Ausgangsdaten nachgebildet werden  Fehlertoleranz (bspw. bei verrauschten Daten) und Verarbeitung ungenauer oder sogar widersprüchlicher Informationen Nachteile  Auswahl und Vorverarbeitung der Trainingsdaten (Inputs): „Blei => Gold“?  Training: viele Parameter => hohe Dimension => globales Optimum?  Überanpassung (Overfitting) möglich, d.h. schlechte Generalisierungsleistung  Black Box: Man bekommt kein verständliches Modell (für die Ursache-Wirkungs-Beziehungen)
65
Was sind Künstliche Neuronale Netze?
- eingerichteter, gewichteter Graph mit künstlichen Neuronen als Knoten und Verbindungen - eigener Bereich der KI - sind Computerprogramme, die der Funktionsweise des Gehirn nachempfunden sind - sind vielseitig einsetzbar & können u.a.zur Klassifikation und zur Regression verwendet werden - Adaptionsfähig
66
Merkmale von KNN?
Algorithmen, nach dem das KNN lernt, für ein vorgegeben Eingabe (input) eine gewünscht Ausgabe (output) zu produzieren Input ->Blackbox -> output
67
Multilayer Perzeption (MLP) von KNN
``` Vollständig verbundene, vortwärts-gerichtetes KNN mit Neuronen in verborgenen Schichten - Eingabeschicht (input-layer) -verborgene Schicht (hidden layer) -Ausgabeschicht (outpur layer) Lernen: -element hinzufügen -element löschen -element ändern) ```
68
Vor- und Nachteile von KNN?
Vorteile -Lernfähigkeit und Generalisierungsfähigkeit -Adaptionsfähigkeit: Auch ohne Kenntnis von (komplexen) Ursache-Wirkungs-Zusammenhängen kann Verhalten über Ein- und Ausgangsdaten nachgebildet werden -Fehlertoleranz (bspw. bei verrauschten Daten) und Verarbeitung ungenauer oder sogar widersprüchlicher Informationen Nachteile - Auswahl und Vorverarbeitung der Trainingsdaten (Inputs): „Blei => Gold“? - Training: viele Parameter => hohe Dimension => globales Optimum? - Überanpassung (Overfitting) möglich, d.h. schlechte Generalisierungsleistung - Black Box: Man bekommt kein verständliches Modell (für die Ursache-Wirkungs-Beziehungen)
69
Welche Knoten werden im Knime in Phase 2 Data Understanding genutzt?
1. CSV Reader: Um die (Trainings- / Test-) Daten einzulesen 2. ValueCounter: Zähl die Anzahl der Vorkomnisse aller Werte in einer ausgewählten Spalte 3. Statistics: Um erste Analysen durchzuführen (Min, Max, Standardabweichung, etc.) 4. Concatenate: Um die (Trainings- / Test-) Daten zusammenzuführen
70
Welche Knoten werden in KNIME in Phase 3 genutzt?
1. Missing Value: hilft bei der Behandlung fehlender Daten (innerhalb der Zeilen) 2. Number to String: Konvertiert Zahlen (in einer Spalte) in Zeichenfolgen 3. Category to Number: Spalten mit nominalen Daten werden als ganze Zahl abgebildet 4. Raumsplitter: Aufteilung der Zeilen nach bestimmten Kritierien 5. Correlation Filter: Um Stark korrelierende Spalten zu entfernen (Komplexitätsreduzierung) 6. Equal size sampling: Um das Ungeichgewicht in der Datenmengen ins Gleichgewicht zu bringen. Dadurch wird das Modell nicht stärker in eine Richtung trainiert
71
Welche Knoten werden in KNIMEin Phase 4 genutzt?
1. X-Partitioner (bei superv. Learning.): Um die Daten zu partitionieren 2. " Predictor: Um das Modell mit den Validierungsdaten zu validieren 3. "Learner: Um das Modell mit den Trainingsdaten zu trainieren 4. "X-Aggregator": Um Validierunsgregeln zu aggregieren 5. "Scorer": -Um gemittelte Validierungsergebnisse anzuzeigen 6. "ROC": Knoten zur osualiserung 7. "ScatterPlot": Knoten zur Visualierung
72
Was ist Data Science? Welche Felder umfasst Data Science und was sind die typischen Aufgaben eines Data Scientists?
1.Felder: Mathematik & Statistik, Domänenwissen und Fachwissen, Information 2. Diziplinen: Forschung, Machine Learning, Software Engineering 3. Aufgaben: Diziplinen von oben, Datenverarbeitung, Datenbearbeitung, Datenanalyse, Anwendung von Datenanalyseverfahren und Datenvisualierung. Daraus folgt Musterkennung und Erkenntnisgewinnung. Nutzt: Data Mining, Knowledge Discovery in Databases (KDD), Machine Learning
73
Wie berechnet man den Support und wie ist dieser zu interpretieren?
Support (A->B) = Support (B->A)= Tab/D Interpreation : Geringer Support = untergeordnete Rolle für die Gesamttransaktionen Für den Support spielt es keine Rolle, welches Produkt zuerst gekauft wurde
74
Gütekriterien von der Klassifikation?
Vier-Felder-Tafel: -Konfusionsmatrix Receiver Operating Chracteristics (ROC): -Identifizierung der optimalen Parameter eines Lernverfahrens
75
Wie heißt der Algorithmus der Entscheidungsbaumanalyse?
IDE3, CART
76
Wie funktioniert der Apiori Algorithmus?
Damit können assoziationsregeln der Form A->B aus einer Vielzahl von Transactionen gefunden werden. Wenn A vorkommt, dann kommt auch B ( mit einer gewissen wahrscheinlichkeit) vor. Standisiertes Verfahren zur Bildung von Assoziationsregeln: Phase 1: Suche frequent Intemset (iterativ) Phase 2: Bilde Assoziationsregeln (iteratik, rekursiv)