Data Science & AI Flashcards

Question

Was ist die Verbindung von Big Data zu KI?

Answer 1

Für KI wird eine große Datenmenge beötigt, erst hier durch kann der Mehrwert generiert werden. Wichtigste Technoligen -> Neuronale Netze

Answer 2

1) Arabische Zahlen, ASCII | 2) Ganze Zhalen, Gleitkommazahlen, etc.

Answer 3

Daten: - > Norminalskala (keine Rangordnung) - > Ordinalskala (Rangordnung ohne Abstände) -> Meist diskutiert - > Kardinal-Metrische Skala (Rangordnung) -> Meist stetig

Answer 4

- Glaubwürdigkeit -> Korrektheit, Konsistenz - Nützlichkeit -> Vollständig, Genauigkeit - Interpretierbarkeit -> Einheitlichkeit, Eindeutigkeit - Schlüssenintegrität (relationel) -> Eindeutig zurordnenbar

Answer 5

Balken, Torte, Linie, Fläche, Scatterplot, Blasen

Answer 6

Partitionierung/Sampling: Trainingsdaten [Modell] => Daten: Validierungsdaten [Trainiertes Modell] -> Testdaten [Finales Modell] => Neue Daten [Finales Modell]

Answer 7

1. Recommender-System -> Wir empfehlen auch 2. Cross-Selling => zusätzliche Verkäufe 3. Up-Selling => höherwertiges Produkt verkaufen

Answer 8

1. Schritt: Warenkorbanalyse: - Sammlung von statistischen Analysemethoden zur Erstllung von Abhängigkeiten - Menge aller innerhalb eines Zeitraums gekaufter Produkte 2. Assoziationsregel: - Beschreibung Korrelation zwischen gemeinsam auftretender Dingen 3. Assoziationsanalyse: - Zweck ist das ermitteln von items, die das Auftreten anderer Items innerhalb einer Transaktion implizieren

Answer 9

``` i = item t= transaction D = Datenbasis a->b = Assozationsregel D = Alle transaktionen Ta= Transaktion zu A Tb= Transaktion zu B Tab= Transaktion zu A mit B und B mit A = A und B ```

Answer 10

Confidence (x->y) ) = Txy/Tx | Confidence (y->x) ) = Tyx/Ty

Answer 11

Lift (x->y) = Lift (y->x) = (Tab*D)/(Ta*Tb) <1 => Up-Selling =1 => keine spez. Aktion >1 => Cross-Selling (komplementär) Bsp. Lift= 10. Interpreation: Der Kauf von Schuhen ist um 10x, wenn eine Schuhcreme (oder umgekehrt) gekauft wurde, somit gibt es ein hohes Cross-selling potenzial Anwendung im stationären Handel: Zahnpasta neben den zahnbürsten platzieren Anweundung im Online-Handel: Andere kaufen auch das Produkt => Bei beiden Bundleangebote Lift= 0,5 Der Kauf von Schuhen ist halb so hoch und daher wird Up-Selling empfohlen. Da die Schuhe mehr kosten von Schuhcreme auf Schuhe. Stationärer Handel: Verkäufer bietet Schuhe anstatt schuhcreme an, wenn jemand schuhcreme kauft Online-Handel: Suche nach Schuhcreme => Schuhe werden angeoten oben in der Trefferliste

Answer 12

Merkmale: - Schaffung von einheitlichen, homogen Objekteilmengen, - Verfahrung zur Schaffung von Segmente - Unsupervised learning ohne label (ziele) Gütekriterien: 1) Homogenität eines Cluster - > Standardbweichung und Varianz als Homogenitätsmaß sollten für die Objekte innerhalb der Clsuter möglichst klein sein 2) Heterogenität zwischen den Cluster - > Mittelwert als heterognetitätsmaß. Die Mittelwerte der Merkmal sollten sich deutlich unterscheiden Darstellung: 1) Dendogramm 2) Struktogramm

Answer 13

ist ein Segmentverfahren zur Gruppenbildung homogener Objekte. Die Gruppen sind möglichst heterogen zueinander. Unsupervised learning, weil die Zielwerte unbekannt sind. Hierarchische Verfahren: Bottom-Up agglomerative Top-down divisive Partitionierende Verfahren: k-mean: Objekte werden nach und nach zugeordnet, wobei das Zentrum immer neu berechnet wird.

Answer 14

1. Binäre Klassifikation: - Alle Objekte sind bereit Klassen zugeordnet - Durch Training soll funktion erlernt werden zukünftige neue Objekt aufgrund ihrer Attribute zu klassifizieren - Gütekriterien zum Vergleich von Verfahren & Einschätzen - Confusion Matrix als wichtiges Hilfsmittel der Modellevaluation 2. Naive Bytes: - > Einfaches Verfahren auf Basis wahrscheinlichkeitstheoretischer Grundlage - > Zur Klassifikation die wahrscheinliste Hypothese suche - > Effizienz & schnell, aber nur bei vereinfachten Annahmen 3. Entscheidungsbaumanalyse: - > Ermöglicht die Ableitung einfacher Regeln, für die Entscheidungen. Neue Obejekte automatisch den bestehenden Klassen zuordnen. - > OBjekte werden durch Attribut-Wert-Paare beschrieben und durch vollständige Pfade klassifiziert

Answer 15

True positive => positive Datensätze werden als korrekt klassifiziert true negative => negative Datensätze werden als korrekt klassifiziert false positive => positive Datensätze werden als falsch klassifiziert false negative => negative Datensätze werden als falsch klassifiziert

Answer 16

1. Spezifität (correct rejection rate) und falsch-positiv-rate (Ausfallrate 2. Sensitivity: (trefferquote) und Falsch-negative (miss-rate 3. Postiver (wirksamkeit) und negativer Vorhersagewert (Trennfähigkeit) 4. Korrekt- (Vertraungswacheinlichkeit) und Falschklassifikation 5. Kombinierte Maße ( Überprüfung, wie sich Gterkriterien beeinflussen) Darsteluung : ROC darstellung für sensitivität und spezifität AURC (area under ROC curve) (Je größer die fläche, desto besser die Aussagen)

Answer 17

Vorteile: -einfach zu programmieren -keine großen trainingsmengen nötig -trotz stark vereinfachten Annahme seh effizient Nachteile: -Unabhängigkeitsnnahme stimmt fast nie -Es gibt "bessere" Klassifikationsverfahren

Answer 18

Dadurch vermeidet man Overfitting! Post-pruning -> nach dem Training unnötige Objekte entfernen Pre-pruning -> während des Trainings rechzeitiges Abbrechen Baum bleibt so

Answer 19

``` Vorteile: -einfache Nachvollziehbar, Anwendbar -Effizientes Lernen aus vielen Beispielen möglich -Gute Klassifikationsgüte Nachteile: -Nicht robust gegenüber Rauschen -Tendenz zum Overfitting ```

Answer 20

Interpolation: -> Abschätzung unbekannter Werte zw. bekannten Werten Extrpolation: -> Abschätzung in Bereichen, wo keien Daten vorhanden sind = Prognose

Answer 21

1) Entwicklungsprognose: Vorhersagen über Werte, die nicht beeinflusst werden können Verfahren: KNN 2) Wirkungsprognose: Analyse kausaler Effekte, einstellbarer Variablen Verfahren: Multivariante Regression

Answer 22

Korrelation untersucht die ungerichteten Zusammenhänge zwischen metrischen Variablen. EIne Regressionsanalyse bildet dagegen einen funktionalen Zusammenhang der unabhängigen Variablen von einer der mehreren abhängigen Variablen ab.

Answer 23

Modellierung der Beziehung zwischen einer abhänigen und mind. einer unabhänigen Variablen. Funktionaler Zusammenhang. ``` MSE= Der mittlere quadratische Fehler MAD= Der mittlere absoluten Fehler MAPE= Der mittlere absolute prozentuale Fehler ```

Answer 24

Gemeinsam: Überwachten lernen Unterschiede: Regression - Kontinuierlicher Zielwert - metrische Skalen - Trendlinie Klassifikation - diskrete Zielwerte - Normalskala - trennlinie

Answer 25

Technik im ML im Bereich Predictive Analytics genauer der Klassifikation. und Regressionsanalyse. Gruppen von modellen werden trainniert und bilden ein komitee, um aggregiertr Vorhersagen zu machen, dieid.R. eine bessere Vorhersagensgüte und eine geringere Überanpassung als das einzelne Modell haben (supervised learning)

Answer 26

A) Modelle parallel mit vielen Stichproben trainieren 1) Bagging: -Auf Basis von Trainingsmengen werden neue Strichproben erzeugt -Zufälliges ziehen mit zurücklegen 2) Pasting: WIe Bagging nur ziehen ohne zurücklegen -> disjunkte Stichproben Voraussetzung: Genügend Stichproben B) Stacking wie Bagging oder Pasting, aber: Optimierung der Abstimmungsverfahren Dieser Meta-Lerner bekommt die Vorhersagen der einzelnen Modelle des Ensembles als Input-Werte und benutzt diese als Trainingsdaten, um mittels eines geeigneten Lernalgorithmus die tatsächliche Zielwerte möglichst gut zu reproduzieren

Answer 27

Sequentiell, itteratives Verfahren, welche die Schwächen des vorherigen Modells nutzt, um dieses im nächsten Schirtt zu verstärken und ein Starkes Modell zu schaffen 1.ada-Boosting -> 1. normales training 2. validierung 3.Schwierige Trainingsdaten höher gewichten

Answer 28

Random Forest = Bagging + Entscheidungsbaum | Gradient Boosted Tree = Boosting + Entscheidungsbaum

Answer 29

- Bottom-up-prinzip - beginnend mit k lcustern werden die ähnlichen clsuter zusammengefasst - Ähnliche Cluster werden basierend auf K immer größer zusammengefasst - Dabei wird die Distanzmatrix zu den Objekten berechnet - Die MAtrix wird für jede "Vergrößung" der Zusammenfassung neu berechnet, bis jedes Objekt zu einem Cluster gehört

Answer 30

- top-down-ansatz | - Beginnend mit nur einem Cluster werden die Daten weiter aufgeteilt in immer heterogener Clsuter

Answer 31

Clusterzentren => Vorgehen: K Cluster-zentren zufällig wählen 1. Ordne jedes Obejkt je nach Distanz genau einem Zentrum zu 2. Neuberechnung der k-Cluster zentren 3. Wiederhole die beiden Schritte bis zur Konvergenz

Answer 32

1. Singel Linkage: minimale Distanz 2. Complete Linkage: Maximale Distanz 3. Avarage Linkage: mittlerere Distanz 4. Zentroid: Abstand der Schwerpunkte (mittlerer Wert)

Answer 33

Vorteile: - Für kleine Datensätze geeignet - Anzahl der Cluster muss nicht vorbestimmt werden - Komplexe Distanzmaße möglich - Visualisierung als Dendrogramm Nachteile: -Schlechte Laufzeit (Performance): Anzahl Distanzen ∼ 𝑛2, 𝑛 Iterationen -Eine endgültige Zuordnung erfolgt nicht, d.h. der Anwender muss selbst entscheiden, wo im Dendrogramm der „Schnitt“ gemacht werden soll (ggf. Elbow-Kriterium im Struktogramm benutzen) -Ausreißer können zu winzigen Clustern führen

Answer 34

Vorteile  Nutzt die Monotonie-Bedingung aus, um den Lösungsraum zu verkleinern.  Effiziente Möglichkeit die Candidate Itemsets zu speichern (Hash-Tree-Speicherung)  Gute Performance (im Vergleich zu früheren Algorithmen wie AIS oder SetM)  Apriori-MapReduce-Algorithmus in einer Hadoop-Umgebung (Big Data) Nachteile  Parameterwahl (Mindestsupport, Mindestconfidence)  Für große k werden (zu) viele Datenbank-Scans notwendig  Für kleine k werden (zu) viele Candidate itemsets berechnet (=> Frequent Pattern Growth (FPG))  Häufig werden (zu) viele Assoziationsregeln generiert (=> ggf. Mindestlift zur Filterung)

Answer 35

``` Vorteile  Einfache Methode zur Prognose  Solides mathematisch fundiertes Modell  Viele Anwendungsmöglichkeiten  In Excel bereits integriert, in vielen anderen Anwendungen ebenfalls ``` Nachteile  Auswahl der Funktionenklasse (linear, polynomial, logarithmisch, exponentiell, ...)  Scheinkorrelationen möglich  Systematische Störungen verfälschen das Ergebnis  Überanpassung (Overfitting) möglich, insbes. bei vielen Modellparametern

Answer 36

Eine Methode bei dem du mit allen Daten validierst. Z.b Leave one out

Answer 37

Basis: Gradientverfahren -Fehlerfunktion / Kostenfunkton / Loss function wird partiell nach den Gewichtungen abgeleitet Iteratives Verfahren Iteratives Verfahren: Richtung und Größe dieses Gradienten werden zur Fehlerkorrektur und für den nächsten Versuch verwendet -Nächster Versuch = neues Modell

Answer 38

Vorteile: - Oft wird eine bessere Genauigkeit erzielt als mit den einzelnen Modellen - Für Klassifikations- und Regressionsaufgaben gleichermaßen einsetzbar - Kann für verschiedene Modelle (nicht nur Entscheidungsbäume) verwendet werden Nachteile: -Ergebnisse sind nun nicht mehr nachvollziehbar, wie ggf. bei den einzelnen Modellen

Answer 39

Vorteile - Bagging: Zusätzliche Informationen (Wichtigkeit der Attribute) werden geliefert - Bagging: Parallelisierung des Trainings der einzelnen Modelle ist ggf. möglich Nachteile - Bagging: Große Datenmengen werden benötigt - Bagging: Mehr Rechenzeit für die Vorhersage wird benötigt - Boosting: Sehr rechenintensives Training, falls Parallelisierung nicht möglich ist - Boosting: Eine Überanpassung (Overfitting) ist möglich

Answer 40

Vorteile  Lernfähigkeit und Generalisierungsfähigkeit  Adaptionsfähigkeit: Auch ohne Kenntnis von (komplexen) Ursache-Wirkungs-Zusammenhängen kann Verhalten über Ein- und Ausgangsdaten nachgebildet werden  Fehlertoleranz (bspw. bei verrauschten Daten) und Verarbeitung ungenauer oder sogar widersprüchlicher Informationen Nachteile  Auswahl und Vorverarbeitung der Trainingsdaten (Inputs): „Blei => Gold“?  Training: viele Parameter => hohe Dimension => globales Optimum?  Überanpassung (Overfitting) möglich, d.h. schlechte Generalisierungsleistung  Black Box: Man bekommt kein verständliches Modell (für die Ursache-Wirkungs-Beziehungen)

Answer 41

- eingerichteter, gewichteter Graph mit künstlichen Neuronen als Knoten und Verbindungen - eigener Bereich der KI - sind Computerprogramme, die der Funktionsweise des Gehirn nachempfunden sind - sind vielseitig einsetzbar & können u.a.zur Klassifikation und zur Regression verwendet werden - Adaptionsfähig

Answer 42

Algorithmen, nach dem das KNN lernt, für ein vorgegeben Eingabe (input) eine gewünscht Ausgabe (output) zu produzieren Input ->Blackbox -> output

Answer 43

``` Vollständig verbundene, vortwärts-gerichtetes KNN mit Neuronen in verborgenen Schichten - Eingabeschicht (input-layer) -verborgene Schicht (hidden layer) -Ausgabeschicht (outpur layer) Lernen: -element hinzufügen -element löschen -element ändern) ```

Answer 44

Vorteile -Lernfähigkeit und Generalisierungsfähigkeit -Adaptionsfähigkeit: Auch ohne Kenntnis von (komplexen) Ursache-Wirkungs-Zusammenhängen kann Verhalten über Ein- und Ausgangsdaten nachgebildet werden -Fehlertoleranz (bspw. bei verrauschten Daten) und Verarbeitung ungenauer oder sogar widersprüchlicher Informationen Nachteile - Auswahl und Vorverarbeitung der Trainingsdaten (Inputs): „Blei => Gold“? - Training: viele Parameter => hohe Dimension => globales Optimum? - Überanpassung (Overfitting) möglich, d.h. schlechte Generalisierungsleistung - Black Box: Man bekommt kein verständliches Modell (für die Ursache-Wirkungs-Beziehungen)

Answer 45

1. CSV Reader: Um die (Trainings- / Test-) Daten einzulesen 2. ValueCounter: Zähl die Anzahl der Vorkomnisse aller Werte in einer ausgewählten Spalte 3. Statistics: Um erste Analysen durchzuführen (Min, Max, Standardabweichung, etc.) 4. Concatenate: Um die (Trainings- / Test-) Daten zusammenzuführen

Answer 46

1. Missing Value: hilft bei der Behandlung fehlender Daten (innerhalb der Zeilen) 2. Number to String: Konvertiert Zahlen (in einer Spalte) in Zeichenfolgen 3. Category to Number: Spalten mit nominalen Daten werden als ganze Zahl abgebildet 4. Raumsplitter: Aufteilung der Zeilen nach bestimmten Kritierien 5. Correlation Filter: Um Stark korrelierende Spalten zu entfernen (Komplexitätsreduzierung) 6. Equal size sampling: Um das Ungeichgewicht in der Datenmengen ins Gleichgewicht zu bringen. Dadurch wird das Modell nicht stärker in eine Richtung trainiert

Answer 47

1. X-Partitioner (bei superv. Learning.): Um die Daten zu partitionieren 2. " Predictor: Um das Modell mit den Validierungsdaten zu validieren 3. "Learner: Um das Modell mit den Trainingsdaten zu trainieren 4. "X-Aggregator": Um Validierunsgregeln zu aggregieren 5. "Scorer": -Um gemittelte Validierungsergebnisse anzuzeigen 6. "ROC": Knoten zur osualiserung 7. "ScatterPlot": Knoten zur Visualierung

Answer 48

1.Felder: Mathematik & Statistik, Domänenwissen und Fachwissen, Information 2. Diziplinen: Forschung, Machine Learning, Software Engineering 3. Aufgaben: Diziplinen von oben, Datenverarbeitung, Datenbearbeitung, Datenanalyse, Anwendung von Datenanalyseverfahren und Datenvisualierung. Daraus folgt Musterkennung und Erkenntnisgewinnung. Nutzt: Data Mining, Knowledge Discovery in Databases (KDD), Machine Learning

Answer 49

Support (A->B) = Support (B->A)= Tab/D Interpreation : Geringer Support = untergeordnete Rolle für die Gesamttransaktionen Für den Support spielt es keine Rolle, welches Produkt zuerst gekauft wurde

Answer 50

Vier-Felder-Tafel: -Konfusionsmatrix Receiver Operating Chracteristics (ROC): -Identifizierung der optimalen Parameter eines Lernverfahrens

Answer 51

IDE3, CART

Answer 52

Damit können assoziationsregeln der Form A->B aus einer Vielzahl von Transactionen gefunden werden. Wenn A vorkommt, dann kommt auch B ( mit einer gewissen wahrscheinlichkeit) vor. Standisiertes Verfahren zur Bildung von Assoziationsregeln: Phase 1: Suche frequent Intemset (iterativ) Phase 2: Bilde Assoziationsregeln (iteratik, rekursiv)

Data Science & AI Flashcards

(76 cards)