Seminare Flashcards

1
Q

Maschinelles Lernen

A
  • Algorithmen, die - von Daten lernen
  • mehr informationen füren zu besseren Ergebnissen (Performance)
  • Erfahrung (Information) kommt von gelößten Problemen (Beispiele)
  • Modellbildung zur Worhersage, bei neuen Daten, nicht rechnen mit vorhandenen i.e häufigkeitsanalyse
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Arten von maschinellem Lernen

A

Supervised Learning:
* Menge vollständig gelabelter Daten notwendig
* Findet anhand vollständiger Datensätze Formeln, um neuen Beobachtungen eine Klasse oder einen Wert zuzuordnen
* labelling von Menschen durchgeführt -> zeitaufwändig
* im Vergleich sollen vorhergesagte Label so ähnlich wie möglich zu realen labeln sein
* Bsp:
-> Klassifikation = Qualitative Aussage, da
ein Feature aus dem Featurespace
zugeordnet wird
Ziel: Vorhersage der Kategorie einer neuen
Beobachtung
-> Regression = Quantitative Aussage, da ein
Wert aus einer geschaetzten Formel
errechnet wird

Unsupervised Learning:
* benötigt keine gelabelten Daten
* Cluster: gruppiert ähnliche Beobachtungen
* Ähnlichkeit innerhalb und Unähnlichkeit zwischen der Cluster muss gemessen werden
* Bsp: Clusteranalyse

Semi- Supervised Learning:
* Menge ungelabelter Beobachtungen
* Wenige gelabelte Beobachtungen
* Clusterinformationen und gelabelte Beobachtungen zur Vorhersage neuer Beobachtungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Beispiele Supervised Learning

A
  • Klassifikation: Beobachtungen werden eingegeben, daraus wird eine Funktion errechnet.
  • Größe, Typ -> Funktion -> Farbe
  • Folgend koennen nur die beobachtbaren Features eingegeben werden und das gesuchte wird errechnet
  • groß, solid -> geschätzte/errechnete Funktion -> vermutliche Farbe Ergbis kann auch falsch sein
  • Beispiele:
    -> Medizinische Diagnose i.e. krank oder gesund, Diagnose anhand von Symptomen
    -> Objekterkennung in digitalen Medien i.e. Person, Tier, Auto
    -> Detektion von Spam

Regression (Beispiele)
* Zahlungen -> Credit Score
* Zeit -> Mitgliedszahlen in sozialen Netzwerken
* Noten -> chancen für favorisierten Job
* Vorhersage des Körpergewichts einer
* Person, anhand der Körpergröße:
* Es werden vorhandene Daten als Ein- und Ausgabe eingesetzt um eine Funktion zu errechnen
* Größe -> Funktion (Regression) -> Gewicht
* Folgend kann nur die Größe eingegeben werden, daran wird das Gewicht errechnet Größe -> Funktion (Gewicht = β􀬴 + β􀬵(𝐺𝑟öß𝑒)) -> Gewicht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

K-neares neighbor

A
  • Lernen durch Analogie
  • Attribute werden als Vektoren behandelt
  • Trainingsinstanz mit dem gerinsten Abstand ist der nearest neighbour (NN)
  • Neue Daten werden Klassifiziert, indem sie mit dem NN verglichen werden und bekommen dessen Klasse zugewiesen
    -> hohe Errorrate der Klassifikation
  • Neue Daten mit Menge von k-NN verglichen und mit der am häufigsten vorkommenden Klasse klassifiziert
  • k sollte nicht restlos dividierbar durch die Anzahl der möglichen Klassen sein
  • k wird ideal wenn Errorrate minimal ist
  • allgemein, je mehr trainingsdaten vorhanden, desto größer sollte k sein wenn der Datensatz konsistent und nicht redundant ist, kann k kleiner sein als im originlen datensatz
  • Neue Daten können besser Klassifiziert werden, wenn Klassifikation der näherliegenden Nachbarn höher gewertet wird, als die der weiter entfernten Nachbarn
    -> gewichteter k-NN
  1. Identifiziere die k-nächsten Nachbarn von x unter allen Trainingsbeispielen
  2. Sei 𝑐𝑖 die häufigste Klasse unter den gefundenen k-nächsten Nachbarn
  3. Weise 𝑥 𝑐𝑖 zu.
    -> In einer Zwei-Klassen-Domäne sollte 𝒌 ungerade sein, um ein unentschieden
    zu vermeiden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Evaluation

A
  • Evaluation = Bewertung des genutzten Modells um rauszufinden, ob das gewünschte Ziel erreicht wurde
  • Stratifizierende Ansätze:
    -> Ansatz um unbalancierte Datensätze besser evaluieren zu können
  • > Unterteilung der Daten in Subsets (Schichten) und Aufteilung der Daten in den folds je Schicht.
    -> Sicherstellung der gleichmäßigen Repräsentation aller Klassen gem. ihren Anteilen im Datensatz
  • > Anwendbar für Random Subsampling und k-fold Cross-Validation
  • Split Test:
    -> Datensatz wird zufällig in Test und Trainingsdaten gespalten (meist 1:3)
    -> Kann aussagekräftige Ergebnisse auf sehr großen Datenmengen liefern
    -> Mehr Daten = besseres Modell, aber Testset nicht zu klein wählen
    -> Daten vor dem Split mischen
    -> Problem: Modellvarianz, da jedes mal unterschiedliche Test und Trainingsdaten
  • Random Subsampling:
    -> Split Test n-mal durchführen und Mittelwert und Standardabweichung ermitteln
  • > Problem: Unausgegliche Nutzung einzelner Daten als Test- Oder Trainingsdaten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

K-Fold Cross Validation

A
  • Partitionierung in k gleich große Partitionen, jede Partition ist genau ein mal Testdatensatz und k-1 mal Trainingsdatensatz
  • In jedem Durchlauf berechnung der Errorrate
  • Aus allen durchläufen kann dann der Mittelwert und die Standardabweichung der Errorrate ermittelt werden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Evaluationsfehler

A
  • Typen von Fehlern
    -> Ziel des überwachten Lernens: Vorhersage von Klassen/Werten
    -> Vorhersagefehler ~ verminderbarer + unverminderbarer Fehler
    -> Unverminderbar: Rauschen (Noise) – kann nicht minimiert werden
    -> Verminderbar: Fehler durch unpassendes Modell – minimierbar
    -> Verminderbarer Fehler kann in induktiven Bias und Varianz unterteilt wer
  • Induktiver Bias = Underfitting
    -> Fehler durch Bias: falsche Annahmen
    -> Abweichung zwischen Vorhersage und Wahrheit
    -» Verwendung von Modellen die mit spezifischen Lernalgorithmen trainiert wurden
    (notwendige Verallgemeinerung)
    -> Bsp.:
    -» Quadratische Daten
    -» Annahme: linearer Zusammenhang
    → Lineare Regression
    -» großer Fehler durch Bias: restriktives Modell
  • Varianz = Overfitting
    -> Modell zu stark an Trainingsdaten angepasst und nicht mehr repräsentiv für die allgemeinheit
    -> Einige Parameter entfernen
  • Bias-Varianz-Tradeoff
    -> Niedriger Bias führt zu hoher Varianz
    -> Hoher Bias führt zu niedriger varianz
    => Mittelweg zwischen Bias und Varianz finden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Clusteranalyse

A

= Gruppieren ähnlicher Objekte
* viele - mögliche Lösungen
* keine vorherigen Label nötig
-> Distanz-Metrik zwischen Datenpunkten
* Numerische Variablen über Metriken
* Kategorische Variablen über Jaccard ähnlich innerhalb von Cluster -> Kompaktheit
-> Durchmesser vom Zentrum des Clusters so Minimieren, dass so viele wie nötig und so wenig wie möglich im Cluster sind -> Within Sum of Squares WSS
-> soviele wie nötig und so wenig wie möglich subjektiv zu gegeben Problem
* unterschiedlich zwischen Clustern -> Separiertheit
-> Abstand zwischen den Clustermittelpunkten so Maximieren, dass die Cluster so weit auseinander wie möglich und so nah bei einander wie nötig sind -> Between Sum of Squares BSS

  • Kombination von Kompakt- und Separiertheit -> Dunn’s Index
    -> Abstand zwischen clustern so maximieren und durchmesser innerhalb Clustern so minimieren, dass so viele Punkte wie möglich Teil von eindeutig separierten Clustern sind
    Dunn’s Index= BSS/WSS-> Maximieren
  • Cluster Evaluation
    -> Messen, ob Cluster kompakt und gut separiert sind
    -> Varianz innerhalb der Cluster oder Separiertheit vergleichen
    -> Durchmesser: Maß der Kompaktheit: Abstand der am weitesten voneinader entfernten Punkte innerhalb des selben Clusters (Euklidische Distanz)
    -> Inter-Cluster-Distanz: Maß der Separation: Abstand der am nächsten beieinander liegenden Punkte von zwei unterschiedlichen Clustern (Euklidische Distanz)
    -> Dunn’s Index: je höher, desto kompakter und besser separiert sind Cluster aber: hoher Rechenaufwand, und Worst-Case-Indikator
    𝑚𝑖𝑛𝑖𝑚𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑐𝑙𝑢𝑠𝑡𝑒𝑟 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 / 𝑚𝑎𝑥𝑖𝑚𝑎𝑙 𝑑𝑖𝑎𝑚𝑒𝑡𝑒𝑟
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Clusterverfahren

A

K-Means

  • Daten in k disjunkte (unabahängige) Untermengen - partitionieren Algorithmus:
    -> In den gesamten Daten, k zufällige Zentroiden festlegen
    -> jedem Punkt, dem nächstgelegenen Zentroiden zuweisen
    -> Mittelpunkt aller Punkte eines Zentroiden zugeordneten Punktes ermitteln
    -> Mittelpunkt = neuer Zentroid
    -> jedem Punkt, dem nächstgelegenen Zentroiden zuweisen
    -> Wiederholen, bis sich der Mittelpunkt und somit der Zentroid nichtmehr verändert.
  • k bestimmen:
    -> das k, welches WSS minimiert, aber WSS nimmt mit höheren k weiter ab (WSS/TSS)= WSS/(WSS+BSS) < 0.2 -> k
    -> TSS = Total sum of Squares
  • Vorteile:
    -> einfach zu implementieren
    -> schnell im verglich zu hierarchischen Methoden
    -> skaliert
    -> versatile
  • Nachteile:
    -> k muss vorgegeben werden
    -> nicht gut mit natürlichen Clustern -> nicht kugeförmig
    -> outlier haben große influenz auf Ergebnis
    -> mehr dimensionen = weniger effektiv

Hierarchische Verfahren:
* Dimisives Clustering = Top down Clustering
-> Evaluation auf jeder Ebene:
1. Ebene 1: Alle Punkte in einem Cluster
2. Ebene 2: Alle Punkte auf 2 Cluster aufgeteilt
3. Ebene 3: Punkte in jedem cluster, auf 2 neue Cluster verteilt: insgesamt 4 neue
n. Ebene n: Jeder Punkt in eigenem Cluster
-> Optimieren nach Dunn oder WSS/TSS
* Agglomeratives Clustering = Bottom up Clustering
-> Ähnliche zusammenführen:
1. Ebene 1: Jeder Punkt in eigenem Cluster
2. Ebene 2: 2 Punkte mit geringster distanz werden zusammengefasst -> 𝑛/2 Cluster
n. Ebene n: Alle Punkte in einem Cluster
-> Optimieren nach Dunn oder WSS/TSS
* Average Linking: Abstand der Mittelpunkte
* Single Linking: Abstand der am geringsten entfernten Punkte
* Complete Linking: Abstand der am weitesten entfernten Punkte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Entfernen problematischer
TrainingsInstanzen

A
  • Tomek-Links:
    1. 𝑥 ist nächster Nachbar von 𝑦
    2. 𝑦 ist nächster Nachbar von 𝑥
    3. die Klassen von 𝑥 und 𝑦 sind unterschiedlich
  • Wurden Tomek-Links entfernt,
    kann k verringert werden!
  • Tomek-Link-Algorithmus
    1. Sei 𝑖 = 1 und 𝑇 = ∅.
    2. Sei 𝑥 das i-te Trainingsbeispiel und 𝑦 der nächste Nachbar von 𝑥.
    3. Wenn 𝑥 und 𝑦 zur selben Klasse gehören gehe zu 5.
    4. Wenn 𝑥 der nächste Nachbar von 𝑦 ist → sei 𝑇 = 𝑇 ∪ {𝑥, 𝑦}.
    5. Sei 𝑖 = 𝑖 + 1. Wenn 𝑖 ≤ 𝑁, gehe zu 2.
    6. Entferne alle Beispiele aus der Trainingsmenge, die jetzt in 𝑇 sind
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Entfernen redundanter Daten

A
  1. Sei 𝑆 eine Menge, welche eine beliebige positive und eine negative Instanz aus der Trainingsmenge 𝑇
    beinhaltet.
  2. Verwende die Beispiele aus 𝑆 zur Reklassifizierung der Beispiele aus 𝑇 mit dem 1-NN-Klassifikator.
    Sei 𝑀 die Menge aller Beispiele, die so falsch klassifiziert wurden.
  3. Kopiere alle Beispiele aus 𝑀 in 𝑆.
  4. Wenn sich der Inhalt von 𝑆 nicht verändert hat, stoppe, sonst gehe zu 1.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Zurückweisung von Beispielen

A
  • Beispielen zurückweisen, aufgrund „unzureichender Beweiskraft“
  • Beispiel: Bei der Erkennung von PLZ werden unzureichend sicher erkannte zurückgewiesen
    -> Kosten der automatische Prüfung < manuellen Prüfung < Kosten für falsche Zustellung
  • Implementierung für 7-NN: Mehrheit von beispielsweise 5 NN muss gegeben sein
  • Implementierung Naive Bayes: Definition einer Mindestwahrscheinlichkeit für den Support
  • Vorteil: Error-Rate sinkt
  • Nachteil: Gefahr der Nutzlosigkeit des Klassifikators
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Accuracy-Paradoxon

A
  • Unbalancierte Datensätze: Wichtige Klassen sind nur durch wenige Beispiele
    repräsentiert!
  • Beispiel:
    -> 286 Rückfall von Brustkrebspatientinnen innerhalb von 5 Jahren
    -> Binäres Entscheidungsproblem
    -> 201/85 ohne/mit Rückfall
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

ROC-Kurve

A
  • = Receiver Operating Characteristic
  • Visuelle Beurteilung eines Klassifikators
  • Ideal: stark ansteigend – späte Zunahme FP
  • Berechnung Area Under Curve (AUC)
  • Schlechtester Fall = 0,5
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Gewichtetes harmonisches Mittel

A

𝛽 > 1 – mehr Gewicht auf Recall, konvergiert gegen Recall, wenn 𝛽 −> ∞
𝛽 < 1 – mehr Gewicht auf Precision, konvergiert gegen Precision, wenn 𝛽 −> 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

No Free Lunch Theorem

A
  • Jedes Modell hat eigene Vor- und Nachteile, und keines ist eindeutig einem anderen Vorziehbar
  • Systematische Experiemente helfen bei der Wahl eines Algorithmus für ein spezifisches Problem
17
Q

Root Mean Squares Error (RMSE), Evaluation von Regression

A
  • Errechnet die mittlere Distanz zwischen Beobachtungen und Vorhersagungen
  • Ziel: Aberstand von Werten zu geraden sehr gering
18
Q

Anwendung von Clustering

A
  • Pattern Analysis
  • Visualisierung von Daten
  • Vorverarbeitungsschritt
  • Outlier detection
  • Programme für gleichzeitiges Marketing
  • Studenten Segmentierung
19
Q

Vektorraummodell

A
  • Framework
  • Feature definieren n-dimensionalen Vektorrau
  • Featuregewichtung bestimmt die Platzierung der Datenvektoren im Raum
  • Klassifikation/Clustering durch Bestimmen der Ähnlichkeit/Unähnlichkeit (Distanz) 𝑓 𝑥, 𝑦 =
    𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑥, 𝑦 zwischen zwei Objekten
20
Q

Frequent Item set Mining

A
  • Teil der Market - Basket Analyses
  • Ermitteln von Mustern in Kaufverhalten um bessere, individuellere angebote zu schreiben
  • Bestimmt, welche Mengen an Produkten häufig zusammen gekauft werden
    -> Cross und Up-Selling