Seminare Flashcards
Maschinelles Lernen
- Algorithmen, die - von Daten lernen
- mehr informationen füren zu besseren Ergebnissen (Performance)
- Erfahrung (Information) kommt von gelößten Problemen (Beispiele)
- Modellbildung zur Worhersage, bei neuen Daten, nicht rechnen mit vorhandenen i.e häufigkeitsanalyse
Arten von maschinellem Lernen
Supervised Learning:
* Menge vollständig gelabelter Daten notwendig
* Findet anhand vollständiger Datensätze Formeln, um neuen Beobachtungen eine Klasse oder einen Wert zuzuordnen
* labelling von Menschen durchgeführt -> zeitaufwändig
* im Vergleich sollen vorhergesagte Label so ähnlich wie möglich zu realen labeln sein
* Bsp:
-> Klassifikation = Qualitative Aussage, da
ein Feature aus dem Featurespace
zugeordnet wird
Ziel: Vorhersage der Kategorie einer neuen
Beobachtung
-> Regression = Quantitative Aussage, da ein
Wert aus einer geschaetzten Formel
errechnet wird
Unsupervised Learning:
* benötigt keine gelabelten Daten
* Cluster: gruppiert ähnliche Beobachtungen
* Ähnlichkeit innerhalb und Unähnlichkeit zwischen der Cluster muss gemessen werden
* Bsp: Clusteranalyse
Semi- Supervised Learning:
* Menge ungelabelter Beobachtungen
* Wenige gelabelte Beobachtungen
* Clusterinformationen und gelabelte Beobachtungen zur Vorhersage neuer Beobachtungen
Beispiele Supervised Learning
- Klassifikation: Beobachtungen werden eingegeben, daraus wird eine Funktion errechnet.
- Größe, Typ -> Funktion -> Farbe
- Folgend koennen nur die beobachtbaren Features eingegeben werden und das gesuchte wird errechnet
- groß, solid -> geschätzte/errechnete Funktion -> vermutliche Farbe Ergbis kann auch falsch sein
- Beispiele:
-> Medizinische Diagnose i.e. krank oder gesund, Diagnose anhand von Symptomen
-> Objekterkennung in digitalen Medien i.e. Person, Tier, Auto
-> Detektion von Spam
Regression (Beispiele)
* Zahlungen -> Credit Score
* Zeit -> Mitgliedszahlen in sozialen Netzwerken
* Noten -> chancen für favorisierten Job
* Vorhersage des Körpergewichts einer
* Person, anhand der Körpergröße:
* Es werden vorhandene Daten als Ein- und Ausgabe eingesetzt um eine Funktion zu errechnen
* Größe -> Funktion (Regression) -> Gewicht
* Folgend kann nur die Größe eingegeben werden, daran wird das Gewicht errechnet Größe -> Funktion (Gewicht = β + β(𝐺𝑟öß𝑒)) -> Gewicht
K-neares neighbor
- Lernen durch Analogie
- Attribute werden als Vektoren behandelt
- Trainingsinstanz mit dem gerinsten Abstand ist der nearest neighbour (NN)
- Neue Daten werden Klassifiziert, indem sie mit dem NN verglichen werden und bekommen dessen Klasse zugewiesen
-> hohe Errorrate der Klassifikation - Neue Daten mit Menge von k-NN verglichen und mit der am häufigsten vorkommenden Klasse klassifiziert
- k sollte nicht restlos dividierbar durch die Anzahl der möglichen Klassen sein
- k wird ideal wenn Errorrate minimal ist
- allgemein, je mehr trainingsdaten vorhanden, desto größer sollte k sein wenn der Datensatz konsistent und nicht redundant ist, kann k kleiner sein als im originlen datensatz
- Neue Daten können besser Klassifiziert werden, wenn Klassifikation der näherliegenden Nachbarn höher gewertet wird, als die der weiter entfernten Nachbarn
-> gewichteter k-NN
- Identifiziere die k-nächsten Nachbarn von x unter allen Trainingsbeispielen
- Sei 𝑐𝑖 die häufigste Klasse unter den gefundenen k-nächsten Nachbarn
- Weise 𝑥 𝑐𝑖 zu.
-> In einer Zwei-Klassen-Domäne sollte 𝒌 ungerade sein, um ein unentschieden
zu vermeiden.
Evaluation
- Evaluation = Bewertung des genutzten Modells um rauszufinden, ob das gewünschte Ziel erreicht wurde
- Stratifizierende Ansätze:
-> Ansatz um unbalancierte Datensätze besser evaluieren zu können - > Unterteilung der Daten in Subsets (Schichten) und Aufteilung der Daten in den folds je Schicht.
-> Sicherstellung der gleichmäßigen Repräsentation aller Klassen gem. ihren Anteilen im Datensatz - > Anwendbar für Random Subsampling und k-fold Cross-Validation
- Split Test:
-> Datensatz wird zufällig in Test und Trainingsdaten gespalten (meist 1:3)
-> Kann aussagekräftige Ergebnisse auf sehr großen Datenmengen liefern
-> Mehr Daten = besseres Modell, aber Testset nicht zu klein wählen
-> Daten vor dem Split mischen
-> Problem: Modellvarianz, da jedes mal unterschiedliche Test und Trainingsdaten - Random Subsampling:
-> Split Test n-mal durchführen und Mittelwert und Standardabweichung ermitteln - > Problem: Unausgegliche Nutzung einzelner Daten als Test- Oder Trainingsdaten
K-Fold Cross Validation
- Partitionierung in k gleich große Partitionen, jede Partition ist genau ein mal Testdatensatz und k-1 mal Trainingsdatensatz
- In jedem Durchlauf berechnung der Errorrate
- Aus allen durchläufen kann dann der Mittelwert und die Standardabweichung der Errorrate ermittelt werden.
Evaluationsfehler
- Typen von Fehlern
-> Ziel des überwachten Lernens: Vorhersage von Klassen/Werten
-> Vorhersagefehler ~ verminderbarer + unverminderbarer Fehler
-> Unverminderbar: Rauschen (Noise) – kann nicht minimiert werden
-> Verminderbar: Fehler durch unpassendes Modell – minimierbar
-> Verminderbarer Fehler kann in induktiven Bias und Varianz unterteilt wer - Induktiver Bias = Underfitting
-> Fehler durch Bias: falsche Annahmen
-> Abweichung zwischen Vorhersage und Wahrheit
-» Verwendung von Modellen die mit spezifischen Lernalgorithmen trainiert wurden
(notwendige Verallgemeinerung)
-> Bsp.:
-» Quadratische Daten
-» Annahme: linearer Zusammenhang
→ Lineare Regression
-» großer Fehler durch Bias: restriktives Modell - Varianz = Overfitting
-> Modell zu stark an Trainingsdaten angepasst und nicht mehr repräsentiv für die allgemeinheit
-> Einige Parameter entfernen - Bias-Varianz-Tradeoff
-> Niedriger Bias führt zu hoher Varianz
-> Hoher Bias führt zu niedriger varianz
=> Mittelweg zwischen Bias und Varianz finden
Clusteranalyse
= Gruppieren ähnlicher Objekte
* viele - mögliche Lösungen
* keine vorherigen Label nötig
-> Distanz-Metrik zwischen Datenpunkten
* Numerische Variablen über Metriken
* Kategorische Variablen über Jaccard ähnlich innerhalb von Cluster -> Kompaktheit
-> Durchmesser vom Zentrum des Clusters so Minimieren, dass so viele wie nötig und so wenig wie möglich im Cluster sind -> Within Sum of Squares WSS
-> soviele wie nötig und so wenig wie möglich subjektiv zu gegeben Problem
* unterschiedlich zwischen Clustern -> Separiertheit
-> Abstand zwischen den Clustermittelpunkten so Maximieren, dass die Cluster so weit auseinander wie möglich und so nah bei einander wie nötig sind -> Between Sum of Squares BSS
- Kombination von Kompakt- und Separiertheit -> Dunn’s Index
-> Abstand zwischen clustern so maximieren und durchmesser innerhalb Clustern so minimieren, dass so viele Punkte wie möglich Teil von eindeutig separierten Clustern sind
Dunn’s Index= BSS/WSS-> Maximieren - Cluster Evaluation
-> Messen, ob Cluster kompakt und gut separiert sind
-> Varianz innerhalb der Cluster oder Separiertheit vergleichen
-> Durchmesser: Maß der Kompaktheit: Abstand der am weitesten voneinader entfernten Punkte innerhalb des selben Clusters (Euklidische Distanz)
-> Inter-Cluster-Distanz: Maß der Separation: Abstand der am nächsten beieinander liegenden Punkte von zwei unterschiedlichen Clustern (Euklidische Distanz)
-> Dunn’s Index: je höher, desto kompakter und besser separiert sind Cluster aber: hoher Rechenaufwand, und Worst-Case-Indikator
𝑚𝑖𝑛𝑖𝑚𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑐𝑙𝑢𝑠𝑡𝑒𝑟 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 / 𝑚𝑎𝑥𝑖𝑚𝑎𝑙 𝑑𝑖𝑎𝑚𝑒𝑡𝑒𝑟
Clusterverfahren
K-Means
- Daten in k disjunkte (unabahängige) Untermengen - partitionieren Algorithmus:
-> In den gesamten Daten, k zufällige Zentroiden festlegen
-> jedem Punkt, dem nächstgelegenen Zentroiden zuweisen
-> Mittelpunkt aller Punkte eines Zentroiden zugeordneten Punktes ermitteln
-> Mittelpunkt = neuer Zentroid
-> jedem Punkt, dem nächstgelegenen Zentroiden zuweisen
-> Wiederholen, bis sich der Mittelpunkt und somit der Zentroid nichtmehr verändert. - k bestimmen:
-> das k, welches WSS minimiert, aber WSS nimmt mit höheren k weiter ab (WSS/TSS)= WSS/(WSS+BSS) < 0.2 -> k
-> TSS = Total sum of Squares - Vorteile:
-> einfach zu implementieren
-> schnell im verglich zu hierarchischen Methoden
-> skaliert
-> versatile - Nachteile:
-> k muss vorgegeben werden
-> nicht gut mit natürlichen Clustern -> nicht kugeförmig
-> outlier haben große influenz auf Ergebnis
-> mehr dimensionen = weniger effektiv
Hierarchische Verfahren:
* Dimisives Clustering = Top down Clustering
-> Evaluation auf jeder Ebene:
1. Ebene 1: Alle Punkte in einem Cluster
2. Ebene 2: Alle Punkte auf 2 Cluster aufgeteilt
3. Ebene 3: Punkte in jedem cluster, auf 2 neue Cluster verteilt: insgesamt 4 neue
n. Ebene n: Jeder Punkt in eigenem Cluster
-> Optimieren nach Dunn oder WSS/TSS
* Agglomeratives Clustering = Bottom up Clustering
-> Ähnliche zusammenführen:
1. Ebene 1: Jeder Punkt in eigenem Cluster
2. Ebene 2: 2 Punkte mit geringster distanz werden zusammengefasst -> 𝑛/2 Cluster
n. Ebene n: Alle Punkte in einem Cluster
-> Optimieren nach Dunn oder WSS/TSS
* Average Linking: Abstand der Mittelpunkte
* Single Linking: Abstand der am geringsten entfernten Punkte
* Complete Linking: Abstand der am weitesten entfernten Punkte
Entfernen problematischer
TrainingsInstanzen
- Tomek-Links:
1. 𝑥 ist nächster Nachbar von 𝑦
2. 𝑦 ist nächster Nachbar von 𝑥
3. die Klassen von 𝑥 und 𝑦 sind unterschiedlich - Wurden Tomek-Links entfernt,
kann k verringert werden! - Tomek-Link-Algorithmus
1. Sei 𝑖 = 1 und 𝑇 = ∅.
2. Sei 𝑥 das i-te Trainingsbeispiel und 𝑦 der nächste Nachbar von 𝑥.
3. Wenn 𝑥 und 𝑦 zur selben Klasse gehören gehe zu 5.
4. Wenn 𝑥 der nächste Nachbar von 𝑦 ist → sei 𝑇 = 𝑇 ∪ {𝑥, 𝑦}.
5. Sei 𝑖 = 𝑖 + 1. Wenn 𝑖 ≤ 𝑁, gehe zu 2.
6. Entferne alle Beispiele aus der Trainingsmenge, die jetzt in 𝑇 sind
Entfernen redundanter Daten
- Sei 𝑆 eine Menge, welche eine beliebige positive und eine negative Instanz aus der Trainingsmenge 𝑇
beinhaltet. - Verwende die Beispiele aus 𝑆 zur Reklassifizierung der Beispiele aus 𝑇 mit dem 1-NN-Klassifikator.
Sei 𝑀 die Menge aller Beispiele, die so falsch klassifiziert wurden. - Kopiere alle Beispiele aus 𝑀 in 𝑆.
- Wenn sich der Inhalt von 𝑆 nicht verändert hat, stoppe, sonst gehe zu 1.
Zurückweisung von Beispielen
- Beispielen zurückweisen, aufgrund „unzureichender Beweiskraft“
- Beispiel: Bei der Erkennung von PLZ werden unzureichend sicher erkannte zurückgewiesen
-> Kosten der automatische Prüfung < manuellen Prüfung < Kosten für falsche Zustellung - Implementierung für 7-NN: Mehrheit von beispielsweise 5 NN muss gegeben sein
- Implementierung Naive Bayes: Definition einer Mindestwahrscheinlichkeit für den Support
- Vorteil: Error-Rate sinkt
- Nachteil: Gefahr der Nutzlosigkeit des Klassifikators
Accuracy-Paradoxon
- Unbalancierte Datensätze: Wichtige Klassen sind nur durch wenige Beispiele
repräsentiert! - Beispiel:
-> 286 Rückfall von Brustkrebspatientinnen innerhalb von 5 Jahren
-> Binäres Entscheidungsproblem
-> 201/85 ohne/mit Rückfall
ROC-Kurve
- = Receiver Operating Characteristic
- Visuelle Beurteilung eines Klassifikators
- Ideal: stark ansteigend – späte Zunahme FP
- Berechnung Area Under Curve (AUC)
- Schlechtester Fall = 0,5
Gewichtetes harmonisches Mittel
𝛽 > 1 – mehr Gewicht auf Recall, konvergiert gegen Recall, wenn 𝛽 −> ∞
𝛽 < 1 – mehr Gewicht auf Precision, konvergiert gegen Precision, wenn 𝛽 −> 0