06 SVM Flashcards
Lineare Support Vektor Methode
Problem:
Klassifikation, Trenne die beiden Mengen
Lösung:
Finde die beste Trenn-Gerade
Intuition: Größe des Randes (margin) Generalisierung
Entscheidungsfuntkon eines Hyperebenen Klassifikators
h_(w,b)(z) = sign(wz + b)
Abstand des nächsten Punktes: 1/|w|
Abstand zw. den 2 Klassen: 2/|w|
Minimierung: Lagrange-Methode
Äquivalentes Problem (primäres Optimierungsproblem)
finde den eindeutigen Sattelpunkt der Funktion
L_p = L(w,b,alpha) = 1/2 |w|<2 - sum(alpha_i (y_i (w*x+b)-1))
alpha > 0
Support Vektoren
Support-Vektoren sind alle Vektoren x_i mit alpha_i > 0
Klassifikation auf k Klassen
Einer gegen Alle
- k SVM’s (für jede Klasse eine)
- Abstimmungsverfahren
Einer gegen Einen
- k(k-1)/2 SVM’s
- Abstimmungsverfahren
Mehrfachzugehörigkeit (multiple)
- k SVMs (für jede Klasse eine)
- Abstimmungsverfahren
k-class SVM von Watkins
- ein gemeinsames Optimierungsverfahren
- kein Abstimmungsverfahren
Dichte-Träger Schätzung
Gesucht: Eine Funktion f, die für eine “kleine” Region, welche die meisten Lernbeispiele enthält, den Wert > 0 und sonst den Wert 0 oder < 0 annimmt.
Kernel Perceptron
Klassifikation: Trennung an Hyperebene mit Normalenvektor w in einem transformierten Raum
h(z) = sign(w*phi(z))
Lineare Trennung im transformierten Raum führt zu komplexer Trennung im Ursprungsraum
Pro und Kontra SVM
Pro:
+ optimale Hyperebene –> gute lernergebnisse
+ finden der optimalen VC-Dimension –> korrektes lernen
+ verarbeitung hochdimensionaler Daten –> schnelle Auswertung
+ Anwendugsspezifische Kernels mit Datenverarbeitung
+ Entscheidung wird anhand der RAndregionen gefällt
+ Viele Anwendungen: klasifikation, regression, pca
+ probabilistische sicht - wichtig für semi-überwachtes lernen
+ vs-beschreibung - gut geeignet für aktives lernen
kontra:
- vorverarbeiung extern (kein deep learning)
- finden des optimalen kernels - “aktuelle” forschung
- parametrisierung des kernels - “aktuelle” forschung
- speicher und rechenaufwand (speizell für das trainieren)
- anzahl der sv abhängig von problem und parameter - aber erweiterte ansätze möglich