5. Linear/Logistic Regression & SVM Flashcards
Definition Support Vector Machines (SVM)
= Unterteilt Menge von Objekten so in Klassen, dass um die Klassengrenze herum ein möglichst breiter Bereich frei von Objekte bleibt (Large Margin Classifier)
Definition Lineare Klassifizierer
> Aufteilung der Instanzen im Raum (Age/Balance) ist erkennbar
- Aufteilung der Instanzen in Regionen
- Instanzen einer Region sollte möglichst gleiche Werte der Zielvariable haben
- Aufteilung der Regionen durch eine beliebige gerade (Unterteilung durch gerade ziehen)
Definition Lineare Diskriminanzfunktion
= eine Klassifizierungsfunktion = lin. Diskrim.Funktion bzw. Trennfunktion
Definition Lineare Klassifizierung
> Supervised Learning Methode (with teacher)
Klassifizierung durch eine numerische Klassifizierungsfunktion
Anpassung der Parameter wi an eine Datenmenge
- Finden geeigneter Gewichte für die Merkmale
- Gewicht = Indikator für die Wichtigkeit des Merkmals
f(x) = w0 + w1 x x1 + w2 x x2 +…
Supervised => Teacher => gibt Zielvariable vor
Optimierung der Zielfunktion
Welches Ziel wird mit der Auswahl der Zielfunktion verfolgt?
> Definition einer Zielfunktion die unser Ziel hinlänglich repräsentiert
- Optimierung der Funktion durhc Min/Max
Bestimmung einer Zielfunktion, die das Ziel optimal repräsentiert, ist überlicherweise möglich
Verfahren:
- Lineare Regressen, SVM, Logistic Regression
Definition SVM
= sind lineare Diskriminanzfunktionen
> “beste” Gerade = möglichst bretier Steifen zwischen den Klassen
- Maximierung des Margins
> Diskriminanzfunktion = Mitte des Streifens
> Maximaler Margin bietet größten Speilraum beim Klassifzieren neuer Instanzen
Wie funktioniert die Behandlung fehlklassifzierter Instanzen?
> Bewertung der Zielfunktion um einen Strafterm für falsch klassifizierte Instanzen
Fallunterscheidung:
Fall 1: Daten linear separierbar: Maximierung des Margins
Fall 2: Daten nicht vollständig linear separierbar
Hier: Suche nach Mittelwech zwischen maximalen Margin und gerinstem Strafterm (nach Distanzfunktion f(x) für die Gesamtmenge
> Strafterm sollte proportional zum Abstand der INstanz zur Margingrenze sein
> Realisiert durch Hinge-Verlustfunktion
Erklärung Hinge Verlustfunktion
Wenn nicht vollständig linear separierbar, dann:
> Strafterm wird durch Hinge-Verlustfunktion berechnet
> Hinge-Verlust nur dann positiv, wenn sich die Instanz jenseits des mArgins auf der falschen Seite der Entscheidungsgrenze befindet
> Verlust nimmt linear mit dem Abstand zum Margin zu
> Strafterm also umso größer, je weiter eine Instanz von der Entscheidungsgrenze entfernt ist.
Definition Kernel-Funktion/Trick
Mit dieser Methode wendet man einen linearen Klassifikator auf nicht linear klassifizierbare Daten an. Dies wird erreicht, indem man die Daten in einen höher dimensionalen Raum transformiert, in welchem man sich eine bessere lineare Separierbarkeit erhofft
- Transformation Attribute durch Anwendung nicht linearer Funktionen
- z.B.: s-förmige Funktion, Radiale, Polynominale
- Durchführung SVM Algorithmus auf transforierten Attributraum
- Rücküberführung der ermittelten Diskriminanzfunktion in ursprünglichen Attributraum
Somit kann jedes komplexe Klassifizierungsproblem mit Kernelfunktion in ein lineares Klassifizierungsproblem übersetzt werden
Die Idee hinter dem Kernel-Trick ist, den Vektorraum und damit auch die darin befindlichen Trainingsvektoren in einen höherdimensionalen Raum zu überführen. In einem Raum mit genügend hoher Dimensionsanzahl – im Zweifelsfall unendlich – wird auch die verschachteltste Vektormenge linear trennbar. In diesem höherdimensionalen Raum wird nun die trennende Hyperebene bestimmt. Bei der Rücktransformation in den niedrigerdimensionalen Raum wird die lineare Hyperebene zu einer nichtlinearen, unter Umständen sogar nicht zusammenhängenden Hyperfläche, die die Trainingsvektoren sauber in zwei Klassen trennt.
Kernelfunktionen bei Rapidminer und Spark:
Rapidminer:
- Dot
- Polynominal
- Radial
Spark:
- keine Unterstützung von Kernelfunktionen
- Bildung von abgeleiteten Attributen als Workaround
Definition Lineare Regression
Zielfunktion = die Abschätzung der Zielvariable unter Verwendung folgender Gleichung
f(x) = w0 + w1 x x1 + w2 x x2 + …
Gesucht: Zielfunktion die am besten zu den gegebenen Daten passt (stetiger Wert soll ermittelt werden!)
1. Abweichung des geschätzten Wert vom tatsächlichem Wert der Zielvariable in den Trainingsdaten ermitteln
2. Minimierung dieser Abweichung
=> Modell mit den geringsten Abweichungen gemäß der Trainingsdaten wird gewählt
(also Abweichung zwischen geschätzten Wert und tatsächlichen)
Verfahren, mit dem versucht wird, eine beobachtete abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären
Verfahren der linearen Regression
- Auswahl des Modells, das am besten zu Daten passt
- in Bezug auf die summe der Fehler
> Summe der absoluten Fehler
> Summe der quadrierten Fehler = Methode der kleinsten Quadrate)
Methode der kleinsten Quadrate = Standardmethode der lin. Regression
> Datensensitive Methode => Datenfehler und Ausreißer beeinflussen Zielfunktion stark
> Für automatische Modellgenerierung benötigt man robustere Methoden
=> versucht Fehler zu minimieren, um genauen Wert zu prognostizieren (stetigen Wert)
Logistische Regression Definition und Vorgehen
=> hier nicht Ermittlung eines stetigen Werts sondern Abschätzung von Wahrscheinlichkeiten der Klassenzugehörigkeit bei der linearen Klassifikation
Bsp.: Betrugserkennung, Kreditausfall
Vorgehen:
> Wahl versch. Zielfunktionen zur Wahrscheinlichkeitsabschätzung
> Je größer die Distanz einer INstanz zur Klassengrenze, desto wahrscheinlicher ist ihre Zugehörigkeit zur Klasse
- f(x) gibt die Distanz zu dieser Klassengrenze an
also Ziel: Vorhersage der Wahrscheinlichkeit zur Zugehörigkeit einer Klasse
Definition Odds/Chancencerhältnis/Logit
Odds als Verhältnis von Wahrscheinlichkeit und Gegenwahrscheinlichkeit eines Ereignisses
Odds = Chance der Eintrittswahrscheinlichkeit
Logit = Logarithmus der Odds hat Wertebereich (-unendlich bis unendlich)
> f(x) = Abschätzung des Models für die logarithmischen Odds einer Instanz
Umwandlung des Logit in Wahrscheinlichkeit der Klassenzugehörigkeit
Logistic Regression = Modell für die Wahrscheinlichkeit der Klassenzugehörigkeit
Typische Anwendungsgebiete:
> Kreditausfallabschätzung
> Betrugserkennung (Thread Detection)
Zielvariablen und Wahrscheinlichkeiten
Zielvariable => bei Lineare Regression !=
Wahrscheinlichkeit der Klassenzugehörigkeit (Log. Reg)
Trainingsmenge = zufällige statistische Auswahl != Wahrscheinlichkeit selbst
> Logistic Regression schätzt Wahrscheinlichkeiten durch lineares Logit-Modell ab
Log. Reg basiert hierbei auf Verteilung der in Stichprobe beobachteten Daten