5. Linear/Logistic Regression & SVM Flashcards

1
Q

Definition Support Vector Machines (SVM)

A

= Unterteilt Menge von Objekten so in Klassen, dass um die Klassengrenze herum ein möglichst breiter Bereich frei von Objekte bleibt (Large Margin Classifier)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Definition Lineare Klassifizierer

A

> Aufteilung der Instanzen im Raum (Age/Balance) ist erkennbar

  • Aufteilung der Instanzen in Regionen
  • Instanzen einer Region sollte möglichst gleiche Werte der Zielvariable haben
  • Aufteilung der Regionen durch eine beliebige gerade (Unterteilung durch gerade ziehen)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Definition Lineare Diskriminanzfunktion

A

= eine Klassifizierungsfunktion = lin. Diskrim.Funktion bzw. Trennfunktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Definition Lineare Klassifizierung

A

> Supervised Learning Methode (with teacher)
Klassifizierung durch eine numerische Klassifizierungsfunktion
Anpassung der Parameter wi an eine Datenmenge
- Finden geeigneter Gewichte für die Merkmale
- Gewicht = Indikator für die Wichtigkeit des Merkmals

f(x) = w0 + w1 x x1 + w2 x x2 +…

Supervised => Teacher => gibt Zielvariable vor

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Optimierung der Zielfunktion

Welches Ziel wird mit der Auswahl der Zielfunktion verfolgt?

A

> Definition einer Zielfunktion die unser Ziel hinlänglich repräsentiert
- Optimierung der Funktion durhc Min/Max
Bestimmung einer Zielfunktion, die das Ziel optimal repräsentiert, ist überlicherweise möglich
Verfahren:
- Lineare Regressen, SVM, Logistic Regression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Definition SVM

A

= sind lineare Diskriminanzfunktionen
> “beste” Gerade = möglichst bretier Steifen zwischen den Klassen
- Maximierung des Margins
> Diskriminanzfunktion = Mitte des Streifens
> Maximaler Margin bietet größten Speilraum beim Klassifzieren neuer Instanzen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wie funktioniert die Behandlung fehlklassifzierter Instanzen?

A

> Bewertung der Zielfunktion um einen Strafterm für falsch klassifizierte Instanzen

Fallunterscheidung:
Fall 1: Daten linear separierbar: Maximierung des Margins
Fall 2: Daten nicht vollständig linear separierbar

Hier: Suche nach Mittelwech zwischen maximalen Margin und gerinstem Strafterm (nach Distanzfunktion f(x) für die Gesamtmenge
> Strafterm sollte proportional zum Abstand der INstanz zur Margingrenze sein
> Realisiert durch Hinge-Verlustfunktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Erklärung Hinge Verlustfunktion

A

Wenn nicht vollständig linear separierbar, dann:

> Strafterm wird durch Hinge-Verlustfunktion berechnet

> Hinge-Verlust nur dann positiv, wenn sich die Instanz jenseits des mArgins auf der falschen Seite der Entscheidungsgrenze befindet

> Verlust nimmt linear mit dem Abstand zum Margin zu

> Strafterm also umso größer, je weiter eine Instanz von der Entscheidungsgrenze entfernt ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Definition Kernel-Funktion/Trick

A

Mit dieser Methode wendet man einen linearen Klassifikator auf nicht linear klassifizierbare Daten an. Dies wird erreicht, indem man die Daten in einen höher dimensionalen Raum transformiert, in welchem man sich eine bessere lineare Separierbarkeit erhofft

  1. Transformation Attribute durch Anwendung nicht linearer Funktionen
    • z.B.: s-förmige Funktion, Radiale, Polynominale
  2. Durchführung SVM Algorithmus auf transforierten Attributraum
  3. Rücküberführung der ermittelten Diskriminanzfunktion in ursprünglichen Attributraum

Somit kann jedes komplexe Klassifizierungsproblem mit Kernelfunktion in ein lineares Klassifizierungsproblem übersetzt werden

Die Idee hinter dem Kernel-Trick ist, den Vektorraum und damit auch die darin befindlichen Trainingsvektoren in einen höherdimensionalen Raum zu überführen. In einem Raum mit genügend hoher Dimensionsanzahl – im Zweifelsfall unendlich – wird auch die verschachteltste Vektormenge linear trennbar. In diesem höherdimensionalen Raum wird nun die trennende Hyperebene bestimmt. Bei der Rücktransformation in den niedrigerdimensionalen Raum wird die lineare Hyperebene zu einer nichtlinearen, unter Umständen sogar nicht zusammenhängenden Hyperfläche, die die Trainingsvektoren sauber in zwei Klassen trennt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Kernelfunktionen bei Rapidminer und Spark:

A

Rapidminer:

  • Dot
  • Polynominal
  • Radial

Spark:

    • keine Unterstützung von Kernelfunktionen
  • Bildung von abgeleiteten Attributen als Workaround
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Definition Lineare Regression

A

Zielfunktion = die Abschätzung der Zielvariable unter Verwendung folgender Gleichung

f(x) = w0 + w1 x x1 + w2 x x2 + …

Gesucht: Zielfunktion die am besten zu den gegebenen Daten passt (stetiger Wert soll ermittelt werden!)
1. Abweichung des geschätzten Wert vom tatsächlichem Wert der Zielvariable in den Trainingsdaten ermitteln
2. Minimierung dieser Abweichung
=> Modell mit den geringsten Abweichungen gemäß der Trainingsdaten wird gewählt
(also Abweichung zwischen geschätzten Wert und tatsächlichen)

Verfahren, mit dem versucht wird, eine beobachtete abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Verfahren der linearen Regression

A
  1. Auswahl des Modells, das am besten zu Daten passt
    - in Bezug auf die summe der Fehler
    > Summe der absoluten Fehler
    > Summe der quadrierten Fehler = Methode der kleinsten Quadrate)

Methode der kleinsten Quadrate = Standardmethode der lin. Regression
> Datensensitive Methode => Datenfehler und Ausreißer beeinflussen Zielfunktion stark
> Für automatische Modellgenerierung benötigt man robustere Methoden

=> versucht Fehler zu minimieren, um genauen Wert zu prognostizieren (stetigen Wert)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Logistische Regression Definition und Vorgehen

A

=> hier nicht Ermittlung eines stetigen Werts sondern Abschätzung von Wahrscheinlichkeiten der Klassenzugehörigkeit bei der linearen Klassifikation
Bsp.: Betrugserkennung, Kreditausfall

Vorgehen:
> Wahl versch. Zielfunktionen zur Wahrscheinlichkeitsabschätzung
> Je größer die Distanz einer INstanz zur Klassengrenze, desto wahrscheinlicher ist ihre Zugehörigkeit zur Klasse
- f(x) gibt die Distanz zu dieser Klassengrenze an

also Ziel: Vorhersage der Wahrscheinlichkeit zur Zugehörigkeit einer Klasse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Definition Odds/Chancencerhältnis/Logit

A

Odds als Verhältnis von Wahrscheinlichkeit und Gegenwahrscheinlichkeit eines Ereignisses

Odds = Chance der Eintrittswahrscheinlichkeit

Logit = Logarithmus der Odds hat Wertebereich (-unendlich bis unendlich)

> f(x) = Abschätzung des Models für die logarithmischen Odds einer Instanz
Umwandlung des Logit in Wahrscheinlichkeit der Klassenzugehörigkeit
Logistic Regression = Modell für die Wahrscheinlichkeit der Klassenzugehörigkeit

Typische Anwendungsgebiete:
> Kreditausfallabschätzung
> Betrugserkennung (Thread Detection)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Zielvariablen und Wahrscheinlichkeiten

A

Zielvariable => bei Lineare Regression !=
Wahrscheinlichkeit der Klassenzugehörigkeit (Log. Reg)

Trainingsmenge = zufällige statistische Auswahl != Wahrscheinlichkeit selbst

> Logistic Regression schätzt Wahrscheinlichkeiten durch lineares Logit-Modell ab
Log. Reg basiert hierbei auf Verteilung der in Stichprobe beobachteten Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Lineare Klassifizierer vs
Lineare Regression vs
Logistische Regression

A
Lineare KLassifizierer (supervised)
= Klassifizierung durch numerische Klassifizierungsfunktion
= Anpassung der Parameter wi an eine Datenmenge

=> beste Gerade möglcihst breiter Steifen zwischen den Klassen (Maximierugn des Margins
(Diskriminanzfunktion = Mitte des Streifens)

Der maximale Margin bietet größten Spielraum beim klassifizieren neuer Instanzen

__________________________________

Lineare Regression (supervised)
= Abschätzung ZV unter Verwendung folgender Gleichung:

=> Gesucht: Zielfunktion die am besten zu gegebenen Daten passt
=> Abweichung von geschätzten und tatsächlichen Wert in Trainingsdaten ermitteln
=> Minimierung dieser Wbeichung gemäß Trainingsdaten
=> und Auswahl des dazu am besten passendsten Modell

Lineare Regression versucht den Minimalsten Abstand zwischen allen Datenpunkten zu finden

Beobachtete Daten: Kann daran sehen wir gerade verläuft und somit Vorhersagen für weitere unbekannte Werte treffen
Muss minimale Abweichung zwischen gefundenen Punkten finden um Regressionsfunktion möglichst genau abzustimmen um möglichst fehlerfrei prognostizieren zu können!!

__________________________________

Logistische Regression:
=> Abschätzung von Wahrscheinlichkeiten der Klassenzugehörigkeit bei der linearen KLassifikation
=> Wahl verschiedener Zielfunktionen zur Wahrscheinlichkeitsabschätzung
=> Odds beschreiben das Chancenverhältnis

=> ohne den Versuch einen Margin zu ziehen (großtmöglich unterteilen)

17
Q

Unterschied Regression & Klassifikation

A

Regression:
=> bestimmte Werte sollen anhand bestehender Werte vorhergesagt werden
=> Funktion soll so angepast werden das fehlerpotential möglichst gering und Vorhersagen möglichst genau sind

Klassifikation
=> bestehenden Werte werden in unterschiedliche Klassen unterteilt
=> Anpassung der Funktionsparameter für die Unterteilungsfunktion um eine möglichst gute Unterteilung zu bekommen
Bsp.: SVM => bestmöglichstes Margin mit geringstem Fehlerterm

18
Q

Fit & Transfer

A

Schauen ob Daten passen und gegebenfalls über Datenreinigung etc vorbereiten (Transformieren usw.)