02 Active Learning Flashcards
Aktives Lernen allgemein
Lernmaschine die ggf. mit wenigen gelabelten aber wesentlich mit selektiv selbst gewählten ungelabelten Daten lernt
Annahme: Einige Daten enthalten wesentlich mehr Information als andere
Selective Labeling
Lernszenarien / 3 möglichlichkeiten des aktiven Lernens
- Query Synthesis
(Erzeugung synthetischer Daten) - Selective Sampling
(Selektive Entnahme aus Daten-Strom) - Pool Based
(Auswahl aus Daten-Pool)
Unsicherheitsmaße
- niedrigste Konfidenz
- kleinster Rand / Margin
- größte Entropie
Für binäre Klassifikation sind diese Maße identisch sonst nicht
Version Space (wdh)
Die Menge aller Hypothesen die konsistent sind mit den Daten
Annahme: Um so größer der Version Space v ist um so schlechter ist jede mögliche Hypothese (Klassifikator)
Ziel beim aktiven Lernen: Effektive Reduktion des Version Space
Simpler (naiver) Version Space Algorithmus
Bestimme alle konsistenten Hypothesen (Oder bestimme |v| analytisch)
Optimales neues x reduziert die „Größe“ von v am stärksten
Formal als Erwartungswert
- über y (weil Label y zunächst unbekannt)
- über alle Lerndaten inklusive der neuen Daten
Diskussion
- Idealerweise lässt sich der Version Space halbieren
- Binäre Suche implementiert dies in 1D
- Problem – effiziente Realisierung
- v kann sehr groß werden oder ist analytisch nicht beschreibbar
- Idee: „Extremen“ des Hypothesenraums betrachten, wenn die Modelle sich „stark“ widersprechen –> Daten (mit hoher Unsicherheit) reduzieren v
- Allgemeiner Ansatz: Query-by-Committee
QBC - Query by Comittee
Allgemeiner Ansatz
- Trainiere eine Menge C von Maschinen (Klassifikatoren)
- C kann beliebiger Kardinalität sein
- Wähle neue Daten wenn die Hypothesen (Klassifikatoren) widersprüchlich sind
Selektive Entnahme
- …
- Beobachte neue Instanzen (Auswerten) Abfrage falls Widerspruch
- Neutrainieren, Iterieren
Pool-based Lernen
- …
- Messung des Widerspruchs für alle Instanzen x
- Ranking
- Abfrage der k widersprüchlichsten Instanzen
- Neutrainieren, Iterieren
Ausreißerproblem
Eine Instanz kann widersprüchlich sein weil es sich um einen Ausreißer handelt
Ausreißer sind nicht geeignete Lerndaten
–> Gewichten der Unsicherheit einer Instanz x anhand der Dichte im Datenraum
Aktives lernen mit SVM - Version Space
Gegeben ungelabelte Instanzen suchen wir diejenigen,
die den Versionsraum v maximal verringern
- -> Daten deren entsprechende Hyperebene die Hyperkugel gültiger Gewichtsvektoren möglichst zentral schneiden
- -> dies sind die Daten die am nächsten zur Trennhyperebene im Merkmalsraum liegen
Simple Margin / MaxMin Margin / Ratio Margin
Simple Margin:
Daten deren entsprechende Hyperebene die Hyperkugel gültiger Gewichtsvektoren möglichst zentral schneiden.
Wenn v nicht symmetrisch ist und der Gewichtsvektor nicht zentral liegt – langsame Konvergenz
MaxMin Margin:
Für jeden Datenpunkt berechne den Rand m+ und m- nach potentieller Teilung in v+ bzw. v-
Abfragen der Instanz : arg max min(m+, m-)
Ratio Margin:
Für jeden Datenpunkt berechne den Rand m+ und m- nach potentieller Teilung in v+ bzw. v-
Abfragen der Instanz : arg max min(m-/m+ , m+/m-)
Vor-/Nachteile Aktive SVM
Vorteile
- Anwendbar wenn SVM anwendbar
- Klar formuliertes mathematisches Rahmenwerk
- Berechnung des Randes jeweils nach Trainieren der SVM möglich
- Praktische Ergebnisse zeigen, dass aktive SVM besser als passive SVM
Nachteile
* MinMax und Ratio sind aufwändig in der Berechnung