Optimierungen Flashcards
Wie sollten Gewichte initialisiert werden?
Gewichte sollten “zufällig” initialisiert werden mit einer starken Streuung
Um welchen Wert sollte die Streuung sein?
Bestenfalls Streuung um den Nullpunkt
- Besser für den Trainingsverlauf
- Kleine Gewichtswerte um 0
Datengetriebener Entwurf (Lernverfahren)
Modell lernt Zusammenhang zwischen Eingangs- & Ausgangsdaten
Mehrfaches Iterieren notwendig
Kein garantierter Weg zur besten Lösung
Vergleich mit anderen Methoden: hoher Rechenaufwand, aber oft notwendig
Unterschied Backpropagation zu Datengetriebener Entwurf
Fehlerrückführung zur Gewichtsoptimierung
Gradientenabstieg zur Fehlerreduktion
Gefahr: lokale Minima, Konvergenzproblem
Hoher Rechenaufwand, besonders bei großen Netzen
Was ist der Flache Plateaus?
Geringer Fehlergradient → Gewichtsaktualisierungen sind minimal
Lernprozess verzögert sich oder stagniert
Besonders problematisch bei Gradientenabstieg, da keine klare Richtung zur Fehlerreduktion vorgegeben ist
Folgen einer nicht angepassten Schrittweite?
gute Minima können übersprungen werden
Ergebnis wird sup-optimal
-> Das Verfahren konvergiert
gegen ein lokales Minimum
Was ist Oszillation?
Oszillation
* Schrittweite, ungünstige Auswahl
* „Hin und her springen“
* Korrekturterm hat dauerhaft
den gleichen Betrag
* oszillierendes Vorzeichen
Was ist Indirekte Oszillation?
Ähnlich wie beim direkten Oszillieren
springt das Verfahren über mehrere
Schritte wieder zum Ausgangspunkt
zurück
Was geschieht bei einem Sattelpunkt?
Partielle Ableitungen sind am
Sattelpunkt null
* Das Verfahren stagniert, obwohl
kein Minimum der Fehlerfunktion
erreicht ist
Was sind Lösungsansätze für Optimierungsprobleme? (Schrittweite, Oszillation, Sattelpunkt, etc..)
Lösungsansätze:
* Variation der Gewichte
* Variation der Datenauswahl (Startpunkt des Verfahrens)
* Variation der Netzstruktur (Komplexität)
* Veränderung der Lernparameter, Gewichtungsfaktor
Was hat das erhöhen der Lernrate für Auswirkungen?
Erhöhen der Lernrate (Korrektursprünge erhöhen)
* Plateaus werden schneller durchlaufen
* Lokale Minima werden gegebenenfalls übersprungen
* Gegebenenfalls schnellere Konvergenz
Was hat das reduzieren der Lernrate für Auswirkungen?
Reduktion der Lernrate (Korrektursprünge reduzieren)
* Gegebenenfalls wird das globale Minimum gefunden
* Gegebenenfalls wird Oszillation vermieden
Was ist das Adaline Lernen?
Verändern der Lernrate über der Zeit (vgl. Adaline Lernen)
* „grob-fein“ Lernen
Vorgehen Backpropagation mit variabler Schrittlänge
Die Schrittlänge (Lernrate σ) wird während des Trainings dynamisch angepasst, um die Konvergenz zu verbessern.
Mehrfaches Wiederholen der Gewichtsaktualisierung, bis die Fehlerkurve steigt (Anzeichen für zu große Schritte).
Anpassung der Lernrate je nach Anzahl der Iterationen:
Viele Iterationen (langsames Lernen) → Erhöhung von σ, um schneller zu konvergieren. Wenige Iterationen (instabiles Lernen) → Verringerung von σ, um Überspringen guter Minima zu vermeiden.
Was ist Batch mode Backpropagation?
Batch mode Backpropagation (Off-Line)
* Betrachtung aller Trainingsbeispiele
* Berechnung des Korrekturterms
in Abhängigkeit aller Beispiele