WY1 - Jednokierunkowe sieci wielowarstwowe Flashcards
Jakie są warianty treningu MLP (Multilayer Perceptron)?
Batch gradient descent
- uśredniony błąd całego zbioru treningowego
- niepraktyczne dla dużych danych
- stabilny trening
- nie zależy od kolejności prezentacji wzorców
SGD - stochastic gradient descent (on-line)
- aktualizacja dla pojedynczego przypadku treningowego
(N = 1)
- duża szybkość działania ale i duża wariancja,
- istotna jest kolejność prezentacji przypadków
MiniBatch gradient descent
- średnia z n losowych przypadków (mini-batch), trening on-line,
- często utożsamiany z SGD
- mniejsza wariancja niż SGD
- możliwe operacje na macierzach, łatwiejsze zrównoleglenie
GPU/CPU
Jakie są własności MLP
- Uniwersalny aproksymator: sieć MLP z jedną warstwą
ukrytą jest w stanie aproksymować dowolną funkcję ciągłą
z dowolną dokładnością.
Dwie warstwy ukryte rozszerzają możliwości na funkcje
nieciągłe.
Klasyfikator potrafi zrealizować dowolne granice decyzji
(obszary nie muszą być wypukłe ani połączone) - Neurony ukryte: transformacja nieliniowa do przestrzeni
odwzorowań, tworząca nowe cechy za pomocą nieliniowych
kombinacji - Wiele zastosowań: klasyfikacja, wielowymiarowa regresja
Jakie są problemy MLP?
- Optymalizacja nieliniowych funkcji zawsze sprawia problemy,
tu mamy złożenie (czasem wielu) funkcji nieliniowych - Dobór architektury sieci: Ile węzłów w warstwie? Jakie
funkcje aktywacji? Sieci ontogeniczne (rozrastające się)
dostosowujące rozmiar do złożoności problemu - Przeuczenie i generalizacja - zbyt duża liczba
optymalizowanych parametrów powoduje przeuczenie, zbyt
mała - może generować zbyt proste rozwiązania - Regularyzacja - metody ograniczenia zjawiska przeuczenia,
np. modyfikacje funkcji kosztu, ograniczenie liczby parametrów - Inicjalizacja parametrów - szybkość treningu i wynik zależy od
punktu startowego - Minima lokalne i plateau, wąskie „rynny” - np. wielokrotny start
- Wpływ nowych wzorców na już nauczone – zapominanie
- Dobór stałej uczenia
- Znikający gradient, eksplodujący gradient
- Przygotowanie danych uczących: normalizacja, standaryzacja,
kodowanie wyjść - Ocena modelu: zbiory walidacyjne, testowe, kroswalidacja
Jaki jest problem niestabilnego gradientu?
wartości gradientów w poszczególnych warstwach mogą znacznie się różnić, warstwy uczą się z różnym tempem
Jak omijać minima lokalne?
- Wielokrotny start z różnymi wartościami początkowymi -
najprostsza ale skuteczna metoda - Szum dodawany do wag lub szum dodany do danych pozwala
wygładzić funkcję błędu i uciec z płytszych minimów –
formalnie jest to równoważne regularyzacji, czyli dodaniu
dodatkowego członu wygładzającego do funkcji błędu - Losowa kolejność prezentowania przypadków
- Modyfikacje BP lub inne algorytmy optymalizacji
Jakie są metody globalnej minimalizacji?
Monte Carlo, symulowane wyżarzanie, metody multisympleksowe, minimalizacja Tabu, homotopia