WY1 - Jednokierunkowe sieci wielowarstwowe Flashcards

Question 1

Q

Jakie są warianty treningu MLP (Multilayer Perceptron)?

Answer

A

Batch gradient descent
- uśredniony błąd całego zbioru treningowego
- niepraktyczne dla dużych danych
- stabilny trening
- nie zależy od kolejności prezentacji wzorców

SGD - stochastic gradient descent (on-line)
- aktualizacja dla pojedynczego przypadku treningowego
(N = 1)
- duża szybkość działania ale i duża wariancja,
- istotna jest kolejność prezentacji przypadków

MiniBatch gradient descent
- średnia z n losowych przypadków (mini-batch), trening on-line,
- często utożsamiany z SGD
- mniejsza wariancja niż SGD
- możliwe operacje na macierzach, łatwiejsze zrównoleglenie
GPU/CPU

Question 2

Q

Jakie są własności MLP

Answer

A

Uniwersalny aproksymator: sieć MLP z jedną warstwą
ukrytą jest w stanie aproksymować dowolną funkcję ciągłą
z dowolną dokładnością.
Dwie warstwy ukryte rozszerzają możliwości na funkcje
nieciągłe.
Klasyfikator potrafi zrealizować dowolne granice decyzji
(obszary nie muszą być wypukłe ani połączone)
Neurony ukryte: transformacja nieliniowa do przestrzeni
odwzorowań, tworząca nowe cechy za pomocą nieliniowych
kombinacji
Wiele zastosowań: klasyfikacja, wielowymiarowa regresja

Question 3

Q

Jakie są problemy MLP?

Answer

A

Optymalizacja nieliniowych funkcji zawsze sprawia problemy,
tu mamy złożenie (czasem wielu) funkcji nieliniowych
Dobór architektury sieci: Ile węzłów w warstwie? Jakie
funkcje aktywacji? Sieci ontogeniczne (rozrastające się)
dostosowujące rozmiar do złożoności problemu
Przeuczenie i generalizacja - zbyt duża liczba
optymalizowanych parametrów powoduje przeuczenie, zbyt
mała - może generować zbyt proste rozwiązania
Regularyzacja - metody ograniczenia zjawiska przeuczenia,
np. modyfikacje funkcji kosztu, ograniczenie liczby parametrów
Inicjalizacja parametrów - szybkość treningu i wynik zależy od
punktu startowego
Minima lokalne i plateau, wąskie „rynny” - np. wielokrotny start
Wpływ nowych wzorców na już nauczone – zapominanie
Dobór stałej uczenia
Znikający gradient, eksplodujący gradient
Przygotowanie danych uczących: normalizacja, standaryzacja,
kodowanie wyjść
Ocena modelu: zbiory walidacyjne, testowe, kroswalidacja

Question 4

Q

Jaki jest problem niestabilnego gradientu?

Answer

A

wartości gradientów w poszczególnych warstwach mogą znacznie się różnić, warstwy uczą się z różnym tempem

Question 5

Q

Jak omijać minima lokalne?

Answer

A

Wielokrotny start z różnymi wartościami początkowymi -
najprostsza ale skuteczna metoda
Szum dodawany do wag lub szum dodany do danych pozwala
wygładzić funkcję błędu i uciec z płytszych minimów –
formalnie jest to równoważne regularyzacji, czyli dodaniu
dodatkowego członu wygładzającego do funkcji błędu
Losowa kolejność prezentowania przypadków
Modyfikacje BP lub inne algorytmy optymalizacji

Question 6

Q

Jakie są metody globalnej minimalizacji?

Answer

A

Monte Carlo, symulowane wyżarzanie, metody multisympleksowe, minimalizacja Tabu, homotopia

Question 7

Q