WY1 - Jednokierunkowe sieci wielowarstwowe Flashcards

1
Q

Jakie są warianty treningu MLP (Multilayer Perceptron)?

A

Batch gradient descent
- uśredniony błąd całego zbioru treningowego
- niepraktyczne dla dużych danych
- stabilny trening
- nie zależy od kolejności prezentacji wzorców

SGD - stochastic gradient descent (on-line)
- aktualizacja dla pojedynczego przypadku treningowego
(N = 1)
- duża szybkość działania ale i duża wariancja,
- istotna jest kolejność prezentacji przypadków

MiniBatch gradient descent
- średnia z n losowych przypadków (mini-batch), trening on-line,
- często utożsamiany z SGD
- mniejsza wariancja niż SGD
- możliwe operacje na macierzach, łatwiejsze zrównoleglenie
GPU/CPU

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Jakie są własności MLP

A
  • Uniwersalny aproksymator: sieć MLP z jedną warstwą
    ukrytą jest w stanie aproksymować dowolną funkcję ciągłą
    z dowolną dokładnością.
    Dwie warstwy ukryte rozszerzają możliwości na funkcje
    nieciągłe.
    Klasyfikator potrafi zrealizować dowolne granice decyzji
    (obszary nie muszą być wypukłe ani połączone)
  • Neurony ukryte: transformacja nieliniowa do przestrzeni
    odwzorowań, tworząca nowe cechy za pomocą nieliniowych
    kombinacji
  • Wiele zastosowań: klasyfikacja, wielowymiarowa regresja
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Jakie są problemy MLP?

A
  • Optymalizacja nieliniowych funkcji zawsze sprawia problemy,
    tu mamy złożenie (czasem wielu) funkcji nieliniowych
  • Dobór architektury sieci: Ile węzłów w warstwie? Jakie
    funkcje aktywacji? Sieci ontogeniczne (rozrastające się)
    dostosowujące rozmiar do złożoności problemu
  • Przeuczenie i generalizacja - zbyt duża liczba
    optymalizowanych parametrów powoduje przeuczenie, zbyt
    mała - może generować zbyt proste rozwiązania
  • Regularyzacja - metody ograniczenia zjawiska przeuczenia,
    np. modyfikacje funkcji kosztu, ograniczenie liczby parametrów
  • Inicjalizacja parametrów - szybkość treningu i wynik zależy od
    punktu startowego
  • Minima lokalne i plateau, wąskie „rynny” - np. wielokrotny start
  • Wpływ nowych wzorców na już nauczone – zapominanie
  • Dobór stałej uczenia
  • Znikający gradient, eksplodujący gradient
  • Przygotowanie danych uczących: normalizacja, standaryzacja,
    kodowanie wyjść
  • Ocena modelu: zbiory walidacyjne, testowe, kroswalidacja
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Jaki jest problem niestabilnego gradientu?

A

wartości gradientów w poszczególnych warstwach mogą znacznie się różnić, warstwy uczą się z różnym tempem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Jak omijać minima lokalne?

A
  • Wielokrotny start z różnymi wartościami początkowymi -
    najprostsza ale skuteczna metoda
  • Szum dodawany do wag lub szum dodany do danych pozwala
    wygładzić funkcję błędu i uciec z płytszych minimów –
    formalnie jest to równoważne regularyzacji, czyli dodaniu
    dodatkowego członu wygładzającego do funkcji błędu
  • Losowa kolejność prezentowania przypadków
  • Modyfikacje BP lub inne algorytmy optymalizacji
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Jakie są metody globalnej minimalizacji?

A

Monte Carlo, symulowane wyżarzanie, metody multisympleksowe, minimalizacja Tabu, homotopia

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly