Generalizacja i regularyzacja sieci MLP Flashcards

1
Q

Czym jest generalizacja?

A

Generalizacja jest celem uczenia, zdolność modelu do
uogólniania reguły, która wytworzyła dane.
W praktyce dążymy do minimalizacji błędu na danych, które
nie zostały użyte w treningu (tzw. zbiór testowy).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Czym jest zbiór walidacyjny

A

Zbiór walidacyjny to wyodrębniony fragment danych (np. ze
zbioru uczącego) pozwala na ocenę błędu generalizacji w
czasie uczenia. Jest przydatny przy określaniu punktu zatrzymania treningu.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Jak dobrać ilość wag?

A
  • ilość wag określa ilość stopni swobody - nie powinna
    przekraczać liczby przypadków uczących (np. n/10)
  • za dużo wag - model uczy się na pamięć (przeuczenie)
  • za mało wag - model zbyt prosty (niedouczony)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Czym jest niedouczenie i przeuczenie?

A

niedouczenie - błąd treningowy i walidacyjny pozostają duże
przeuczenie - błąd walidacyjny rośnie a błąd treningowy maleje

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Co to jest regularyzacja?

A

Regularyzacja to metody, których celem jest poprawienie
generalizacji

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Jakie są metody regularyzacji?

A
  • dobór wielkości modelu (ilości neuronów i wag), preferowane
    są najprostsze rozwiązania
  • małe wartości wag są preferowane
  • modyfikacje funkcji kosztu wymuszające odpowiednią
    strukturę sieci, np. wymuszające minimalizację wartości wag
  • wczesne zatrzymanie treningu, zanim błąd walidacyjny
    wzrośnie
  • zwiększenie liczby danych
  • przetransformowanie danych do takiej postaci, która zwiększy
  • szansę znalezienie optymalnego rozwiązania
  • dodanie szumu do wag lub danych treningowych
  • selekcja cech - wybór tylko istotnych zmiennych do treningu
  • uśrednianie wyników z wielu modeli, np.: boosting, bagging
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Za co odpowiada zbiór walidacyjny i testowy?

A

zbiór walidacyjny pozwala oszacować błąd generalizacji w
trakcie treningu. Wydzielany ze zbioru treningowego, więc
powoduje zmniejszenie liczby próbek uczących.

zbiór testowy używany wyłącznie do ewaluacji nauczonego
modelu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Co to jest walidacja krzyżowa (kroswalidacja)?

A

Kroswalidacja - metoda pozwalająca na oszacowanie błędu
generalizacji i wariancji modelu poprzez powtarzanie treningu i
ewaluacji na kolejnych podziałach zbioru uczącego

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Na czym polega wczesne zatrzymanie?

A

przerwij trening w momencie, gdy błąd walidacyjny zacznie
rosnąć (np. gdy brak poprawy przez k epok). Często
wystarczy tylko kilka iteracji.

trenuj przez N epok i zapamiętaj model o najmniejszym
błędzie walidacyjnym wyznaczonym po każdej epoce

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Minimalizacja ryzyka strukturalnego

A

Structural risk minimization (SRM) (Vapnik) zasada
równoważenia złożoności modelu względem jego zdolności do
dopasowywania się do danych

błąd generalizacji rośnie wraz z VCdim, podczas gdy błąd treningowy spada

jeśli znamy VCdim klasyfikatora to możemy oszacować ile
próbek uczących jest potrzebnych aby uzyskać satysfakcjonujący błąd generalizacji

im bardziej złożony model tym więcej potrzeba danych
uczących

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Regularyzacja L2

A

Regularyzacja L2 (weight decay) - dąży do zmniejszenia wartości wag. Zmniejszane są wszystkie wagi w trakcie uczenia.

Możliwe modyfikacje:
wagi, które zmalały poniżej pewnego progu mogą być usunięte
usuwamy neurony dla których ∑ |wi| jest bliskie zeru

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Regularyzacja L1

A

regularyzacja wpływa na gradient ze stałą wartością. Regularyzacja L1 daje rzadsze rozwiązanie od L2, tzn. dąży do rozwiązania o mniejszej liczbie niezerowych wag

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Metody wrażliwościowe redukcji sieci

A

Eliminacja wag na podstawie jej wpływu na wartość błędu

Wagi o małej wartości |wi| są mniej istotne od dużych wag

Połączenia o najmniejszej wrażliwości usuwa się po czym sieć
jest douczana

Usuwamy neuron dla którego wszystkie dochodzące (lub
wychodzące) połączenia są wyzerowane

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Redukcja neuronów o małej aktywności

A

Neurony o niewielkiej aktywności (których sygnał wyjściowy
nie zmienia się dla całego zbioru treningowego) można usunąć
bez szkody dla generalizacji

duża aktywność neuronu świadczy o jego przydatności

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Architektury konstruktywne (rozrastające się)

A

automatycznie dobierają złożoność modelu do złożoności problemu, rozrastając się od prostych do złożonych modeli

strategia zachłanna - dodanie neuronu maksymalizuje zysk w
pojedynczym kroku rozbudowy

przedwczesne przerwanie uczenia nie musi być katastrofą

(zazwyczaj) niski koszt obliczeniowy, np. w każdym cyklu
douczamy tylko dodatkowy neuron, reszta połączeń jest
„zamrożona”

możliwość budowania sieci o różnorodnych funkcjach aktywacji
przykład: algorytm wieżowy i piramidalny, korelacja kaskadowa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Na czym polega korelacja kaskadowa

A

zaczynamy od treningu sieci bez warstwy ukrytej

w kolejnych krokach dodawany jest neuron do warstwy
ukrytej, wejścia neuronu połączone są ze wszystkimi wejściami
sieci i wyjściami poprzednio dodanych neuronów ukrytych

wagi neuronu dobierane są w procesie maksymalizacji korelacji
nowego neuronu k z błędem wykazywanym przez neurony
wyjściowe

wagi kandydata maksymalizujące korelację są „zamrażane” -
douczaniu podlegają wyłącznie wagi wyjściowe sieci

jeśli wyjścia neuronu kandydata są skorelowane dodatnio z
błędem to w wyniku treningu wykształci wagi, które mają
szansę zniwelować ten błąd

w każdym kroku rozpatruje się zbiór kandydatów (od 5 do
10), mogą posiadać różne funkcje aktywacji (sigmoidalna,
gaussowaka, itp.),

kandydaci trenowani są równolegle konkurując ze sobą,
wybiera się najlepszego (o największej korelacji)

17
Q

Selekcja cech

A

zmienne, które nie zawierają istotnych informacji mogą
wpływać negatywnie na trening

metody selekcji cech usuwają nieistotne zmienne zmniejszając
tym samym rozmiar zbioru treningowego

dodanie cech, które niosą wartościową informację poprawia
generalizację