Training Deep Neural Networks Flashcards

1
Q

Na czym polega Vanishing Gradient Problem?

A

Gradient coraz bardziej maleje i praktycznie nie zmienia wag polaczen -> nie osiagnie dobrego rozwiazania

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Exploding Gradients Problem

A

gradient coraz to rosnie, zostawiajac ogroomne wagi polaczen -> rozbieznosc

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Unstable Gradients

A

rozne warstwy ucza sie z innymi predkosciami

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Problemy funkcji sigmoid

A

srednia 0.5 zamiast 0,

kiedy inputy sa bezwglednie duze, funkcja bardzo sie zbliza do 1 lub 0, a pochodna do 0 -> bardzo maly gradient

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Czym sa fan-in i fan-out

A

liczba inputow i outputow warstwy

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Na czym polega inizjalizacja Glorota?

A

wariancja outputoq powinna byc rowna wariancji outputow

gradienty rowniez powinny miec rowna wariance przed i po przejsciu

kompromis: wagi polaczen powinny byc randomowe:

albo normal ditribution, srednia 0, wariancja = 1/fan_avg

albo uniform distribution, miedzy -r a r, gdzie r = sqrt(3/fan_avg)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Jaki jest zwiazek miedzy inicjalizacja LeCun a Glorota?

A

Zamiana fan_avg na fan_in

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

He inicjalization

A

inicjalizacja dla funkcji relu,

wariancja 2/fan_in

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

dying Relus

A

podczas trenowania, niektore neurony umieraja. zwracajac tylko 0
kiedy suma wazona inputow zawszej jest ujemna

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

leaky Relu

A

max(az,z)
a okresla jak bardzo funkcja ‘przecieka’ - jakie nachylenie dla mniejszych od zera, dzieki czemu neurony nie umieraja, a najwyzej zasypiaja

typy:
standardowa
random
parametric

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

ELU

A

Exponential Linear Unit
funkcja zastepujaca RELU,
najczesciej lepsza, ale wolniejsza

y = x dla x>=0
y=exp(x) -1 dla x<0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

SELU

A

scaled ELU
sama sie normalizuje

warunki:
znormalizowane inputy
Lecun initialization
architektura musi byc sekwencyjne

jesli dropout to alphadropout

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Batch normalization

A

dziala przeciwko vanishing/exploding gradients

zawsze przed albo po zastosowaniu funkcji aktywacyjnej

centruje i normalizuje kazdy input dla instancji
potem skaluje i przesuwa, wykorzystujac przygotowane do tego wektory dla kazdej warstwy -> model uczy sie optymalnej skali dla kazdej warstwy

srednia i ochylenia wylicza dla kazdego mini-batcha inputow

2 dodatkowe wektory: srednie ruchome sredniej i sd, wykorzystywane przy testowaniu

lacznie oblicza 4 wektory

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Gradient Clipping

A

dzialanie przeciwko exploding gradients,
po prostu ograniczamy gradient do jakiegos przedzialu, czesto uzywane przy sieciach rekurencyjnych

keras.optimizers(clipvalue=1.0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Reusing Pretrained Layers

A

wykorzystanie juz wytrenowanych warstw jakiejs sieci,
jesli inputy maja innae rozmiary. trzeba wykonac jakis preprocessing

dobrze wstrzymac trenowanie juz juz utworzonych i potem wlaczac po jednej warstwie

najlepiej dziala z glebokimi sieciami konwolucyjnymi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Unsupervided Pretraining

A

wykonywane najczesciej z RBM albo autoencoderami, kiedy mamy malo oznaczonych danych i nie mozna skorzystac z innego modelu

trenuje sie warstwa po warstwie, pozostale sa zamrozone

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Restricted Boltzmann Machines

A

_

18
Q

Pretraining on an auxiliary task

A

kiedy nie mamy za duzo oznaczonych danych, mozna wytrenowac siec na jakies poboczne zadanie dla ktorego latwo mozemy uzyskac labele i potem wykorzystac jego warstwy

np siec porownujaca czy na zdjeciach sa te same osoby -> siec rozpoznajaca twarze

19
Q

Faster Optimizers

A

momentum, nesterov accelerated gradient, adagrad, rmsprop, adam and nadam

20
Q

Momentum Optimization

A

na zasadzie przyspieszajacej kuli

w kazdej iteracji: od wektora meomentum odejmuje sie lokalny gradient, przemnozony przez learning rate

do wagi dodaje sie wektor momentum

-> gradient jest uzywany do przyspieszenia, nie szybkosci

zeby momentum nie byl zbyt duzy, wymnaza sie go przez parametr Beta (0 -1)

21
Q

Nesterov Accelerated Gradient

A

zamist mierzyc gradient w lokalnej pozycji, mierzymy go troche dalej, w kierunku momentum

dziala bo zazwyczaj momentum jest skierowane w dobrym kierunku

22
Q

AdaGrad

A

wykrywa kierunki gradientu i koryguje w kierunku optimum - skaluje wektor gradientu zgodnie z najbardziej stromymi wymiarami

wyznacz kwadrat gradientu do wektora s
odejmuje od wektora wag gradient podzielony elementami przed pierwiastek z wektora s + jakis epsilon,

nie dziala dobrze dla glebszych sieci

23
Q

RMSProp

A

dziala podobnie jak Ada, ale uwzglednia tylko gradienty z ostatnich iteracji

wykorzystuje exponential decay

24
Q

Adam

A

adaptive moment estimations,
laczy idee momentum i rmsprop

roznice - decaying average not sum,

25
Q

Adamax

A

adam ale do skalowania uzywa l_infinity, zamiast l2, czyli max

26
Q

nadam optimization

A

adam optimization plus nesterov trick

27
Q

problem adapcyjnych metod optymalizacyjnych

A

moga miec problem z genrealizacja, nalezy wtedy sprobowac z nesterov

28
Q

trenowanie sparse models

A

1 opcja: uzycie mocnej regularyzacji l1, co zeruje bardzo duzo wag

2.Dual Averaging - Follow the Regularized Leader

29
Q

Learning Rate Scheduling

A

strategie opisujace zmiany learning rate

30
Q

power scheduling

A

_

31
Q

exponential scheduling

A

zmniejszanie poprzez dzielenie o 10 co s krokow

32
Q

piecewise constant scheduling

A

stale learning rate dla roznych przedzialow epochow

33
Q

performance scheduling

A

mierzymy blad walidacji co N krokow i zmieniamy learning rate kiedy blad nie spada

34
Q

regularyzacja l1 i l2

A

z kazdym krokiem dodaje sie regularization loss

35
Q

dropout

A

z kazdym krokiem, kazdy neuron oprocz outputu, ma prawdopodobiensto p bycia wyrzoconym z trenowania podczas aktualnego kroku

p - dropout rate, najczesciej 50 %

powoduje to tworzenie z kazdym krokiem unikalnej sieci

dla p =50%, przy testowaniu kazdy neuron bedzie podloczony dla 2-krotnie wiekszej liczby neuronow niz byl przy trenowaniu -> musimy pomnozyc input connection weight kazdego neurona przez 0.5

36
Q

Monte Carlo Dropout

A

wlaczamy training mode -> wlacza dropout
robimy np 100 predykcji i przechowujemy (liczba jest hyperparametrem)

poniewaz jest wlaczamy dropout, wszystkie predykcje beda rozne
usredniamy predykcje -> dostajemy bardziej realny wynik

37
Q

Max-Norm regularization

A

dla kazdego neurona ograniczamy wagi inputow tak ze |w|_2 <= r, gdzie r to max-norm hyperparameter
mniejsze r-> wieksza regularyzacja i mniejszy overfitting

. Maxnorm regularization can also help alleviate the vanishing/exploding gradients prob‐
lems (if you are not using Batch Normalization).

38
Q
  1. Name three advantages of the SELU activation function over ReLU.
A

nie ma problemu dying relus
zredukowany czas trenowania
moze przyjmowac dowolne ujemne wartosci, przez co sredni output jest bliski zera

moze zapewniac wlasna normalizacja

39
Q

In which cases would you want to use each of the following activation functions:
SELU, leaky ReLU (and its variants), ReLU, tanh, logistic, and softmax?

A

selu - generalnie dobra

leakyRelu - szybkosc
relu - prostota

tangent - jesli mamy output 0-1
logistic - jesli mamy ocenic prawdopodobienstwo,
softmax - jesli mamy prawdopodobienstwo i ma sie sumowac do 1

40
Q
  1. What may happen if you set the momentum hyperparameter too close to 1 (e.g.,
  2. 99999) when using an SGD optimizer?
A

nabierze szybkosci ale moze przskoczyc minimum, moze powodowac oscylacje