Introduction to ANNs Flashcards

1
Q

Jak dziala backpropagation?

A

Przechodzi do przodu i do tylu, oblicza gradient bledu ze wzgledu na wszystkie parametry. Potem po prostu dziala Gradient Descent, az do osiagniecia rozwiazania

Szczegolowo:

  1. Dzieli dane na batche ( male porcje np po 32)
  2. kazdy batch jest przesylany do input layer
  3. algorytm wylicza output kazdej warstwy, az do output, kazdy posredni wynik zostaje zachowany
  4. mierzymy error
  5. mierzymy jak kazde polaczenie OUTPUTU wplynelo na wynik - chain rule (pochodna zlozona)
  6. schodzimy nizej i dalej obliczamy wplyw na blad – pomiar gradientu
  7. Gradient descent i poprawa wag polaczen

Poczatkowe wartosci wag sa wybrane RANDOMOWO, inaczej moze wgl nie dzialac

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

TLU

A

_

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Rodzaje funkcji aktywacyjnych

A

hyperbolic tangent
logistic function
relu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Dlaczego funkcje aktywacyjne zastapily step?

A

Zastapily proste step functions -step functions zawieraly tylko plaskie odcinki, na ktorych gradient nie moze dzialac, a te maja ciagle pochodne _

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Po co funkcje aktywacyjne?

A

Polaczenie transformacji liniowych daje transormacje liniowa

Gdybysmy mieli liniowa zaleznosc miedzy warstwami, wszystkie bylyby rownowazne 1 warstwie, wypadkowej

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Czym jest huber loss?

A

Kombincja MSE i MAE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Zaleta funkcji softmax i gdzie uzyc

A

Zwraca wartosci z przedzialu 0,1 ktore sumuja sie do 1. Uzyc klasyfikacji na pare klas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Cross-entropy function

A

_

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Co jesli nasz model osiaga duzo lepsze wyniki niz na validation set?

A

_

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Co jesli nasze dane sa bardzo skosne?

A

Mozna zwiekszyc wagi mniejszych klas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Po co nam sample_weight?

A

np jakby niektore instancje byly ocenione przez ekspertow

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Po co multiple outputs?

A

_

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Po co wiele loss functions przy multiple outputs?

A

moga opisywac rozne problemy, mozna im nadac wagi, poniewaz na koncu sie sumuja do lacznego kosztu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Jak dziala wide and deep network?

A

_

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Po co robic dynamiczne modele?

A

umozliwiaja tworzenie wlasnych modyfikacji, petli, warunkow

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Do czego sluza callbacks?

A

mozna ustalic co model ma robic na starcie, koncu trenowania czy kazdego epocha

17
Q

Jak wprowadzic early stopping?

A

albo za pomoca ModelCheckPoint - save_best_only

albo za pomoca EarlyStopping

18
Q

Po co i jak korzystac z Tensorboard?

A

Do wizualizacji trenowania naszego modelu.

Output musi byc zapisywany do binarnych - event files

19
Q

Co trzeba zrobic zeby wykorzystac GridSearch albo Randomized?

A

trzeba opakowac nasz model w Scikit i uzyc

keras_reg = keras.wrappers.scikit_learn.KerasRegressor(build_model)

20
Q

Jakie sa przykladowe biblioteki do optymalizacji hyperparametrow i na jakiej zasadzie dzialaja?

A

Dzialaja na zasadzie zoomingu - obiecujace przestrzenie parametrow powinny byc bardziej sprawdzane

np:
Hyperopt
Hyperas
scikit-optimize

21
Q

Dlaczego warto uzyc wiekszej ilosci warstw?

A

Glebokie sieci maja wyzszy parameter efficiency - moga modelowac skomplikowane rzeczy z duza mniejsza iloscia neuronow niz 1 warstwa - zasada rysowania lasu

lower hidden layers model low-level struc‐
tures (e.g., line segments of various shapes and orientations), intermediate hidden
layers combine these low-level structures to model intermediate-level structures (e.g.,
squares, circles), and the highest hidden layers and the output layer combine these
intermediate structures to model high-level structures (e.g., faces).

22
Q

Jaka powinna byc ilosc neuronow inputu?

A

taka jaka ilosc cech kazdej instancji

23
Q

strech pants approach

A

wybieramy model ze zbyt duza iloscia warstw i neuronow -> early stopping zeby zapobiec overfittingowi

24
Q

optymalna learning rate

A

okolo polowa maksymalnej learning rate –> lepiej zaczac od duzej i dzielic przez 3

25
Q

optymalny rozmiar batch size

A

generalnie mniej niz 32