Gradient Descent Flashcards
1
Q
Gradient descent, update di gradient descent, update rule with loss
A
- Scegliere una dimensione
- Spostarsi di una piccola quantità in quella dimensione verso la riduzione della loss (usando la derivata)
- Ripetere finché la loss non si riduce più in nessuna dimensione
2
Q
cos’è il momentum? quanti parametri ci sono in più rispetto allo stndard SGD? perchè è migliorativo rispetto a standard SGD
A
- Viene introdotta una nuova variabile velocity
- La velocità è una media mobile esponenzialmente decrescente del gradiente negativo
- Aumenta la velocità di convergenza
3
Q
Perchè SGD è “Stocastico”?
A
• La SGD affronta il problema della valutazione costosa approssimando il gradiente dell’intera somma, valutandolo solo in un sottoinsieme casuale degli addendi ad ogni iterazione
4
Q
aggiornamento del perceptron vs Gradient Descent
A
• Per il GD aggiorniamo sempre i parametri, non solo quando sbaglia