Funções de Ativação Flashcards
Como a Rectified Linear Unit é definida?
g(z) = max{0,z}
O que a Sigmoid faz?
Converte a camada linear em probabilidade.
Cite generalizações da ReLU.
Se zi < 0: hi = g(z, alfa)i = max{0,zi} + alfa*min{0,zi}
- Leaky ReLU: alfa próximo de 0
- Parametric ReLU: alfa é parâmetro
- Maxout: “aprende a função
- Absolute Value Rectification: alfa = -1 (object recognition from images)
Porque o uso da Sigmoid como hidden unit é desencorajado?
Satura em praticamente todo o seu domínio. Para valores altos quando z é muito positivo e baixos caso contrário. Obs: Pode ser usada como output unit desde que a cost function desfaça a saturação.
Em quais redes neurais a Sigmoid costuma ser mais usada?
Recurrent, modelos probabilísticos, alguns Autoencoders.
Por que a Tangente Hiperbólica costuma performar melhor que a Sigmoid?
Tem maior semelhança com a função Identidade no sentido de que tanh(0) = 0 enquanto sigma(0) = 1/2.
Quando as ativações da rede são pequenas, treinar com tanh se assemelha a treinar um modelo linear, ou seja, é mais fácil.
É possível não ter hidden units?
Sim, seria o mesmo que fazer uso de linear hidden units. Pode ser útil para reduzir o número de parâmetros.
É possível usar a softmax como hidden unit?
Sim, em arquiteturas mais avançadas que aprendem a manipular memória.