Funções de Ativação Flashcards

1
Q

Como a Rectified Linear Unit é definida?

A

g(z) = max{0,z}

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O que a Sigmoid faz?

A

Converte a camada linear em probabilidade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cite generalizações da ReLU.

A

Se zi < 0: hi = g(z, alfa)i = max{0,zi} + alfa*min{0,zi}

  • Leaky ReLU: alfa próximo de 0
  • Parametric ReLU: alfa é parâmetro
  • Maxout: “aprende a função
  • Absolute Value Rectification: alfa = -1 (object recognition from images)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Porque o uso da Sigmoid como hidden unit é desencorajado?

A

Satura em praticamente todo o seu domínio. Para valores altos quando z é muito positivo e baixos caso contrário. Obs: Pode ser usada como output unit desde que a cost function desfaça a saturação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Em quais redes neurais a Sigmoid costuma ser mais usada?

A

Recurrent, modelos probabilísticos, alguns Autoencoders.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Por que a Tangente Hiperbólica costuma performar melhor que a Sigmoid?

A

Tem maior semelhança com a função Identidade no sentido de que tanh(0) = 0 enquanto sigma(0) = 1/2.
Quando as ativações da rede são pequenas, treinar com tanh se assemelha a treinar um modelo linear, ou seja, é mais fácil.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

É possível não ter hidden units?

A

Sim, seria o mesmo que fazer uso de linear hidden units. Pode ser útil para reduzir o número de parâmetros.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

É possível usar a softmax como hidden unit?

A

Sim, em arquiteturas mais avançadas que aprendem a manipular memória.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly