Manuel chapitre 6 (Modules 1 et 2) Flashcards
Qu’est-ce que le fait que le ReLU soit presque linéaire permet de préserver?
Les ReLU permettent de conserver…
- de nombreuses propriétés qui rendent les modèles linéaires faciles à optimiser avec des méthodes basées sur le gradient
- plusieurs propriétés qui permettentaux modèles linéaires de bien se généraliser
Est-ce que la convergence est garantie lors de l’application de la descente de gradient stochastique aux fonctions de perte non convexes?
Non.
Est-ce que la descente de gradient stochastique aux fonctions de perte non convexes est sensible aux valeurs des paramètres initiaux?
Oui.
Pour des feedforward neural networks, à quoi faut-il initialiser les poids?
à de petites valeurs aléatoires.
Pour des feedforward neural networks, à quoi faut-il initialiser les biais?
à zéro ou à de petites valeurs positives.
L’algorithme d’entraînement est presque toujours basé sur quoi?
L’algorithme d’entraînement est presque toujours basé sur l’utilisation du gradient pour descendre la fonction de coût d’une manière ou d’une autre.
Quel est l’avantage de dériver la fonction de coût à partir du maximum de vraisemblance?
Cela élimine le fardeau de concevoir des fonctions de coût pour chaque modèle.
Pourquoi le gradient de la fonction de coût doit être suffisamment grand et prévisible? En quoi les fonctions qui saturent (deviennent plates) s’opposent à cela?
Le gradient de la fonction de coût doit être suffisamment prévisible pour servir de bon guide à l’algorithme d’apprentissage. Les fonctions qui deviennent plates sapent cet objectif puisqu’elles font en sorte que le gradient devient très petit
Quelle est une propriété inhabituelle du coût de l’entropie croisée utilisé pour effectuer l’estimation du maximum de vraisemblance?
Il n’a généralement pas de valeur maximale lorsqu’il est appliqué aux modèles couramment utilisés dans la pratique.
Pourquoi la fonction de coût de l’entropie croisée est plus populaire que l’erreur quadratique moyenne ou l’erreur absolue moyenne?
Puisque certaines unités de sortie qui saturent produisent des gradients très faibles lorsqu’elles sont combinées à ces fonctions de coût (erreur quadratique moyenne et erreur absolue moyenne)
Quel est le rôle de la couche de sortie?
Le rôle de la couche de sortie est de fournir une transformation supplémentaire à partir des caractéristiques (features) pour compléter la tâche que le réseau doit accomplir.
Quand utiliser une softmax?
Quand on veut représenter une distribution de probabilité sur une variable discrète avec n valeurs possibles.
Quand utiliser une sigmoïde?
Quand on veut prédire la valeur d’une variable binaire y. Les problèmes de classification avec deux classes peuvent être présentés sous cette forme.
La somme des sorties de softmax est toujorus égale à quoi? Ça résulte en quoi?
La somme des sorties de softmax est toujours égale à 1. Ainsi, une augmentation de la valeur d’une unité correspond nécessairement à une diminution de la valeur des autres.
Pourquoi les unités linéaires rectifiées sont-elles faciles à optimiser?
Puisqu’elles sont similaires aux unités linéaires.