Manuel chapitre 6 (Modules 1 et 2) Flashcards
Qu’est-ce que le fait que le ReLU soit presque linéaire permet de préserver?
Les ReLU permettent de conserver…
- de nombreuses propriétés qui rendent les modèles linéaires faciles à optimiser avec des méthodes basées sur le gradient
- plusieurs propriétés qui permettentaux modèles linéaires de bien se généraliser
Est-ce que la convergence est garantie lors de l’application de la descente de gradient stochastique aux fonctions de perte non convexes?
Non.
Est-ce que la descente de gradient stochastique aux fonctions de perte non convexes est sensible aux valeurs des paramètres initiaux?
Oui.
Pour des feedforward neural networks, à quoi faut-il initialiser les poids?
à de petites valeurs aléatoires.
Pour des feedforward neural networks, à quoi faut-il initialiser les biais?
à zéro ou à de petites valeurs positives.
L’algorithme d’entraînement est presque toujours basé sur quoi?
L’algorithme d’entraînement est presque toujours basé sur l’utilisation du gradient pour descendre la fonction de coût d’une manière ou d’une autre.
Quel est l’avantage de dériver la fonction de coût à partir du maximum de vraisemblance?
Cela élimine le fardeau de concevoir des fonctions de coût pour chaque modèle.
Pourquoi le gradient de la fonction de coût doit être suffisamment grand et prévisible? En quoi les fonctions qui saturent (deviennent plates) s’opposent à cela?
Le gradient de la fonction de coût doit être suffisamment prévisible pour servir de bon guide à l’algorithme d’apprentissage. Les fonctions qui deviennent plates sapent cet objectif puisqu’elles font en sorte que le gradient devient très petit
Quelle est une propriété inhabituelle du coût de l’entropie croisée utilisé pour effectuer l’estimation du maximum de vraisemblance?
Il n’a généralement pas de valeur maximale lorsqu’il est appliqué aux modèles couramment utilisés dans la pratique.
Pourquoi la fonction de coût de l’entropie croisée est plus populaire que l’erreur quadratique moyenne ou l’erreur absolue moyenne?
Puisque certaines unités de sortie qui saturent produisent des gradients très faibles lorsqu’elles sont combinées à ces fonctions de coût (erreur quadratique moyenne et erreur absolue moyenne)
Quel est le rôle de la couche de sortie?
Le rôle de la couche de sortie est de fournir une transformation supplémentaire à partir des caractéristiques (features) pour compléter la tâche que le réseau doit accomplir.
Quand utiliser une softmax?
Quand on veut représenter une distribution de probabilité sur une variable discrète avec n valeurs possibles.
Quand utiliser une sigmoïde?
Quand on veut prédire la valeur d’une variable binaire y. Les problèmes de classification avec deux classes peuvent être présentés sous cette forme.
La somme des sorties de softmax est toujorus égale à quoi? Ça résulte en quoi?
La somme des sorties de softmax est toujours égale à 1. Ainsi, une augmentation de la valeur d’une unité correspond nécessairement à une diminution de la valeur des autres.
Pourquoi les unités linéaires rectifiées sont-elles faciles à optimiser?
Puisqu’elles sont similaires aux unités linéaires.
Quelle est la seule différence entre une unité linéaire et une unité linéaire rectifiée?
L’unité linéaire rectifiée produit zéro sur la moitié de son domaine (negatifs)
En quoi le fait que l’unité linéaire rectifiée produise zéro sur la moitié de son domaine affecte les dérivées/le gradient?
Ainsi, les dérivées à travers une unité linéaire redressée restent grandes chaque fois que l’unité est active. Les gradients sont donc non seulement grands mais aussi cohérents.
Avec une ReLU, la dérivée seconde de l’opération de redressement est 0 presque partout, et la dérivée de l’opération de redressement est 1 partout où l’unité est active. C’est quoi l’avantage?
Cela fait en sorte que la direction du gradient est beaucoup plus utile pour l’apprentissage qu’elle ne le serait avec des fonctions d’activation qui introduisent des effets de second ordre.
Pourquoi l’utilisation des sigmoïdes en tant qu’unités cachées dans les réseaux à action directe est désormais déconseillée?
Contrairement aux unités linéaires par morceaux, les unités sigmoïdales saturent dans la majeure partie de leur domaine:
- elles saturent à une valeur élevée lorsque z est très positif,
- saturent à une valeur faible lorsque z est très négatif,
- ne sont fortement sensibles à leur entrée que lorsque z est proche de 0.
La saturation généralisée des unités sigmoïdales peut rendre l’apprentissage basé sur le gradient très difficile.
Quand est-ce que l’utilisation des sigmoïdes comme unités de sortie est compatible avec l’tilisation de l’apprentissage basé sur le gradient?
Lorsqu’une fonction de coût appropriée peut annuler la saturation de la sigmoïde dans la couche de sortie.
Qu’est-ce qui donne généralement des meilleurs résultats lorsqu’une fonction d’activation sigmoïde doit être utilisée?
La fonction d’activation tangente hyperbolique (tanh) donne généralement de meilleurs résultats que la sigmoïde logistique.
Pourquoi la fonction d’activation tanh donne généralement de meilleurs résultats que la sigmoïde logistique?
Elle ressemble davantage à la fonction d’identité.
Pourquoi l’entrainement d’un réseau neuronal profond avec tanh ressemble à la formation d’un modèle linéaire tant que les activations du réseau peuvent être maintenues petites?
Parce que tanh est similaire à la fonction d’identité près de zéro.
À quoi réfère le mot architecture?
Le mot architecture fait référence à la structure globale du réseau : combien d’unités il doit comporter et comment ces unités doivent être connectées entre elles.
La plupart des réseaux neuronaux sont organisés en groupes d’unités appelés ____.
La plupart des réseaux neuronaux sont organisés en groupes d’unités appelés COUCHES.
La plupart des architectures de réseaux neuronaux disposent ces couches dans quel genre de structure? Expliquer.
La plupart des architectures de réseaux neuronaux disposent ces couches dans une STRUCTURE EN CHAÎNE, chaque couche étant une fonction de la couche qui la précède.
Quelles sont les principales considérations architecturales dans les structures en chaîne?
- choisir la profondeur du réseau
- choisir la largeur de chaque couche
Nommer des avantages des réseaux plus profonds
Souvent capables d’utiliser beaucoup moins d’unités par couche et beaucoup moins de paramètres, ainsi que de généraliser fréquemment à l’ensemble de test.