Manuel chapitre 6 (Modules 1 et 2) Flashcards

1
Q

Qu’est-ce que le fait que le ReLU soit presque linéaire permet de préserver?

A

Les ReLU permettent de conserver…
- de nombreuses propriétés qui rendent les modèles linéaires faciles à optimiser avec des méthodes basées sur le gradient
- plusieurs propriétés qui permettentaux modèles linéaires de bien se généraliser

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Est-ce que la convergence est garantie lors de l’application de la descente de gradient stochastique aux fonctions de perte non convexes?

A

Non.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Est-ce que la descente de gradient stochastique aux fonctions de perte non convexes est sensible aux valeurs des paramètres initiaux?

A

Oui.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Pour des feedforward neural networks, à quoi faut-il initialiser les poids?

A

à de petites valeurs aléatoires.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Pour des feedforward neural networks, à quoi faut-il initialiser les biais?

A

à zéro ou à de petites valeurs positives.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

L’algorithme d’entraînement est presque toujours basé sur quoi?

A

L’algorithme d’entraînement est presque toujours basé sur l’utilisation du gradient pour descendre la fonction de coût d’une manière ou d’une autre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quel est l’avantage de dériver la fonction de coût à partir du maximum de vraisemblance?

A

Cela élimine le fardeau de concevoir des fonctions de coût pour chaque modèle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Pourquoi le gradient de la fonction de coût doit être suffisamment grand et prévisible? En quoi les fonctions qui saturent (deviennent plates) s’opposent à cela?

A

Le gradient de la fonction de coût doit être suffisamment prévisible pour servir de bon guide à l’algorithme d’apprentissage. Les fonctions qui deviennent plates sapent cet objectif puisqu’elles font en sorte que le gradient devient très petit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelle est une propriété inhabituelle du coût de l’entropie croisée utilisé pour effectuer l’estimation du maximum de vraisemblance?

A

Il n’a généralement pas de valeur maximale lorsqu’il est appliqué aux modèles couramment utilisés dans la pratique.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Pourquoi la fonction de coût de l’entropie croisée est plus populaire que l’erreur quadratique moyenne ou l’erreur absolue moyenne?

A

Puisque certaines unités de sortie qui saturent produisent des gradients très faibles lorsqu’elles sont combinées à ces fonctions de coût (erreur quadratique moyenne et erreur absolue moyenne)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quel est le rôle de la couche de sortie?

A

Le rôle de la couche de sortie est de fournir une transformation supplémentaire à partir des caractéristiques (features) pour compléter la tâche que le réseau doit accomplir.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quand utiliser une softmax?

A

Quand on veut représenter une distribution de probabilité sur une variable discrète avec n valeurs possibles.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quand utiliser une sigmoïde?

A

Quand on veut prédire la valeur d’une variable binaire y. Les problèmes de classification avec deux classes peuvent être présentés sous cette forme.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

La somme des sorties de softmax est toujorus égale à quoi? Ça résulte en quoi?

A

La somme des sorties de softmax est toujours égale à 1. Ainsi, une augmentation de la valeur d’une unité correspond nécessairement à une diminution de la valeur des autres.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Pourquoi les unités linéaires rectifiées sont-elles faciles à optimiser?

A

Puisqu’elles sont similaires aux unités linéaires.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quelle est la seule différence entre une unité linéaire et une unité linéaire rectifiée?

A

L’unité linéaire rectifiée produit zéro sur la moitié de son domaine (negatifs)

17
Q

En quoi le fait que l’unité linéaire rectifiée produise zéro sur la moitié de son domaine affecte les dérivées/le gradient?

A

Ainsi, les dérivées à travers une unité linéaire redressée restent grandes chaque fois que l’unité est active. Les gradients sont donc non seulement grands mais aussi cohérents.

18
Q

Avec une ReLU, la dérivée seconde de l’opération de redressement est 0 presque partout, et la dérivée de l’opération de redressement est 1 partout où l’unité est active. C’est quoi l’avantage?

A

Cela fait en sorte que la direction du gradient est beaucoup plus utile pour l’apprentissage qu’elle ne le serait avec des fonctions d’activation qui introduisent des effets de second ordre.

19
Q

Pourquoi l’utilisation des sigmoïdes en tant qu’unités cachées dans les réseaux à action directe est désormais déconseillée?

A

Contrairement aux unités linéaires par morceaux, les unités sigmoïdales saturent dans la majeure partie de leur domaine:
- elles saturent à une valeur élevée lorsque z est très positif,
- saturent à une valeur faible lorsque z est très négatif,
- ne sont fortement sensibles à leur entrée que lorsque z est proche de 0.

La saturation généralisée des unités sigmoïdales peut rendre l’apprentissage basé sur le gradient très difficile.

20
Q

Quand est-ce que l’utilisation des sigmoïdes comme unités de sortie est compatible avec l’tilisation de l’apprentissage basé sur le gradient?

A

Lorsqu’une fonction de coût appropriée peut annuler la saturation de la sigmoïde dans la couche de sortie.

21
Q

Qu’est-ce qui donne généralement des meilleurs résultats lorsqu’une fonction d’activation sigmoïde doit être utilisée?

A

La fonction d’activation tangente hyperbolique (tanh) donne généralement de meilleurs résultats que la sigmoïde logistique.

22
Q

Pourquoi la fonction d’activation tanh donne généralement de meilleurs résultats que la sigmoïde logistique?

A

Elle ressemble davantage à la fonction d’identité.

23
Q

Pourquoi l’entrainement d’un réseau neuronal profond avec tanh ressemble à la formation d’un modèle linéaire tant que les activations du réseau peuvent être maintenues petites?

A

Parce que tanh est similaire à la fonction d’identité près de zéro.

24
Q

À quoi réfère le mot architecture?

A

Le mot architecture fait référence à la structure globale du réseau : combien d’unités il doit comporter et comment ces unités doivent être connectées entre elles.

25
Q

La plupart des réseaux neuronaux sont organisés en groupes d’unités appelés ____.

A

La plupart des réseaux neuronaux sont organisés en groupes d’unités appelés COUCHES.

26
Q

La plupart des architectures de réseaux neuronaux disposent ces couches dans quel genre de structure? Expliquer.

A

La plupart des architectures de réseaux neuronaux disposent ces couches dans une STRUCTURE EN CHAÎNE, chaque couche étant une fonction de la couche qui la précède.

27
Q

Quelles sont les principales considérations architecturales dans les structures en chaîne?

A
  • choisir la profondeur du réseau
  • choisir la largeur de chaque couche
28
Q

Nommer des avantages des réseaux plus profonds

A

Souvent capables d’utiliser beaucoup moins d’unités par couche et beaucoup moins de paramètres, ainsi que de généraliser fréquemment à l’ensemble de test.