Module 1 : Introduction, réseau linéaire, fonctions d'activation Flashcards

Question

Comment appelle-t-on la dernière couche d'un réseau de neurones?

Answer 1

La couche de sortie.

Answer 2

Les données d'entraînement spécifient directement ce que la couche de sortie doit faire pour chaque point x. La couche de sortie doit produire des valeurs qui sont proches de y.

Answer 3

La couche de sortie.

Answer 4

Les couches cachées. Les données d'entraînement montrent seulement la sortie désirée pour la couche de sortie; l'algorithme d'apprentissage doit décider comment utiliser les autres couches pour produire la sortie appropriée. Puisque les données d'entraînement ne montrent pas la sortie désirée pour chacune de ces autres couches, elles sont appelées couches cachées.

Answer 5

Elles sont utilisées pour calculer les valeurs des couches cachées.

Answer 6

Elle entraîne le réseau

Answer 7

Elle estime la performance de notre modèle au fur et à mesure de l'optimisation

Answer 8

Elle estime la performance de notre modèle sur des données jamais observées.

Answer 9

La fonction train passe au travers de toutes les données du jeu de données dans un ordre aléatoire et met à jour les poids du réseau selon la perte calculée.

Answer 10

Le terme x correspond à notre exemple. Le terme y correspond à notre étiquette (ou label, target) sous forme d'index (par exemple, on pourrait avoir 0 pour chien et 1 pour chat si on cherchait à différencier des images de chats et de chien). Donc pour MNIST, x sera les pixels de l'image et y sera le chiffre à classifier.

Answer 11

1. Le nombre d'epochs 2. La taille de la batch 3. Le taux d'apprentissage

Answer 12

Le nombre d'epochs indique combien de fois toutes les images du jeu de données seront observées.

Answer 13

La taille de la batch indique combien d'images (ou de whatever quel format de données) seront traitées à la fois.

Answer 14

Le taux d'apprentissage détermine la vitesse à laquelle chaque poids du réseau sera modifié.

Answer 15

Ça équivaut à arrêter l'entraînement de manière prématurée. Donc, si on arrête l'entraînement après seulement 2 epochs par exemple, on voit clairement que notre modèle n'a pas été entraîné à son plein potentiel. On parle ici de sous-apprentissage.

Answer 16

Ça donne du surapprentissage. En surapprentissage, le réseau de neurones est capable de mémoriser les exemples d'entraînement. Dans la courbe de la fonction de perte, on peut voir que la perte en entraînement est très basse alors qu'en validation, elle descend au début de l'entraînement et monte sans cesse par la suite. Similairement, de manière plus subtile, l'exactitude en validation monte en premier et décroit tranquillement par la suite.

Answer 17

Niveau mémoire GPU, la taille de la batch a une grande importance. Pour une batch très petite, peu de mémoire sera utilisée et pour une batch très grande, une grande quantité sera nécessaire. Au niveau de l'utilisation des coeurs du GPUs, plus la taille de la batch est grand, plus grande l'utilisation des coeurs sera. Une plus grande batch peut donc mener à une utilisation plus efficace des ressources de calcul qui sont limités. Par contre, il faut aussi prendre en compte que la taille de la batch a un impact sur les performances.

Answer 18

Oui. Si l'on va dans les extrêmes, les performances sont dégradées d'une manière ou d'une autre. Dépendamment du réseau et de son initialisation, ceci peut prendre la forme d'un apprentissage qui ne s'effectue simplement pas, un apprentissage plus lent ou bien à un grand surapprentissage. Ceci est du au fait que les réseaux de neurones ne sont pas des modèles dits convexes et donc ont besoin d'un certain niveau de stochaïsticité (c'est-à-dire de l'aléatoire) pour être capable de les entraîner. La taille de la batch est donc un hyperparamètre important pour avoir un apprentissage effectif.

Answer 19

La taille de batch optimale est un compromis entre l'utilisation optimale des ressources du GPUs et sur les performances obtenues. On peut donc tenter d'augmenter la taille de la batch tout en obtenant des performances optimales.

Answer 20

D'une manière similaire aux impacts de la taille de la batch, si le taux d'apprentissage au trop grand, les performances sont dégradées d'une manière ou d'une autre. Dépendamment du réseau et de son initialisation, ceci peut prendre la forme d'un apprentissage qui ne s'effectue simplement pas ou d'un apprentissage très instable. Le taux d'apprentissage est donc aussi un hyperparamètre important pour avoir un apprentissage effectif.

Answer 21

Si le taux d'apprentissage est trop petit, l'apprentissage se fera d'une manière très lente et parfois il ne se fera pas étant donné la stochaïsticité de l'entraînement.

Answer 22

Non, la ReLU n'a pas de limite supérieure.

Answer 23

Non. La ReLU est rarement utilisée en sortie de réseau.

Answer 24

Certains neurones sont à 0. Parfois des neurones vont mourir, particulièrement si le elarning rate est trop grand.

Module 1 : Introduction, réseau linéaire, fonctions d'activation Flashcards

(52 cards)