Module 1 : Introduction, réseau linéaire, fonctions d'activation Flashcards
(52 cards)
Nommer une fonction d’activation qui a participé à la renaissance des réseaux profonds.
ReLu
C’est quoi le problème du vanishing gradient?
Un problème qui arrive lors de la descente du gradient. Les dérivées partielles utilisées pour calculer le gradient à mesure qu’on entre dans le réseau. Puisque les gradients contrôlent à quel point le réseau apprend pendant le training, si les gradients sont très petits ou nuls, alors il y a peu ou pas d’apprentissage qui se passe, ce qui mène à de mauvaises performances prédictives.
Nommer les 3 causes de la renaissance des réseaux profonds.
- Nouvelles fonctions d’activations
- Grands jeux de données
- Puissance de calcul via GPU
C’est quoi un tenseur?
C’est la structure de données utilisée par les systèmes d’apprentissage automatique. C’est un conteneur de données numériques, plus précisément une matrice à plus de deux dimensions.
Vrai ou faux? Plus un réseau est profond, plus il est efficace.
Vrai. Deeper is better.
A-t-on toujours besoin de beaucoup de données?
Non, il est possible de passer par des réseaux pré-entraînés.
Nommer certaines des lacunes théoriques en DL.
- Vide théorique autour des performances des réseaux profonds
- Difficile de les certifier
En gros: on comprends pas trop comment ça marche, mais ça marche. On peur obtenir des performances incontournables en vision numérique, langage naturel, etc.
Nommer certains exemples d’applications du DL.
- Reconnaissance de caractères
- Reconnaissance d’images
- Détection d’objets
- Description d’images
- Génération d’images
- Reconnaissance et génération de voix
- Traduction automatique
- Transfert de style
- Apprentissage visuomoteur
- Générations d’images à partir de texte
- Génération de vues
pis 45 milliards d’autres affaires mais un moment donné ça va faire les exemples
C’est quoi qu’il y a dans le jeu de données MNIST?
Plein d’images de chiffres écrits à la main
C’est quoi un classifieur linéaire?
Un classifieur linéaire prend des décisions de classification basées sur la valeur de la combinaison linéaire des caractéristiques des objets (feature values)
J’explique ça pas mal merdiquement donc si vous avez une meilleure explication changez-la pls
C’est quoi une fonction d’activation?
Une fonction d’activation est une fonction mathématique utilisé sur un signal. Elle va permettre (ou non!) le passage d’information si le seuil de stimulation est atteint. Concrètement, elle décide si on active ou non une réponse du neurone.
Nommer les rôles d’une fonction d’activation
- Apporte une non-linéarité dans le réseau
- Située à l’interne, ou en sortie
On utilise la fonction d’activation sigmoïde si on désire une sortie entre quoi et quoi?
Si on désire une sortie entre 0 et 1 (prédiction binaire)
Décrire la fonction d’activation tanh.
Elle sert à obtenir une sortie entre -1 et 1.
Elle donne une sortie centrée à 0 (préférable au 0.5 de la sigmoïde)
Pourquoi le ReLU permet de réduire le vanishing gradient?
Réduit le vanishing gradient, car pente = 1 dans la partie active
Expliquer c’est quoi Leaky ReLU.
- Gradient = 0 signifie impossibilité d’entraîner
- Pente très légère dans la partie négative : leaky ReLU
- Si un paramètre a (entraînable) par neurone/couche, on obtient la PReLU
- Donne des distributions de sorties plus centrées à 0 que ReLU
jkonpran po. c koi une distribution de sortie et pk on veut que ça soit centré sur 0?
Expliquer c’est quoi softmax
- Fonction d’activation utilisée en sortie, prédiction multiclasse
- Manière d’indiquer au réseau de chercher l’appartenance EXCLUSIVE à une seule classe i
- Version continue, douce de max([…])
Pour quoi on utilise softmax?
- Sortie du réseau pour prédiction multiclasse
- M.canisme d’Attention douce (images, transformers)
Est-ce qu’on peut avoir plus qu’un softmax en sortie?
Oui.
c’est quoi le but d’un réseau feedforward (MLP)?
D’approximer une fonction f*.
Pourquoi on appelle ça un réseau de neurones à propagation avant (feedforward)?
Ces modèles sont appelés feedforward parce que l’information circule à travers la fonction évaluée à partir de x, à travers les calculs intermédiaires utilisés pour définir la fonction f, et enfin vers la sortie y.
Il n’y a pas de connexions de rétroaction dans lesquelles les sorties du modèle sont réinjectées dans lui-même.
En d’autres mots, la sortie d’une cellule ne peut pas influencer son entrée. L’information se déplace dans une seule direction, vers l’avant, sans cycles ou boucles.
Comment on appelle les réseaux pour lesquels la sortie d’une cellule peut influencer son entrée?
Des réseaux de neurones récurrents.
Comment définit-on la profondeur d’un modèle à propagation avant?
Par la longueur de la chaîne de fonctions qui forment le réseau.
Si on a trois fonctions f(1), f(2) et f(3), elles peuvent être connectées en chaîne pour former f(x) = f⁽³⁾(f⁽²⁾(f⁽¹⁾(x))), donc un réseau de 3 couches.
Pourquoi les réseaux neuronaux à propagation avant sont-ils appelés réseaux?
Il s’agit d’un réseau puisqu’ils sont généralement représentés en composant ensemble de nombreuses fonctions différentes.
Ces fonctions forment un graphe acyclique (qui ne comporte pas de cycles ni de boucles) qui décrit comment les fonctions sont composées ensembles.