Module 1 : Introduction, réseau linéaire, fonctions d'activation Flashcards
Nommer une fonction d’activation qui a participé à la renaissance des réseaux profonds.
ReLu
C’est quoi le problème du vanishing gradient?
Un problème qui arrive lors de la descente du gradient. Les dérivées partielles utilisées pour calculer le gradient à mesure qu’on entre dans le réseau. Puisque les gradients contrôlent à quel point le réseau apprend pendant le training, si les gradients sont très petits ou nuls, alors il y a peu ou pas d’apprentissage qui se passe, ce qui mène à de mauvaises performances prédictives.
Nommer les 3 causes de la renaissance des réseaux profonds.
- Nouvelles fonctions d’activations
- Grands jeux de données
- Puissance de calcul via GPU
C’est quoi un tenseur?
C’est la structure de données utilisée par les systèmes d’apprentissage automatique. C’est un conteneur de données numériques, plus précisément une matrice à plus de deux dimensions.
Vrai ou faux? Plus un réseau est profond, plus il est efficace.
Vrai. Deeper is better.
A-t-on toujours besoin de beaucoup de données?
Non, il est possible de passer par des réseaux pré-entraînés.
Nommer certaines des lacunes théoriques en DL.
- Vide théorique autour des performances des réseaux profonds
- Difficile de les certifier
En gros: on comprends pas trop comment ça marche, mais ça marche. On peur obtenir des performances incontournables en vision numérique, langage naturel, etc.
Nommer certains exemples d’applications du DL.
- Reconnaissance de caractères
- Reconnaissance d’images
- Détection d’objets
- Description d’images
- Génération d’images
- Reconnaissance et génération de voix
- Traduction automatique
- Transfert de style
- Apprentissage visuomoteur
- Générations d’images à partir de texte
- Génération de vues
pis 45 milliards d’autres affaires mais un moment donné ça va faire les exemples
C’est quoi qu’il y a dans le jeu de données MNIST?
Plein d’images de chiffres écrits à la main
C’est quoi un classifieur linéaire?
Un classifieur linéaire prend des décisions de classification basées sur la valeur de la combinaison linéaire des caractéristiques des objets (feature values)
J’explique ça pas mal merdiquement donc si vous avez une meilleure explication changez-la pls
C’est quoi une fonction d’activation?
Une fonction d’activation est une fonction mathématique utilisé sur un signal. Elle va permettre (ou non!) le passage d’information si le seuil de stimulation est atteint. Concrètement, elle décide si on active ou non une réponse du neurone.
Nommer les rôles d’une fonction d’activation
- Apporte une non-linéarité dans le réseau
- Située à l’interne, ou en sortie
On utilise la fonction d’activation sigmoïde si on désire une sortie entre quoi et quoi?
Si on désire une sortie entre 0 et 1 (prédiction binaire)
Décrire la fonction d’activation tanh.
Elle sert à obtenir une sortie entre -1 et 1.
Elle donne une sortie centrée à 0 (préférable au 0.5 de la sigmoïde)
Pourquoi le ReLU permet de réduire le vanishing gradient?
Réduit le vanishing gradient, car pente = 1 dans la partie active
Expliquer c’est quoi Leaky ReLU.
- Gradient = 0 signifie impossibilité d’entraîner
- Pente très légère dans la partie négative : leaky ReLU
- Si un paramètre a (entraînable) par neurone/couche, on obtient la PReLU
- Donne des distributions de sorties plus centrées à 0 que ReLU
jkonpran po. c koi une distribution de sortie et pk on veut que ça soit centré sur 0?
Expliquer c’est quoi softmax
- Fonction d’activation utilisée en sortie, prédiction multiclasse
- Manière d’indiquer au réseau de chercher l’appartenance EXCLUSIVE à une seule classe i
- Version continue, douce de max([…])
Pour quoi on utilise softmax?
- Sortie du réseau pour prédiction multiclasse
- M.canisme d’Attention douce (images, transformers)
Est-ce qu’on peut avoir plus qu’un softmax en sortie?
Oui.
c’est quoi le but d’un réseau feedforward (MLP)?
D’approximer une fonction f*.