Cours 9: Intro à l’apprentissage machine et la Neuro-IA Flashcards
comment s’appelle l’IA qui a battu le meilleur joueur au monde au jeu GO? Quel type de IA etait-ce?
AlphaGo est une intelligence artificielle basée sur l’apprentissage profond (Deep Learning) et l’apprentissage par renforcement (Reinforcement Learning).
Elle utilise :
* Réseaux de neurones convolutifs (CNN) pour analyser le plateau de jeu.
* Apprentissage par renforcement pour améliorer ses performances grâce à des millions de parties contre elle-même et d’autres joueurs.
Quels sont les liens temporels et les distinctions entre trois concepts clés : l’intelligence artificielle (IA), l’apprentissage machine (Machine Learning) et l’apprentissage profond (Deep Learning).
1950s : Émergence de l’IA générale.
1980s : Avènement du Machine Learning avec des progrès algorithmiques.
2010s : Révolution du Deep Learning grâce au Big Data et à la puissance de calcul.
l’IA englobe le Machine Learning, qui englobe le Deep Learning.
Nomme des synonymes (3) du mot “apprentissage machine”
apprentissage automatique ou
apprentissage statistique ou
machine learning (en anglais)
Qu’est-ce que l’apprentissage machine?
Algorithmes informatiques qui analysent un ensemble de données afin de déduire des règles qui constituent de nouvelles connaissances permettant d’analyser de nouvelles situations
* prédire
* classifier
Quel est la différence entre l’apprentissage supervisé vs non-supervisé?
Apprentissage supervisée = les données sont labélisées: classes prédeterminées
Apprentissage non-supervisée = les données ne sont pas labélisées: Les classes/catégories seront déterminées par
l‘algorithme à partir des données
Explique le problème de classification à 2 classes
Un classifieur binaire (à 2 classes) peut être
formalisé comme une fonction de décision qui associe chaque observation (vecteur de dimension N) à une des deux classes, donc à la valeur 1 ou -1.
Si la fonction est linéaire, elle crée un hyperplan (une droite en 2D ou un plan en 3D) pour séparer les observations selon leurs caractéristiques.
Le modèle est entraîné sur un ensemble de données d’entraînement étiquetées (training set), où les classes sont déjà connues. L’apprentissage consiste à déterminer les paramètres de la fonction de décision pour classer correctement les données.
Généralisation :
Le modèle est testé sur de nouvelles données (test set) pour évaluer sa capacité à généraliser, c’est-à-dire à classer correctement des échantillons jamais vus auparavant. L’objectif final est de minimiser les erreurs de classification pour que le modèle généralise efficacement à de nouvelles données.
Dans le problème de classification à 2 classes, comment choisit-on la fonction de décision? Quels sont les 2 types de classification possibles?
Le choix de la fonction de décision se limite à une famille de fonctions fixée par le chercheur.
dépend du type de données et nombre d’attributs (N)
- fonction de décision linéaire: la fonction f correspondra à la séparation de l’espace des attributs par un hyperplan (dans un espace de dimension N). Les observations se trouvant de chaque côté de l’hyperplan sera classifié 1 ou -1. Cet hyperplan devient une droite si N=2, et un plan si N=3.
- Si les données ne sont pas linéairement séparables, des fonctions non linéaires sont utilisées, comme dans les SVM avec noyau (Kernel Trick).
Comment l’apprentissage peut être formalisé?
L’apprentissage peut être formalisé comme étant le processus de sélection des paramètres de la fonction de décision.
Plus précisément, à partir d’un sous-ensemble de données d’entrainement (training set, labels connus), nous cherchons à déterminer les paramètres de la fonction de décision qui permettront une classification correcte dans le cas d’autres échantillons (données test « test set » – labels inconnus).
objectif: généraliser
Quelles sont les 2 approches pour traiter des données non-linéairement séparables ?
Utiliser des algorithmes non linéaires
Transformer les données dans un espace de dimension supérieure comme z
z1 = x1 au carré
z2 = racine carré de x1 et x2
z3 = x2 au carré
Transformation de données en 3D: points séparable avec un plan, maintenant linéairement séparable
Comment fonctionne l’apprentissage supervisé en machine learning? décrit les différentes étapes.
Phase de training
a) Entrainer un algorithme avec une partie des données (la majorité, ex: 80%): on test à quel point elle performe bien
b) Mettre de côté le reste des données (environ 20%)
-> Ces informations vont dans un classificateur comme LDA, SVM, KNNm NB, etc.
Phase de test
on va utiliser les données te qu’on avait mis de côté pour tester l’algorythme après et estimer la performance de l’algorythme (performance : à quel point il a des bonnes réponses sur les données test, donc sa capacité à généraliser, c’est ce qui nous interesse = %)
Validation croisée
Pour s’assurer que ce n’est pas de la chance (ou biais d’échantillonnage), prendre un autre % des données, et le faire plein de fois : en variant la partie que j’ai pris sur le training vs ceux que je laisse pour tester
comment fonctionnent les techniques de clustering dans l’apprentissage non-supervisé? Donne 2 exemple de techniques de clustering
L’apprentissage non-supervisé = l’algorithme n’utilise pas d’étiquettes prédéfinies pour les données et cherche à identifier des structures cachées ou des groupements naturels dans les données.
Dans le clustering, l’algorithme regroupe les données en clusters (ou sous-groupes) selon leur similarité. Il vérifie si on voit émerger des nuages de points (pas nécessairement des couleurs différentes) (sur 2 dimensions). Il identifie un point centroide et compare la distance entre celui-ci et les nuages de points.
Quelle est la différence entre les techniques de clustering K-means et Hierarchical Clustering?
K-means :
Divise directement les données en K clusters (nombre fixé à l’avance). Rapide et adapté aux grands ensembles, mais sensible aux valeurs aberrantes.
Hierarchical Clustering : Crée une structure en hiérarchie (dendrogramme) en fusionnant ou divisant les clusters.
Ne nécessite pas de spécifier le nombre de clusters à l’avance, mais plus lent pour de grands ensembles de données.
Explique les deux méthodes à base de voisinage dans les algorithmes de classification
kNN (k-Nearest Neighbors): L’idée est de faire voter les voisins du point de test. Pour une observation, on examine leskvoisins les plus proches (kpoints les plus proches dans l’espace). La classe majoritaire parmi ces voisins est ensuite assignée à l’observation.
* ex: Un K = 9, p.ex: j’ai 7points rouge proche du point blanc et 2 bleus, donc je juge que le point blanc appartient à la classe rouge pcq il est majoritaire
k-means: on calcule la distance entre un nouveau point et les centres des différentes classes. Le point est ensuite assigné à la classe dont le centre est le plus proche.
nomme des algorithmes de classification des méthodes d’apprentissage supervisé et leur point en commun.
K-th Nearest Neighbours (KNN) : Classification basée sur la proximité avec les voisins les plus proches.
Linear Discriminant Analysis (LDA) : Séparation des classes par des frontières linéaires.
Support Vector Machine (SVM) : Trouve un hyperplan optimal pour séparer les classes.
Decision Trees (Arbres de décision) : Arbre hiérarchique de décisions basé sur les caractéristiques des données.
Random Forests (Forêts aléatoires) : Ensemble de plusieurs arbres de décision pour améliorer la performance.
Artificial Neural Networks (ANN) : Réseaux inspirés du cerveau humain pour modéliser des relations complexes dans les données.
Ces méthodes nécessitent des données étiquetées pour entraîner un modèle à prédire des classes (classification) ou des valeurs (régression).
Qu’est-ce qu’un arbre de décision et comment fonctionne-t-il? Quel type d’apprentissage utilise-t-il?
Un arbre de décision est un algorithme de classification ou de régression utilisé en apprentissage supervisé.
Il fonctionne par une série de questions successives pour diviser les données jusqu’à une prédiction finale (ce ne sont pas nécessairement les mêmes question à chaque niveau) Il s’adapte aux problèmes de classification (étiquettes discrètes) et de régression (valeurs continues).