intelligence artificielle et neurosciences cognitives (cours 10) Flashcards
Définition de l’apprentissage machine
Il s’agit d’algorithmes informatiques qui analysent un ensemble de données afin de déduire des règles qui constituent de nouvelles connaissances permettant d’analyser de nouvelles situations
Que peut on faire avec l’apprentissage machine?
- Prédire une évolution
- Classifier (catégoriser)
Différences entre Apprentissage supervisé vs non-supervisé?
Apprentissage supervisée: les données sont labélisées (classes prédéterminées)
Apprentissage non-supervisée : les données ne sont pas labélisées (Les classes/categories seront déterminées par l‘algorithme à partir des données)
C’est quoi l’extraction d’attributs?
si on veut aider la machine, on va extraire les propriétés des sons
ex : tempo, …) = extraction d’attributs
Parfois je ne vais pas faire l’extraction des attributs des sons mais je vais prendre les sujets et je vais enregistrer les signaux pendant qu’ils écoutent aux chansons
C’est quoi le problème de classification à 2 classes?
Classification binaire. On a 2 classes/étiquettes (2 labels)
ex : label 1 (attentif) label 2 (distrait)
On mesure l’activité cérébrale et on crée un vecteur d’attributs ==> ensuite il y a classification
Mais comment choisi t-on la fonction de décision?
Le choix de la fonction de décision se limite à une famille de fonctions fixée par le chercheur.
Nommez une fonction de décision possible
Une fonction de décision linéaire
La fonction f correspondra à la séparation de l’espace des attributs par un hyperplan (dans un espace de dimension N). Les observations se trouvant de chaque côté de l’hyperplan sera classifié 1 ou -1.
Comment est formalisé le classifieur binaire?
Peut être formalisée comme une fonction de décision qui associe chaque observation (vecteur de dimension N) à une des deux classes, donc à la valeur 1 ou -1.
ici N = 2 car 2 attributs
Quelle est la fonction f si nous choisissons une fonction de décision linéaire?
Typiquement, si nous choisissons une fonction de décision linéaire, la fonction f correspondra à la séparation de l’espace des attributs par un hyperplan (dans un espace de dimension N). Les observations se trouvant de chaque côté de l’hyperplan sera classifié 1 ou -1.
Que devient le hyperplan dans une fonction de décision si N=2 et si N=3 ?
Cet hyperplan devient une droite si N=2, et un plan si N=3.
N correspond à quoi?
N est le nombre d’attributs
Classification linéaire vs non-linéaire
Classification linéaire = Données linéairement séparables (facilement séparable par une droite)
Classification non-linéaire = Données linéairement non-séparables
Que fait on dans les conditions de classification non-linéaire?
L’astuce du noyau (The Kernel Trick) = Transformer un problème de classification non-linéaire en un problème linéaire.
Apprentissage supervisé: Comment ça marche ?
1- phase of training
2- phase de test
1- données brutes 2- données d'entrainement en donnant les étiquettes 3- classification 4- test les données 5-performance en %
C’est quoi la Validation croisée (Cross-validation) ?
Répéter la procédure en changeant les sets de « training » et « test ».
Apprentissage non-supervisé. Comment ça marche ?
(classification non-supervisée)
je donne tous ces points (données d’entrainement) à mon algorithme mais sans les couleurs (sans étiquettes)
il va chercher et voir qu’il y a 3 groupes (3 nuages de points)
il doit décider le point bleu appartient à quel groupe.
je ne lui ai pas dis qu’il y a 3 groupes. C’est lui qui la déterminé
Comment appelle-t-on les techniques utilisés lors d’un apprentissage non-supervisé?
Clustering techniques
e.g. K-means, Hierarchical clustering
Nommez les algorithmes de classification
K-th nearest neighbours (KNN) Linear Discriminant Analysis (LDA) Support Vector Machine (SVM) Decision trees (Arbres de décision) Random Forests (Forêts aléatoires) Artificial Neural Networks (ANN) \+ many more
Expliquez l’algorithme de classification ‘‘Méthode à base de voisinage (K-th nearest neighbours, KNN) ‘’
L’idée est intuitive: faire voter les voisins du point de test.
1 type d’algorithme
k=5 je regarde les 5 voisins les + proches
k=20 ,, ,, 20 ,, ,,
exemple:
pour savoir dans une ville le niveau économique du point blanc. Il regarde k=9 pour savoir le point blanc, son niveau d’économie. On va pouvoir les comparer avec ses 9 voisins les + proches
Ex. k-NN classification multiclasse: “parmi mes k plus proches voisins, quelle classe est majoritaire?”
Expliquez l’algorithme de classification ‘‘Arbre de decision: Decision trees’’
Plusieurs niveaux de questions dans l’arbre pour arriver à la réponse. Plusieurs décisions successives pour arriver à la réponse
Sous-apprentissage vs. Sur-apprentissage (Underfitting vs Overfitting)
sur-Apprentissage = l’algorithme a trop appris. il est tellement bon sur les données d’entrainement ou données d’Apg mais avec de nouvelles données il n’est pas capable de généraliser (overfitting)
Me donne une courbe en zigzag ou une courbe qui n’est pas capable de différencier des données autre que celles similaires aux données d’apg.
sous-Apg = il a commencé à apprendre mais on a arrêté trop tôt son Apg donc il n’a pas la capacité de bien détecter (underfitting)
Me donne une ligne droite ou une ligne qui n’est pas capable de bien séparer les données car incapable de les différencier comme il faut
Quel est l’intérêt?
L’intérêt qu’on a c’est de généraliser alors on s’entraîne sur les données d’Apg mais on veut appliquer cela sur des nouvelles données.
De quoi à l’air un bon modèle?
une genre de courbe qui sépare les données comme il le faut
Classification vs Regression
Classification = données Discrete (class labels)
Ex:
chat chien
contrôle/patient
malade/sain
Regression = données continues (values)
Ex: Nombre d’années…
Comment faire pour savoir si un algorithme est capable de faire ce qu’il faut faire? Est-il performant ou pas?
il existe des Indicateurs de performance qu’il faut utiliser, il faut quantifier la performance pour la classification.
C’est quoi la ‘‘Matrice de confusion’’?
C’est un indicateur de performance de Classification.
Ca nous donne la proportion des étiquettes prédites par rapport aux étiquettes réelles
Moyenne des valeurs de la diagonale pour me donner le % de classification globale indépendamment de quelle classe
Ex: moi je connais l’étiquette réelle et je vérifier si l’étiquette prédit par mon algorithme est le mm ou proche. Est ce qu’il est bon pour prédire le blues, le classique. Oh! il a de la misère a détecter le Reggae, il les mélange entre classique ou electro.
==> ceci me dit où il se trompe donc cela m’aide à améliorer ma règle ou me permet d’aller chercher une autre etiquette pour l’aider
Quels sont les seuils de chance théorique?
2 classes: 50 %
4 classes: 25 %
8 classes: 12,5 %
On doit toujours appliquer le seuil de chance théorique
Faux
A appliquer si nous avons beaucoup de données. La taille de l’échantillon est importante
Quelles sont les 2 approches utilisées pour évaluer la validité statistique (significativité) de la précision de décodage obtenue (par exemple suite à la validation croisée)?
- loi binomiale
- Test de permutations
Expliquez les 2 tests statistiques
Loi binomiale : Déterminer le seuil de % de prédiction à dépasser en fonction de la valeur p et du nombre d’observation N. (Approche paramétrique) On donne 3 informations -seuil de % -N -p
Test de Permutations :
Générer une distribution nulle à partir des mêmes données en mélangeant aléatoirement les étiquettes. (Approche non-paramétrique)
Apprentissage profond vs Superficiel (Shallow vs Deep Learning)
Apprentissage profond = l’algorithme va lui même essayer de déterminer les attributs alors on lui donne les données brutes au début. Ce type d’Apg est plus long et plus couteux en ressources (Apg d’attributs + Entrainement Model) - Attributs dérivés de la machine
Apprentissage Superficiel = Apg machine traditionnel/conventionnel (Entrainement model) Attributs déjà connu
Qu’est ce que l’apprentissage machine nous permet-il de faire?
décodage cérébrale (brain decoding) qui est un outil important pour la recherche en Neuroscience (permet de faire des prédictions)
Quelques projets de classification qui sont en cours
- stades de sommeil
- Identifcation de personne (empreinte digitale)
Pourquoi se servir de l’apprentissage machine en neurosciences ?
- Données cérébrales: multi-dimensionnelles et complexes
- Identification de « marqueurs » pertinents via leur capacité à discriminer des processus cognitifs ou conditions cliniques (diagnostique/prognostique)
- Fouille des données (data mining) grâce à l’intelligence artificielle
- Modélisation du traitement de l’information (ANN, RL)
Vrai ou faux
L’utilisation des méthodes d’apprentissage machine sur des données cérébrales MEG/EEG (+ données comportementales) nous permet la mise en place de nouvelles approches d’analyses guidées par les données.
Vrai
C’est quoi la MEG
Magnétoencéphalogramme :
Comment formalisé l’apprentissage machine?
C’est le processus de sélection des paramètres de la fonction de décision.
Plus précisément, à partir d’un sous-ensemble de données d’entrainement (training set, labels connus), nous cherchons à déterminer les paramètres de la fonction de décision qui permettront une classification correcte dans le cas d’autres échantillons (données test « test set » – labels inconnus).
«_space;C’est la GÉNÉRALISATION»_space;