Cours 9 Flashcards
Qu’est-ce qui compose la renaissance de l’IA?
Big data + Puissance de calcul
Les algorithmes d’avant, pour atteindre une bonne performance il fallait beaucoup de données, ce qui n’était pas disponible avant –> maintenant possible avec la masse de données d’aujourd’hui(Internet)
Ces algorithmes demandent beaucoup de puissance de calcul, qui n’était pas disponible avant non plus
Liens entre IA, apprentissage machine et apprentissage profond
IA –> Machine Learning –> Deep learning
Définition d’apprentissage machine
Il s’agit d’algorithmes informatiques qui analysent un ensemble de données afin de déduire des règles qui constituent de nouvelles connaissances permettant d’analyser de nouvelles situations.
La machine suit les règles que le programmeur à donner (Si ca sa arrive, fait ca)
On dit à la machine d’Apprendre la règle par exemple on dit 400000 exemplaires de chats et chiens et ont demande d’apprendre la règle derrière qu’Est-ce qu’un chat
Quels sont les fonctions de l’Apprentissage machine?
Prédire et classifier
Prédire une évolution
- Une évolution d’une maladie (ex. vers une démence, de MCI vers Alzheimer)
- Ex : Youtube tente de prédire les videos qu’on va aimer selon ce qu’on a déjà aimer ou sinon la météo qui se fit sur la température des 10 dernières années
Classifier (catégoriser)
- Patients vs Patients (ex. Identifier des sous-groupes, ou différencier deux groupes de patients, ex. Schizophrénie vs. bipolarité)
- Présence ou non d’une lésion sur une image IRM selon des images qui sont non pathologiques
Qu’est-ce que l’apprentissage supervisée?
Les données sont labélisées (classes prédeterminées)
On dit la réponse à la machine pour qu’elle se fasse une règle (Supervisée) et ensuite on test avec d’Autres données voir si il a appris
On entraine le classifieur avec des données
Une fois qu’il a appris, on lui donne des données tests et on regarde ses prédictions avec ce qu’il a appris
Quelle est l’autre méthode qu’on peut faire au lieu de donner des données brutes?
Desfois, on peut donner de l’extraction d’attributs = à partir des données au lieu de donner les données brutes, on extrait les paramètres de chacun et on donne les paramètres à la machine
L’activité cérébrale devient les données et on peut demander à la machine de différencier les deux patrons d’Acitivités et de trouver quel cerveau écoute quelle musique
Extraction d’Attributs : Différencier les puissances à travers les différentes structures, les erps
Qu’est-ce que le problème de classification à deux classes (Classification binaire)
Un classifieur binaire (à 2 classes) peut être formalisé comme une fonction de décision
Qui associe chaque observation (vecteur de dimension N) à une des deux classes, donc à la valeur 1 ou -1.
On veut qu’il apprenne une règle de classification qui va différencier si la personne est attentive ou inattentive (Ici la droite est la règle apprise par l’Algorithme) (La droite est la fonction de décision)
Qu’est-ce que la généralisation?
À partir de ce que la machine a appris selon l’information qu’on lui a donnée, elle va extraire une règle et ensuite généraliser les choses qu’elle a apprit pour de nouvelles données
Différence entre données linéairement séparables et linéairement non-séparables
Linéairement séparable : facilement séparable
Non-séparable : Pas possible d’utiliser un modèle linéaire pour séparer les point
On fait un arbre de décision avec de multiples droites (Multiples fonctions de décision) qui fait en sorte qu’il y a 2 classes au finales :
• Ce qui est à droite de cette droite est jaune et à gauche bleue
• Etc.
Que fait l’Astuce du noyau?
Il transforme un problème non-linéaire à linéaire avec des règles mathématiques
Comment se passe le processus de tester des données et les problèmes associés
On coupe les données en deux, tests et entrainement
2 phases
• Phase de d’Entrainement
• Phase de test
Problèmes possibles :
• Qualités des données
• Reproduction sur d’Autres données
• Contexte selon la % obtenu
• Peut – etre le 80% de données d’entrainement qui a été pris a donner 88% de performance, mais qu’un autre 80% va donner 68%
o On fait plusieurs essais avec 80% et ensuite on fait la moyenne de tout les essais Validation croisée
Qu’est-ce que l’apprentissage non-supervisée
Ici on donne pas de feedback, mais on dit il y a deux groupes et l’algorithme se débrouille avec les données globales
Les données ne sont pas labélisées (Les classes/categories seront determinées par l‘algorithme à partir des données)
Qu’est-ce que la méthode à base de voisinage?
On regarde les voisin du points
Parmi les voisins, lequel est majoritaire?
Si plus de rouge, il devrait donc être rouge
9 voisins donc K=9
Qu’est-ce que la méthode de la arbre de décision?
Découpe le problème en multiple décisions à suivre qui vient préciser l’item qu’on cherche
Différence entre sur-apprentissage, sous-apprentissage et le good model
Sur-apprentissage : overfitting
o Règle de décision trop spécifique donc généralise pas bien à de nouvelles données
Sous-apprentissage : underfitting
o Ne capture pas assez la nuance entre deux groupes
Good model :
o Bonne clasification sur les points et la frontière permet d’Avoir de bonne réponses sur de nouvelles données
Différence entre classification et régression?
Classification : Catégorise les données
Regression : Prédiction de valeur qui donne des valeurs
Décrit les matrice de confusion dans la classification?
La matrice montre ou ca marche et ou ca marche pas
Nous informe que les attributs qu’on a extrait font pas assez la différence, donc il faudrait réviser comment on les extrait et peut etre faudrait regarder d’Autres informations trouver d’autres attributs ou d’autre algorithmes
Quels sont les seuils de chances théoriques?
Seuils de chance théoriques
2 classes : 50 %
4 classes : 25%
8 classes : 12.5 %
Ce sont des seuils théoriques seulement
Analyse statistique du decoding accuracy pour évaluer si la performance est réellement satisfaisante et supérieure à ce qu’on pourrait obtenir par chance
Quels sont les deux familles de tests statistiques
Loi binominale
Test de permutations
Décrit la loi binomiale
Déterminer le seuil de % de prédiction à dépasser en fonction de la valeur p et du nombre d’observation N (Approche paramétrique)
Décrit le test de permutations
Générer une distribution nulle à partir des mêmes données en mélangeant aléatoirement les étiquettes. (Approche non-paramétrique)
On donne n’importe quoi à l’algorithme avec des labels mélangées (On dit que les chat sont des chiens ou des chats et même chose avec des chiens – les données sont n’importe quoi)
La valeur serait 50% du au seuil de la chance THÉORIQUEMENT dit quelque chose au hazard
En pratique, on pourrait obtenir 70% ou 45% c’Est le hazard
On le fait 99 fois, si le 81% qu on a obtenu en ne faisant pas le hazard est plus grand que tout les essais qu’on a fait au hazard, on peut dire que le 81% est statistiquement significatif à p=0.01 (On compare la vraie valeur à des valeurs au hazard si le hazard peut l’atteindre, ca nous dit que le 81% vaut pas de la marde)
Décrit la différence entre shallow learning et le deep learning
Les attributs sont offert par le créateur dans la shallow learning
Deep learning
- Les attributs ne sont pas nécessairement calculer par nous, mais dérivé des données par l’algorithme
- Trouve les attributs par lui-même
- Plusieurs couches dans lesquels ont apprend la représentation des données
Qu’est-ce que les living portraits
On peut appliquer des mouvements de visages à partir de différents videos analyser par le deep learning à des images comme la monalisa
Comment peut-on appliquer le ML au neuroscience
À partir des données cérébrales on peut décoder ce que la personne faisait
Identification de « marqueurs » pertinents via leur capacité à discriminer des processus cognitifs ou conditions cliniques (diagnostique/prognostique)
Fouille des données (data mining) grâce à l’intelligence artificielle
Données cérébrales: multi-dimensionnelles & complexes
L’utilisation des méthodes d’apprentissage machine sur des données cérébrales MEG/EEG (+ données comportementales) nous permet la mise en place de nouvelles approches d’analyses guidées par les données. data driven diriger par les données