Cours 9 - intro à l'apprentissage machine Flashcards
Renaissance du AI
big data + puissance de calcul
Data science
tous ce qui nous permet de manipuler des données.
ex: sc method, data engineering, domain expertise, hacker mindset, visualization, advanced computing, stats et maths.
appr machine/automatique/statistique
algorithmes informatiques analysent un ensemble de données -> déduire les règles -> nvlles connaissances -> permet analyse de nvlles situations.
2 choses :
- prédire une évolution (ex : symptomes)
- classifier (patients et pers non malades)
apprentissage supervisée
données labélisées (classes prédeterminer).
donnée d’entrainement -> algo -> prédictions
données test -> algo est tester pour voir si il sait généraliser -> prédictions
pour appr on doit extraire les attribus.
classification linéaire vs non-linéaire
info -> attributs -> classification
Linéaire :
- séparables : fonction de décision = fonctions fixée par chercheur. divise graph comportant données de base en 2. ce qui se trouver à droite fait partie de x et à gauche y.
Non-linéaire :
- non-séparables : passe par un arbre de décision. ex: 4 étapes car on a mis 4 lignes.
astuce du noyau = Transformer un problème de class non linéaire en un linéaire.
apprentissage supervisé bilan
données d’entrainement -> phase de training -> classifieur -> phase de tests avec données de test -> performance en %. x5
validation croisée = on échange les sets de training et test.
apprentissage non-supervisée :
pas labélisées, catégories/classes détérmniner par l’algo.
méthode a base de voisinage (KNN) : on compte le nb de pts proche au point qu’on veut classer si il y a plus de rouges que de bleu et sont plus proche, then c rouge. utilise arbre de désicion.
sous appr vs sur appr
sur appris = problème de généralisation
sous appris = aboutit a probleme, erreur.
classification vs regression
classification accuracy, discrete (class labels) et matrice de confusion : +on a de class + chances de se tromper. 2 classes = 50% ; 4 classes = 25% ; 8 classes = 12,5%
vs
regression = moyenne, moyenne ^2 et R^2.
Decoding accuracy
pour évaluer la validité statistique du DA :
- loi binomiale : détermine % à dépasser en fonction de p et N. approche paramétrique
- test de permutations : générer distribution nulle à partir des mêmes données en mélangeant aléatoirement les étiquettes. approche non paramétrique
shallow vs deep learning
le AI aide la neuroscience
1) reverse engineering the brain
2) data-mining tool
- données cérébrales multi-dimensionnelles et complexe
- fouille des données grâce à AI
- identification de « marqueurs » pertinents via leur capacité à discriminer des processus cognitifs ou conditions cliniques
- modélisation du traitement de l’info