Fonctions Data Flashcards
Pivoter un data frame
Df.pivot()
Pour fusionner un data frame
Df.merge()
Pour lire un Excel depuis pandas
Df.read_excel()
D’après Wikipédia c’est quoi la data science
Extraction de connaissances à partir d’ensemble de données
Lemmatisation et racinisation
- Lemmatisation = réduit les mots à leur forme canonique
- racinisation = réduit le mot à leur racine
Récupérer les infos d’un data frame
Data.infos()
Quelles sont les méthodes du machine Learning
- régression = prédire une valeur continue
- classification = prédire une catégorie ou une classe
- clustering = utilisées en APPRENTISSAGE NON SUPERVISÉ pour regrouper les données similaires
Types de régression + le rôle ?
—> prédire une valeur continue
- régression linéaire : relation linéaire entre les variables explicatives et la variable cible
- régression polynomiale : relation non linéaire en ajoutant des puissances de variable
- régression rigide et lasso : ajout de régularisation et éviter le SURAPPRENTISSAGE
Quels sont les modèles pour la classification + rôle
—> prédiction du groupe ou de la classe
- KNN
- classification bayesienne
- réseaux de neurones
- arbre de décision
Quels sont les modèles pour le clustering + rôle
—> regrouper les données similaires
- K-Means
- DBSCAN
- Hierarchical clustering
Réseaux de neurones rapide ou lent, précis ou imprécis ?
- très précis mais plus de temps de calcul
Selon iels critères ont choisit le modèle de prédiction
- nature de la variable cible
- taille et complexité des données
- interpretabilité (arbre de décision meilleur que le réseau de neurone)
- précision et rapidité
Avantages / défauts de la classification bayesienne
+ rapide, simple à implémenter, fonctionne bien avec des données à haute dimension
- hypothèse d’indépendance irréaliste