Q&A Data/ML Flashcards
Comment entraîner et optimiser un modèle de machine learning ?
- Collecte: Nettoyage, normalisation, augmentation
- Modèle : Algo adapté.
- Entraînement : train/test + hyperparam
- Optimisation : Ajustement Grid Search, Random Search
- Validation : Évaluation
- Déploiement: Mise en production
- Monitoring : Suivi des perf
- Comment évaluer la performance d’un modèle ?
- Classification : Accuracy, Precision, Recall
- Régression : MSE, MAE
- Clustering : Score de silhouette
- Cross-validation =>robustesse.
- Comparaison avec un baseline model.
- Comment gères-tu un problème de sur-apprentissage (overfitting) ?
- Régularisation : L1/L2 (Ridge, Lasso), Dropout pour les réseaux de neurones.
- Augmentation
- Réduction de la complexité: Moins de couches/features.
- Early stopping : Arrêter l’entraînement avant d’overfitter.
- Cross-validation : Vérification de la stabilité du modèle
- Peux-tu expliquer le concept de biais et variance ?
Biais élevé : Modèle trop simple (sous-apprentissage).
Variance élevée : Modèle trop complexe (sur-apprentissage).
Trade-off Biais/Variance : Trouver un équilibre en ajustant la complexité du modèle.
- Comment choisir entre plusieurs modèles de machine learning ?
- Comparer les métriques de performance
- complexité, temps d’entraînement
3.. Capacité de généralisation via la cross-validation. - Privilégier des modèles interprétables
données déséquilibrées ? Comment les traiter ?
Rééchantillonnage : Oversampling (SMOTE) ou undersampling.
Pondération : Ajout de poids aux classes sous-représentées
- Comment démarres-tu un projet data de zéro ?
- Compréhension du problème et des objectifs business.
- Collecte des données : Sources, formats, disponibilité.
- Exploration des données (EDA) : Exploratory Data Analysis.
- Pré-traitement : Nettoyage, encodage, valeurs manquantes
- Choix du modèle et entraînement.
- Évaluation et itération jusqu’à obtenir de bons résultats.
- Peux-tu expliquer ton processus de prétraitement des données ?
- Nettoyage : Suppression des doublons, gestion des valeurs manquantes.
- Encodage : Label encoding, One-hot encoding pour les variables catégorielles.
- Feature scaling : Normalisation (MinMaxScaler) ou standardisation (StandardScaler).
- Réduction de dimension : PCA, t-SNE si nécessaire.
- Comment gères-tu des données manquantes ?
- Suppression : Si faible proportion et non critique.
- Imputation : Moyenne, médiane, mode, ou modèles de prédiction.
- Catégorie “Manquant” : Pour variables catégorielles.
- Que fais-tu si ton modèle ne donne pas de bons résultats ?
- Vérification des données : Nettoyage et prétraitement.
- Changement de modèle : Essai avec d’autres algorithmes.
- Ajustement des hyperparamètres : Grid Search, Random Search.
- Ajout de features : Feature engineering.
- Équilibrage des classes si déséquilibre présent.
- As-tu déjà travaillé avec de gros volumes de données ? Comment les traiter efficacement ?
- Échantillonnage intelligent pour tester plus rapidement.
- Utilisation d’outils adaptés : Pandas avec dask
- Optimisation du stockage : Parquet au lieu de CSV.
- Traitement par batch : Mini-batch training pour deep learning.
- Différence entre apprentissage supervisé, non supervisé et par renforcement
- Apprentissage supervisé : données étiquetées (ex : classification d’images de chats et de chiens avec leurs labels).
- Apprentissage non supervisé : Pas de labels, le modèle cherche des structures cachées dans les données (ex : clustering avec k-means).
- Apprentissage par renforcement : Un agent apprend par essais et erreurs en recevant des récompenses (ex : AlphaGo qui joue au jeu de Go).
- Comment choisir une fonction d’activation ?
- ReLU (Rectified Linear Unit) : Standard en deep learning, rapide et efficace, mais peut souffrir du “dying ReLU”.
- Sigmoïde : Utile pour des probabilités (sortie entre 0 et 1), mais problème de gradient vanishing.
- Tanh : Centrée autour de 0, meilleure que la sigmoïde mais peut aussi avoir du gradient vanishing.
- Leaky ReLU : Variante de ReLU qui évite le “dying ReLU”.
- Softmax : Utilisée en sortie pour la classification multi-classes.
➡ Le choix dépend du type de problème et des performances souhaitées.
Définition de la régression logistique
Résultat : proba [0,1] (sigmoid)
Utilisé dans classification binaire (spam/no spam)
Définition de la régression linéaire
Etablit relation linéaire entre plusieurs variables
Prédiction de valeurs continues (prix d’une maison)
Comment te tiens-tu informé des évolutions en IA
Towards Data Science
Cours en ligne : FastAI, Coursera, Kaggle
Quel est ton avis sur l’éthique en IA ?
- Biais des modèles : L’IA peut amplifier des biais présents dans les données.
- Transparence et explicabilité : Importance de comprendre comment un modèle prend ses décisions.
- Impact sur l’emploi : L’automatisation peut remplacer certains métiers mais en créer d’autres.
- Vie privée et sécurité : Protection des données personnelles avec le RGPD.
- Utilisation responsable : L’IA ne doit pas être utilisée à des fins malveillantes (deepfakes, surveillance intrusive).
Modèle simple et rapide
ou modèle complexe mais plus précis ?
- Si perf ok, modèle simple (plus facile à interpréter et à déployer).
- Si haute précision critique, modèle complexe justifié, Mais gérer le surapprentissage et la scalabilité.
- Cas réel : simple peut suffire pour prototype rapide. En prod, trouver équilibre entre précision, vitesse et coût de calcul.