Q&A Data/ML Flashcards

Question 1

Q

Comment entraîner et optimiser un modèle de machine learning ?

Answer

A

Collecte: Nettoyage, normalisation, augmentation
Modèle : Algo adapté.
Entraînement : train/test + hyperparam
Optimisation : Ajustement Grid Search, Random Search
Validation : Évaluation
Déploiement: Mise en production
Monitoring : Suivi des perf

Question 2

Q

Comment évaluer la performance d’un modèle ?

Answer

A

Classification : Accuracy, Precision, Recall
Régression : MSE, MAE
Clustering : Score de silhouette
Cross-validation =>robustesse.
Comparaison avec un baseline model.

Question 3

Q

Comment gères-tu un problème de sur-apprentissage (overfitting) ?

Answer

A

Régularisation : L1/L2 (Ridge, Lasso), Dropout pour les réseaux de neurones.
Augmentation
Réduction de la complexité: Moins de couches/features.
Early stopping : Arrêter l’entraînement avant d’overfitter.
Cross-validation : Vérification de la stabilité du modèle

Question 4

Q

Peux-tu expliquer le concept de biais et variance ?

Answer

A

Biais élevé : Modèle trop simple (sous-apprentissage).
Variance élevée : Modèle trop complexe (sur-apprentissage).
Trade-off Biais/Variance : Trouver un équilibre en ajustant la complexité du modèle.

Question 5

Q

Comment choisir entre plusieurs modèles de machine learning ?

Answer

A

Comparer les métriques de performance
complexité, temps d’entraînement
3.. Capacité de généralisation via la cross-validation.
Privilégier des modèles interprétables

Question 6

Q

données déséquilibrées ? Comment les traiter ?

Answer

A

Rééchantillonnage : Oversampling (SMOTE) ou undersampling.
Pondération : Ajout de poids aux classes sous-représentées

Question 7

Q

Comment démarres-tu un projet data de zéro ?

Answer

A

Compréhension du problème et des objectifs business.
Collecte des données : Sources, formats, disponibilité.
Exploration des données (EDA) : Exploratory Data Analysis.
Pré-traitement : Nettoyage, encodage, valeurs manquantes
Choix du modèle et entraînement.
Évaluation et itération jusqu’à obtenir de bons résultats.

Question 8

Q

Peux-tu expliquer ton processus de prétraitement des données ?

Answer

A

Nettoyage : Suppression des doublons, gestion des valeurs manquantes.
Encodage : Label encoding, One-hot encoding pour les variables catégorielles.
Feature scaling : Normalisation (MinMaxScaler) ou standardisation (StandardScaler).
Réduction de dimension : PCA, t-SNE si nécessaire.

Question 9

Q

Comment gères-tu des données manquantes ?

Answer

A

Suppression : Si faible proportion et non critique.
Imputation : Moyenne, médiane, mode, ou modèles de prédiction.
Catégorie “Manquant” : Pour variables catégorielles.

Question 10

Q

Que fais-tu si ton modèle ne donne pas de bons résultats ?

Answer

A

Vérification des données : Nettoyage et prétraitement.
Changement de modèle : Essai avec d’autres algorithmes.
Ajustement des hyperparamètres : Grid Search, Random Search.
Ajout de features : Feature engineering.
Équilibrage des classes si déséquilibre présent.

Question 11

Q

As-tu déjà travaillé avec de gros volumes de données ? Comment les traiter efficacement ?

Answer

A

Échantillonnage intelligent pour tester plus rapidement.
Utilisation d’outils adaptés : Pandas avec dask
Optimisation du stockage : Parquet au lieu de CSV.
Traitement par batch : Mini-batch training pour deep learning.

Question 12

Q

Différence entre apprentissage supervisé, non supervisé et par renforcement

Answer

A

Apprentissage supervisé : données étiquetées (ex : classification d’images de chats et de chiens avec leurs labels).
Apprentissage non supervisé : Pas de labels, le modèle cherche des structures cachées dans les données (ex : clustering avec k-means).
Apprentissage par renforcement : Un agent apprend par essais et erreurs en recevant des récompenses (ex : AlphaGo qui joue au jeu de Go).

Question 13

Q

Comment choisir une fonction d’activation ?

Answer

A

ReLU (Rectified Linear Unit) : Standard en deep learning, rapide et efficace, mais peut souffrir du “dying ReLU”.
Sigmoïde : Utile pour des probabilités (sortie entre 0 et 1), mais problème de gradient vanishing.
Tanh : Centrée autour de 0, meilleure que la sigmoïde mais peut aussi avoir du gradient vanishing.
Leaky ReLU : Variante de ReLU qui évite le “dying ReLU”.
Softmax : Utilisée en sortie pour la classification multi-classes.
➡ Le choix dépend du type de problème et des performances souhaitées.

Question 14

Q

Définition de la régression logistique

Answer

A

Résultat : proba [0,1] (sigmoid)
Utilisé dans classification binaire (spam/no spam)

Question 15

Q

Définition de la régression linéaire

Answer

A

Etablit relation linéaire entre plusieurs variables
Prédiction de valeurs continues (prix d’une maison)

Question 16

Q

Comment te tiens-tu informé des évolutions en IA

Answer

A

Towards Data Science
Cours en ligne : FastAI, Coursera, Kaggle

Question 17

Q

Quel est ton avis sur l’éthique en IA ?

Answer

A

Biais des modèles : L’IA peut amplifier des biais présents dans les données.
Transparence et explicabilité : Importance de comprendre comment un modèle prend ses décisions.
Impact sur l’emploi : L’automatisation peut remplacer certains métiers mais en créer d’autres.
Vie privée et sécurité : Protection des données personnelles avec le RGPD.
Utilisation responsable : L’IA ne doit pas être utilisée à des fins malveillantes (deepfakes, surveillance intrusive).

Question 18

Q

Modèle simple et rapide
ou modèle complexe mais plus précis ?

Answer

A

Si perf ok, modèle simple (plus facile à interpréter et à déployer).
Si haute précision critique, modèle complexe justifié, Mais gérer le surapprentissage et la scalabilité.
Cas réel : simple peut suffire pour prototype rapide. En prod, trouver équilibre entre précision, vitesse et coût de calcul.