Q&A Data/ML Flashcards

1
Q

Comment entraîner et optimiser un modèle de machine learning ?

A
  1. Collecte: Nettoyage, normalisation, augmentation
  2. Modèle : Algo adapté.
  3. Entraînement : train/test + hyperparam
  4. Optimisation : Ajustement Grid Search, Random Search
  5. Validation : Évaluation
  6. Déploiement: Mise en production
  7. Monitoring : Suivi des perf
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q
  1. Comment évaluer la performance d’un modèle ?
A
  1. Classification : Accuracy, Precision, Recall
  2. Régression : MSE, MAE
  3. Clustering : Score de silhouette
  4. Cross-validation =>robustesse.
  5. Comparaison avec un baseline model.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. Comment gères-tu un problème de sur-apprentissage (overfitting) ?
A
  1. Régularisation : L1/L2 (Ridge, Lasso), Dropout pour les réseaux de neurones.
  2. Augmentation
  3. Réduction de la complexité: Moins de couches/features.
  4. Early stopping : Arrêter l’entraînement avant d’overfitter.
  5. Cross-validation : Vérification de la stabilité du modèle
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. Peux-tu expliquer le concept de biais et variance ?
A

Biais élevé : Modèle trop simple (sous-apprentissage).
Variance élevée : Modèle trop complexe (sur-apprentissage).
Trade-off Biais/Variance : Trouver un équilibre en ajustant la complexité du modèle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. Comment choisir entre plusieurs modèles de machine learning ?
A
  1. Comparer les métriques de performance
  2. complexité, temps d’entraînement
    3.. Capacité de généralisation via la cross-validation.
  3. Privilégier des modèles interprétables
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

données déséquilibrées ? Comment les traiter ?

A

Rééchantillonnage : Oversampling (SMOTE) ou undersampling.
Pondération : Ajout de poids aux classes sous-représentées

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
  1. Comment démarres-tu un projet data de zéro ?
A
  1. Compréhension du problème et des objectifs business.
  2. Collecte des données : Sources, formats, disponibilité.
  3. Exploration des données (EDA) : Exploratory Data Analysis.
  4. Pré-traitement : Nettoyage, encodage, valeurs manquantes
  5. Choix du modèle et entraînement.
  6. Évaluation et itération jusqu’à obtenir de bons résultats.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q
  1. Peux-tu expliquer ton processus de prétraitement des données ?
A
  1. Nettoyage : Suppression des doublons, gestion des valeurs manquantes.
  2. Encodage : Label encoding, One-hot encoding pour les variables catégorielles.
  3. Feature scaling : Normalisation (MinMaxScaler) ou standardisation (StandardScaler).
  4. Réduction de dimension : PCA, t-SNE si nécessaire.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q
  1. Comment gères-tu des données manquantes ?
A
  1. Suppression : Si faible proportion et non critique.
  2. Imputation : Moyenne, médiane, mode, ou modèles de prédiction.
  3. Catégorie “Manquant” : Pour variables catégorielles.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
  1. Que fais-tu si ton modèle ne donne pas de bons résultats ?
A
  1. Vérification des données : Nettoyage et prétraitement.
  2. Changement de modèle : Essai avec d’autres algorithmes.
  3. Ajustement des hyperparamètres : Grid Search, Random Search.
  4. Ajout de features : Feature engineering.
  5. Équilibrage des classes si déséquilibre présent.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q
  1. As-tu déjà travaillé avec de gros volumes de données ? Comment les traiter efficacement ?
A
  1. Échantillonnage intelligent pour tester plus rapidement.
  2. Utilisation d’outils adaptés : Pandas avec dask
  3. Optimisation du stockage : Parquet au lieu de CSV.
  4. Traitement par batch : Mini-batch training pour deep learning.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q
  1. Différence entre apprentissage supervisé, non supervisé et par renforcement
A
  1. Apprentissage supervisé : données étiquetées (ex : classification d’images de chats et de chiens avec leurs labels).
  2. Apprentissage non supervisé : Pas de labels, le modèle cherche des structures cachées dans les données (ex : clustering avec k-means).
  3. Apprentissage par renforcement : Un agent apprend par essais et erreurs en recevant des récompenses (ex : AlphaGo qui joue au jeu de Go).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q
  1. Comment choisir une fonction d’activation ?
A
  1. ReLU (Rectified Linear Unit) : Standard en deep learning, rapide et efficace, mais peut souffrir du “dying ReLU”.
  2. Sigmoïde : Utile pour des probabilités (sortie entre 0 et 1), mais problème de gradient vanishing.
  3. Tanh : Centrée autour de 0, meilleure que la sigmoïde mais peut aussi avoir du gradient vanishing.
  4. Leaky ReLU : Variante de ReLU qui évite le “dying ReLU”.
  5. Softmax : Utilisée en sortie pour la classification multi-classes.
    ➡ Le choix dépend du type de problème et des performances souhaitées.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Définition de la régression logistique

A

Résultat : proba [0,1] (sigmoid)
Utilisé dans classification binaire (spam/no spam)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Définition de la régression linéaire

A

Etablit relation linéaire entre plusieurs variables
Prédiction de valeurs continues (prix d’une maison)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Comment te tiens-tu informé des évolutions en IA

A

Towards Data Science
Cours en ligne : FastAI, Coursera, Kaggle

17
Q

Quel est ton avis sur l’éthique en IA ?

A
  1. Biais des modèles : L’IA peut amplifier des biais présents dans les données.
  2. Transparence et explicabilité : Importance de comprendre comment un modèle prend ses décisions.
  3. Impact sur l’emploi : L’automatisation peut remplacer certains métiers mais en créer d’autres.
  4. Vie privée et sécurité : Protection des données personnelles avec le RGPD.
  5. Utilisation responsable : L’IA ne doit pas être utilisée à des fins malveillantes (deepfakes, surveillance intrusive).
18
Q

Modèle simple et rapide
ou modèle complexe mais plus précis ?

A
  1. Si perf ok, modèle simple (plus facile à interpréter et à déployer).
  2. Si haute précision critique, modèle complexe justifié, Mais gérer le surapprentissage et la scalabilité.
  3. Cas réel : simple peut suffire pour prototype rapide. En prod, trouver équilibre entre précision, vitesse et coût de calcul.