Machine Learning Flashcards
Qu’est ce que la distribution uniforme ?
C’est un champ qui suit une loi uniforme, donc qui à une plage de valeur avec une probabilité équivalente. Par exemple, le dé suit une loi uniforme (1/6 à chaque fois)
Qu’est ce qu’une distribution normale ?
C’est un champ qui suit une loi normale, qui, tracée, forme une cloche symétrique, c’est à dire que la plupart des valeurs s’approchent de la moyenne , tandis que les valeurs diminue progressivement à mesure que l’on s’éloigne de la moyenne. > 30 enregistrement, on considère que ça suit une loi normale (sauf si on est sûr que non)
Qu’est ce que la MSE ?
Mean Squared Error, la moyenne des carrés des différences des valeurs prédites et des valeurs réelles. On va pouvoir comparer la performance d’une régression linéaire avec ça. Plus c’est bas, meilleure est la prédiction
Qu’est ce que le coefficient de détermination ?
R2. Plus le coeff est proche de 1, plus la régression linéaire est pertinente. Donc plus les prédicteurs sont liés à la variable à prédire.
Qu’est ce que la phase de prétraitement en machine learning ?
C’est la phase ou on va nettoyer les données, pour les préparer à être utilisée par un modèle.
Quelles sont les 2 grandes étapes du data cleaning ?
Gérer les valeurs nulles, supprimer les doublons.
Comment gérer les valeurs nulles en data science ?
On peut supprimer les lignes contenant des données vides, on peut calculer les valeurs manquantes en faisant la moyenne (ou la médiane), on peut être plus malin (exemple du calcul d’âge en fonction du surnom M, Mme, Mll…)
Quels doublons supprimer en data science ?
On supprime les doublons qui sont sensés être uniques. Pour ce faire, on ne va pas bêtement supprimer les lignes en doublon, on va analyser les colonnes sensées être uniques (ex téléphone, email…)
Qu’est ce que la phase de data transform en datas science ?
C’est la phase ou on va normaliser la database, donc mettre à l’échelle les données, encoder les strings et les enums…
Quelles sont les 3 principales transformation pour les nombres en data science ?
min-max, Standardisation, Robust scaling
Quand utiliser le min-max en data science ?
Quand les données suivent une distribution uniforme
Quand utiliser le standardisation en data science ?
Quand les données suivent une distribution normale, que il y a peu de outliers.
Quand utiliser le robust scaling en data science ?
Quand les données suivent une distribution normale, et qu’il y a pas mal d’outliers.
Qu’est ce qu’un outliers ?
Une valeur aberrante (erreur, anomalie…)
Quels sont les 5 principales encodeur pour les strings en datascience ?
LabelEncoder, One-hot-Encoder, BinaryEncoder, OrderEncoder, CountEncoder