Machine Learning Flashcards

1
Q

Qu’est ce que la distribution uniforme ?

A

C’est un champ qui suit une loi uniforme, donc qui à une plage de valeur avec une probabilité équivalente. Par exemple, le dé suit une loi uniforme (1/6 à chaque fois)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qu’est ce qu’une distribution normale ?

A

C’est un champ qui suit une loi normale, qui, tracée, forme une cloche symétrique, c’est à dire que la plupart des valeurs s’approchent de la moyenne , tandis que les valeurs diminue progressivement à mesure que l’on s’éloigne de la moyenne. > 30 enregistrement, on considère que ça suit une loi normale (sauf si on est sûr que non)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qu’est ce que la MSE ?

A

Mean Squared Error, la moyenne des carrés des différences des valeurs prédites et des valeurs réelles. On va pouvoir comparer la performance d’une régression linéaire avec ça. Plus c’est bas, meilleure est la prédiction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est ce que le coefficient de détermination ?

A

R2. Plus le coeff est proche de 1, plus la régression linéaire est pertinente. Donc plus les prédicteurs sont liés à la variable à prédire.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qu’est ce que la phase de prétraitement en machine learning ?

A

C’est la phase ou on va nettoyer les données, pour les préparer à être utilisée par un modèle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelles sont les 2 grandes étapes du data cleaning ?

A

Gérer les valeurs nulles, supprimer les doublons.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Comment gérer les valeurs nulles en data science ?

A

On peut supprimer les lignes contenant des données vides, on peut calculer les valeurs manquantes en faisant la moyenne (ou la médiane), on peut être plus malin (exemple du calcul d’âge en fonction du surnom M, Mme, Mll…)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quels doublons supprimer en data science ?

A

On supprime les doublons qui sont sensés être uniques. Pour ce faire, on ne va pas bêtement supprimer les lignes en doublon, on va analyser les colonnes sensées être uniques (ex téléphone, email…)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est ce que la phase de data transform en datas science ?

A

C’est la phase ou on va normaliser la database, donc mettre à l’échelle les données, encoder les strings et les enums…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quelles sont les 3 principales transformation pour les nombres en data science ?

A

min-max, Standardisation, Robust scaling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quand utiliser le min-max en data science ?

A

Quand les données suivent une distribution uniforme

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quand utiliser le standardisation en data science ?

A

Quand les données suivent une distribution normale, que il y a peu de outliers.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quand utiliser le robust scaling en data science ?

A

Quand les données suivent une distribution normale, et qu’il y a pas mal d’outliers.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est ce qu’un outliers ?

A

Une valeur aberrante (erreur, anomalie…)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quels sont les 5 principales encodeur pour les strings en datascience ?

A

LabelEncoder, One-hot-Encoder, BinaryEncoder, OrderEncoder, CountEncoder

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

A quoi sert le LabelEncoder ?

A

Il transforme un enum en une liste de nombre, et on va venir ajouter ces valeurs dans l’ancienne colonne.

17
Q

A quoi sert le OneHotEncoder ?

A

Il transform un enum en une liste de nombre. Il va ensuite créer une colonne par nombre différent. La colonne sera un booléen.

18
Q

Pourquoi est il préférable d’utiliser le OneHotEncoder ?

A

Parce que en faisant un LabelEncoder, on créer un espèce d’ordre dans notre colonne, une hiérarchie dans le nombre. Cela peut tromper notre modèle.

19
Q

Qu’est ce que le BinaryEncoder ?

A

Comme le LabelEncoder, mais avec des nombres binaires

20
Q

Qu’est ce que le OrderEncoder ?

A

Comme le LabelEncoder, mais avec un ordre dans les valeurs. (On peut préciser l’ordre)

21
Q

Qu’est ce que le CountEncoder ?

A

Comme le LabelEncoder mais avec un ordre qui est en fonction du nombre d’occurence de la variable.

22
Q

Qu’est ce que la phase de Data reduce ?

A

On va enlever les lignes inutiles, les colonnes inutiles, fusionner des lignes, fusionner des colonnes…

23
Q

A quoi sert le modèle régression linéaire ?

A

Il sert à prédire des variables numériques (prix d’un immeuble, nombre de chambres…)

24
Q

Quelles sont les 2 métrics de la régression linéaire ?

A

MSE et coefficient de détermination.

25
Q

A quoi sert le modèle de régression logistique ?

A

Prédire une variable binaire (vivant/mort, malade/sain…)

26
Q

Quelles sont les 5 métrics de la régression logistique ?

A

Accuracy, precision, recall (rappel), f1-score, matrice de confusion

27
Q

Qu’est ce que l’accuracy dans la régression logistique ?

A

Représente la capacité du model à prédire le résultat. Entre 0 et 1. 1 étant une prédiction parfaite

28
Q
A

M

29
Q

Qu’est ce que le recall dans la régression logistique?

A

Combien de vrais positifs prédits parmi les positifs réels (l’inverse marche aussi)

30
Q

Qu’est ce que le f1-score ?

A

Il combine la prediction et le recall, et fais la moyenne.

31
Q

Qu’est ce que la matrice de confusion ?

A

Compte le nombre de vrais positifs, faux positifs, vrais négatifs, faux négatifs.

32
Q

Qu’est ce que le K-Cross validation ?

A

Lutte contre l’overfitting. On va diviser notre dataset en petits chunks. On va utiliser ces chunks en les alternants entre le training et le test

33
Q

Qu’est ce que l’overfitting ?

A

C’est le suraprentissage, c’est un problème qui arrive quand on entraine notre modèle trop souvent sur les mêmes données, en les variants peu. Il devient baisés.