Exploration Flashcards

1
Q

Binarization Definition

A

Avant d’effectuer la sélection des variables, il est recommandé de procéder à la binarisation des variables catégoriques afin d’éviter qu’elles soit retirées complètement dans le processus.
Binarisation aide à rendre le processus de sélection plus significatif en créant des dummy variables pour les variables catégoriques.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

2 avatantages et 2 désavantages de binarisation

A

[Avantage]

  1. Le retrait de facteurs individuels en raison de leur insignifiance peut conduire à un modèle plus simple.
  2. Aide à rendre le processus de sélection des features plus significatif.

[Désavantage]

  1. Le retrait d’un trop grand nombre de facteurs insignifiants peut entraîner des résultats absurdes
  2. Étapes supplémentaires de la procédure stepAIC (mentionnée dans la solution du 12 décembre 2019)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Corrélation définition

A
  • Mesure l’association linéaire entre 2 variables
  • La corrélation positive est lorsque l’augmentation de l’un tend à augmenter l’autre et négative corrélation lorsque diminuer l’un tend à augmenter l’autre.
  • N’égale pas la causalité (La noyade augmente lorsque les ventes de crème glacée augmentent parce que le temps chaud amène plus de gens à acheter de la glace ou à aller nager)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quel effet la corrélation a sur les GLM

A

GLM : Performe mal car des coefficients distincts pour chacune des variables corrélées qui ont un impact compensatoire. Il est dangereux d’interpréter le coefficient comme représentant l’impact sur la variable cible avec d’autres variables maintenues constantes, étant donné que la variable corrélée est susceptible de changer également.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quel effet la corrélation a sur les decision tree

A

Arbre de décision : Non affecté, car une seule des variables sera sélectionnée dans chaque split (ok pour en supprimer une, pas beaucoup de gain d’informations)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quels sont les 5 solutions pour la corrélation?

A
  1. Remove one the variables
  2. Stepwise (AIC / BIC) -> Remove a subset automatically because adding the other variable doesn’t improve the model
  3. PCA on numeric variables
  4. K-means on numeric variables
  5. LASSO
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Multicolinearity (NA GLM coefficients)

A

Lorsque la corrélation entre 2 prédicteurs est de 1 ou lorsque tout prédicteur est une combinaison linéaire des autres
Solutions : Supprimez tous les prédicteurs ou données de prétraitement sauf un à l’aide de PCA.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Interaction définition

A

L’effet d’interaction est lorsqu’une variable prédictive a un impact différent sur la target variable en fonction de la valeur d’un autre variable prédictive

How well did you know this?
1
Not at all
2
3
4
5
Perfectly