Generation/ Selection Flashcards

1
Q

Feature selection definition

Quoi écrire

A

Certaines fonctionnalités peuvent manquer de puissance prédictive et rendre le modèle trop complexe, ce qui entraîne de l’overfitting. Une bonne façon d’améliorer la puissance prédictive est de laisser tomber des caractéristiques statistiquement insignifiantes et de conserver les caractéristiques véritablement prédictives.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Best Subset Selection

A

Création de GLMs séparés pour chaque combinaison possible de fonctionnalités, puis sélection des meilleures combinaisons. Plus de prédicteurs → plus de combinaisons → inefficaces sur le plan informatique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Stepwise selection

A

Lors de l’ajustement des modèles par maximum likelihood, les variables supplémentaires ne diminuent jamais la valeur loglikelihood. Un critère d’information (AIC ou BIC) exige qu’une variable supplémentaire soit incluse, il ne doit pas seulement augmenter la loglikelihood, il doit le faire d’au moins un certain amount.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Backward selection

A

commence par le modèle Modèle complet et à chaque étape, laisse tomber le feature qui génère la plus grande amélioration du modèle selon les critères d’information (par exemple AIC ou BIC) jusqu’à ce qu’il n’y ait plus d’amélioration.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Forward selection

A

commence par le modèle primitif(avec juste l’intercept) et à chaque étape, le feature qui génère la plus grande amélioration du modèle selon les critères d’information (AIC, BIC) est ajouté au modèle jusqu’à ce qu’aucune amélioration ne soit apportée.
- Modèle plus simple avec forward

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

AIC

A

AIC exige l’augmentation loglikelihood de 2 pour chaque paramètre supplémentaire

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

BIC

A

BIC exige l’augmentation loglikelihood par le log du nombre d’observations

-BIC représente une approche plus conservatrice car il y a une pénalité plus importante pour chaque paramètre

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

1 avantage Stepwise selection et 2 désavantages

A

[Avantages]
1. Plus rapide que la meilleure sélection de sous-ensembles

[Inconvénients]

  1. Peut ne pas trouver la combinaison optimale de fonctionnalités(features)
  2. La binarisation des variables catégoriques se traduira par plus d’étapes dans la procédure stepAIC()
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Regularization

A

régularisation impose une pénalité au loglikelihood qui réduit la taille des coefficients avec une puissance prédictive limitée vers zéro.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Ridge Regression

α = 0

A

La pénalité du loglikelihood est proportionnelle à la somme des carrés des coefficients estimés.

  • Il réduit les coefficients de toutes les variables, mais aucun n’est fixé à zéro.
  • accuracy increase
  • ** Non recommandé. Toutes les variables sont conservées > complexe. **Essayer de ne garder que les meilleures variables.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

2) Lasso ( α = 1)

A

La pénalité à loglikelihood est proportionnelle à la somme des valeurs absolues des coefficients estimés.
Pénaliser les modèles qui ont un coefficient important dans la mesure où il peut réduire les coefficients des prédicteurs inutiles à zéro

  • Simpler model + more interpretable
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Elastic Net

A

Ajouter à la loglikelihood une pénalité basée sur la taille du coefficient estimé lors du training du modèle (Définition de mention de LASSO et Ridge)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Regularization

2 avantage et 2 désavantages

A

1) La régularisation est plus efficace que la sélection stepwise (meilleure puissance prédictive)
- > Utilise la validation croisée pour sélectionner le meilleur hyperparamètre (lambda) en utilisant le même critère (RMSE), qui sera finalement utilisé pour sélectionner le meilleur modèle.
2. Traite automatiquement tous les niveaux de facteur individuellement, ce qui est préférable. StepAIC traite tous les niveaux d’une variable comme un seul objet (sauf binarized).

[Désavantages]
1) Un inconvénient de la fonction glmnet() est qu’il peut accueillir certaines, mais pas toutes les distributions comme Gamma et Log
2) Étant donné que les variables sont scaled (normalisées), l’interprétation des estimations du coefficient est moins intuitive que
linéaires (OLS).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly