Generation/ Selection Flashcards
Feature selection definition
Quoi écrire
Certaines fonctionnalités peuvent manquer de puissance prédictive et rendre le modèle trop complexe, ce qui entraîne de l’overfitting. Une bonne façon d’améliorer la puissance prédictive est de laisser tomber des caractéristiques statistiquement insignifiantes et de conserver les caractéristiques véritablement prédictives.
Best Subset Selection
Création de GLMs séparés pour chaque combinaison possible de fonctionnalités, puis sélection des meilleures combinaisons. Plus de prédicteurs → plus de combinaisons → inefficaces sur le plan informatique
Stepwise selection
Lors de l’ajustement des modèles par maximum likelihood, les variables supplémentaires ne diminuent jamais la valeur loglikelihood. Un critère d’information (AIC ou BIC) exige qu’une variable supplémentaire soit incluse, il ne doit pas seulement augmenter la loglikelihood, il doit le faire d’au moins un certain amount.
Backward selection
commence par le modèle Modèle complet et à chaque étape, laisse tomber le feature qui génère la plus grande amélioration du modèle selon les critères d’information (par exemple AIC ou BIC) jusqu’à ce qu’il n’y ait plus d’amélioration.
Forward selection
commence par le modèle primitif(avec juste l’intercept) et à chaque étape, le feature qui génère la plus grande amélioration du modèle selon les critères d’information (AIC, BIC) est ajouté au modèle jusqu’à ce qu’aucune amélioration ne soit apportée.
- Modèle plus simple avec forward
AIC
AIC exige l’augmentation loglikelihood de 2 pour chaque paramètre supplémentaire
BIC
BIC exige l’augmentation loglikelihood par le log du nombre d’observations
-BIC représente une approche plus conservatrice car il y a une pénalité plus importante pour chaque paramètre
1 avantage Stepwise selection et 2 désavantages
[Avantages]
1. Plus rapide que la meilleure sélection de sous-ensembles
[Inconvénients]
- Peut ne pas trouver la combinaison optimale de fonctionnalités(features)
- La binarisation des variables catégoriques se traduira par plus d’étapes dans la procédure stepAIC()
Regularization
régularisation impose une pénalité au loglikelihood qui réduit la taille des coefficients avec une puissance prédictive limitée vers zéro.
Ridge Regression
α = 0
La pénalité du loglikelihood est proportionnelle à la somme des carrés des coefficients estimés.
- Il réduit les coefficients de toutes les variables, mais aucun n’est fixé à zéro.
- accuracy increase
- ** Non recommandé. Toutes les variables sont conservées > complexe. **Essayer de ne garder que les meilleures variables.
2) Lasso ( α = 1)
La pénalité à loglikelihood est proportionnelle à la somme des valeurs absolues des coefficients estimés.
Pénaliser les modèles qui ont un coefficient important dans la mesure où il peut réduire les coefficients des prédicteurs inutiles à zéro
- Simpler model + more interpretable
Elastic Net
Ajouter à la loglikelihood une pénalité basée sur la taille du coefficient estimé lors du training du modèle (Définition de mention de LASSO et Ridge)
Regularization
2 avantage et 2 désavantages
1) La régularisation est plus efficace que la sélection stepwise (meilleure puissance prédictive)
- > Utilise la validation croisée pour sélectionner le meilleur hyperparamètre (lambda) en utilisant le même critère (RMSE), qui sera finalement utilisé pour sélectionner le meilleur modèle.
2. Traite automatiquement tous les niveaux de facteur individuellement, ce qui est préférable. StepAIC traite tous les niveaux d’une variable comme un seul objet (sauf binarized).
[Désavantages]
1) Un inconvénient de la fonction glmnet() est qu’il peut accueillir certaines, mais pas toutes les distributions comme Gamma et Log
2) Étant donné que les variables sont scaled (normalisées), l’interprétation des estimations du coefficient est moins intuitive que
linéaires (OLS).