Generation/ Selection Flashcards

Question 1

Q

Feature selection definition

Quoi écrire

Answer

A

Certaines fonctionnalités peuvent manquer de puissance prédictive et rendre le modèle trop complexe, ce qui entraîne de l’overfitting. Une bonne façon d’améliorer la puissance prédictive est de laisser tomber des caractéristiques statistiquement insignifiantes et de conserver les caractéristiques véritablement prédictives.

Question 2

Q

Best Subset Selection

Answer

A

Création de GLMs séparés pour chaque combinaison possible de fonctionnalités, puis sélection des meilleures combinaisons. Plus de prédicteurs → plus de combinaisons → inefficaces sur le plan informatique

Question 3

Q

Stepwise selection

Answer

A

Lors de l’ajustement des modèles par maximum likelihood, les variables supplémentaires ne diminuent jamais la valeur loglikelihood. Un critère d’information (AIC ou BIC) exige qu’une variable supplémentaire soit incluse, il ne doit pas seulement augmenter la loglikelihood, il doit le faire d’au moins un certain amount.

Question 4

Q

Backward selection

Answer

A

commence par le modèle Modèle complet et à chaque étape, laisse tomber le feature qui génère la plus grande amélioration du modèle selon les critères d’information (par exemple AIC ou BIC) jusqu’à ce qu’il n’y ait plus d’amélioration.

Question 5

Q

Forward selection

Answer

A

commence par le modèle primitif(avec juste l’intercept) et à chaque étape, le feature qui génère la plus grande amélioration du modèle selon les critères d’information (AIC, BIC) est ajouté au modèle jusqu’à ce qu’aucune amélioration ne soit apportée.
- Modèle plus simple avec forward

Question 6

Q

AIC

Answer

A

AIC exige l’augmentation loglikelihood de 2 pour chaque paramètre supplémentaire

Question 7

Q

BIC

Answer

A

BIC exige l’augmentation loglikelihood par le log du nombre d’observations

-BIC représente une approche plus conservatrice car il y a une pénalité plus importante pour chaque paramètre

Question 8

Q

1 avantage Stepwise selection et 2 désavantages

Answer

A

[Avantages]
1. Plus rapide que la meilleure sélection de sous-ensembles

[Inconvénients]

Peut ne pas trouver la combinaison optimale de fonctionnalités(features)
La binarisation des variables catégoriques se traduira par plus d’étapes dans la procédure stepAIC()

Question 9

Q

Regularization

Answer

A

régularisation impose une pénalité au loglikelihood qui réduit la taille des coefficients avec une puissance prédictive limitée vers zéro.

Question 10

Q

Ridge Regression

α = 0

Answer

A

La pénalité du loglikelihood est proportionnelle à la somme des carrés des coefficients estimés.

Il réduit les coefficients de toutes les variables, mais aucun n’est fixé à zéro.
accuracy increase
** Non recommandé. Toutes les variables sont conservées > complexe. **Essayer de ne garder que les meilleures variables.

Question 11

Q

2) Lasso ( α = 1)

Answer

A

La pénalité à loglikelihood est proportionnelle à la somme des valeurs absolues des coefficients estimés.
Pénaliser les modèles qui ont un coefficient important dans la mesure où il peut réduire les coefficients des prédicteurs inutiles à zéro

Simpler model + more interpretable

Question 12

Q

Elastic Net

Answer

A

Ajouter à la loglikelihood une pénalité basée sur la taille du coefficient estimé lors du training du modèle (Définition de mention de LASSO et Ridge)

Question 13

Q

Regularization

2 avantage et 2 désavantages

Answer

A

1) La régularisation est plus efficace que la sélection stepwise (meilleure puissance prédictive)
- > Utilise la validation croisée pour sélectionner le meilleur hyperparamètre (lambda) en utilisant le même critère (RMSE), qui sera finalement utilisé pour sélectionner le meilleur modèle.
2. Traite automatiquement tous les niveaux de facteur individuellement, ce qui est préférable. StepAIC traite tous les niveaux d’une variable comme un seul objet (sauf binarized).

[Désavantages]
1) Un inconvénient de la fonction glmnet() est qu’il peut accueillir certaines, mais pas toutes les distributions comme Gamma et Log
2) Étant donné que les variables sont scaled (normalisées), l’interprétation des estimations du coefficient est moins intuitive que
linéaires (OLS).

Generation/ Selection Flashcards

(13 cards)