Decision tree Flashcards
Pruning (cost complexity pruning)
réduit la taille de l’arbre décisionnel en enlevant les sections d’arbres qui fournissent peu de puissance prédictive. Ce processus réduit le overfitting, ce qui peut conduire à de meilleures prédictions et se traduit par un arbre plus simple et plus interprétable
Complexity parameter (CP)
Représente le minimum d’amélioration requis (ou minimum d’impurité) pour effectuer un split. Il permet de trouver l’arbre optimal et réduit overfitting.
- Le CP optimal est celui qui minimise l’erreur de validation croisée (colonne xerror) pour claissification
- miminise le Squared error pour Regression
maxdepth
paramètre qui set le nombre minimum de levels pour le split.
minbucket
paramètre qui set le nombre minimal d’observations dans chaque feuille dans l’arbre.
mtry
Random forest # des variables que l’algorithme sélectionne parmi les variables prédictrices disponibles lors de la formation de chaque fractionnement dans un arbre. Un ensemble aléatoire différent de variables est sélectionné à chaque fractionnement
minsplit
minimum # d’observations qui doivent exister dans un nœud afin de diviser
- Tout le reste égal, plus le minsplit est bas, plus l’arbre résultant est grand et complexe
Decision tree
structure basée sur un ensemble d’instructions if/then qui divisent les données et identifient les facteurs clés et les interactions. ( ils prédisent la variable cible en divisant l’ensemble de données en sous-ensembles basés sur les différenciateurs les plus significatifs dans les variables prédictrices)
6 avantages Decision Tree
- Interprétable et intuitif. Plus facile à interpréter et à expliquer à un public non technique qu’un GLM (selon la fonction de lien utilisée).
- Les interactions sont automatiquement reconnues.
- Il n’est pas nécessaire de binarize données. Les variables catégoriques sont traitées automatiquement.
- S’adapte aux discontinuités
- Bon à gérer les relations non linéaires (corrélées aussi) et ne nécessitent pas de transformation variable
- Les variables sont automatiquement sélectionnées - les variables les plus importantes sont au sommet de l’arbre et d’autres
variables qui n’apparaissent pas sont filtrées
- Disadvantages of decision trees
- Les nœuds terminaux contiennent souvent un petit nombre d’observations, qui sont vulnérables au bruit
- Lorsque les données sous-jacentes changent, peuvent être instables et changer considérablement, la location à faible confiance.
- *variance élevée (peut être fortement dépendre de training set) -> sujettes à la overfitting (peut être réduit en utilisant pruning) et ont tendance à produire des prédictions instables avec une variance élevée
- Lors du fitting d’un seul arbre, l’algorithme localement gourmand est peu susceptible de trouver un arbre optimal à l’échelle globale - > utiliser des forêts aléatoires
- Il y a un manque d’outils de diagnostic modèles pour les arbres de décision
- S’ils ne sont pas binariés, les arbres de décision ont tendance à favoriser les caractéristiques catégoriques avec de nombreux niveaux de facteur.
- S’il est binariized, il y a une augmentation de la charge de calcul, surtout lorsqu’il y a un grand nombre de Facteurs
Random forest Definition
Chaque arbre est généré à partir d’un échantillon bootstrap à partir des données, où les splits sont considérés comme
sous-ensemble sélectionné aléatoirement de variables.
* Les prédictions de chaque arbre ne sont pas corrélées parce qu’elles utilisent différents sous-ensembles des variables prédictives (contrôlées par mtry)
Partial dependence plots
Méthode de visualisation de la structure de dépendances dans le modèle entre une feature ou une paire de features. Démontre quel feature contribue le plus. Permet de comprendre les relations entre les features et la target. Calcule la prédiction moyenne de la Target variable en changeant la valeur d’un ou plusieurs inputs features.
?pdp
Partial dependence plots (PDPs) help visualize the relationship between a subset of the features (typically 1-3) and the response while accounting for the average effect of the other predictors in the model. They are particularly effective with black box models like random forests and support vector machines.
Note: for classification problems, predictions are on a logit scale (log(p/(1-p))) so 0 implies 50% yes/50% no
6 Advantages of Random Forests
- Réduction du overfitting et de la variance (en faisant la moyenne des arbres)
- Mesure l’importance des variables
- Puissance prédictive et robustesse supplémentaires
- Utilise la validation croisée pour définir le paramètre de réglage plutôt que proxy tel que AIC ou test hypo
- Puissant pour détecter les interactions non linéaires (corrélation)
- Gère les valeurs manquantes
6 Disadvantages of Random Forests
- Difficile à interpréter car le résultat dépend de nombreux arbres différents
- Nécessite souvent un oversampling ou un undersampling lorsque la cible est une classe déséquilibrée
- Plus long à exécuter et à analyser
- Difficile à mettre en œuvre
- Ont tendance à avoir une puissance prédictive inférieure à celle des arbres stimulés (Boosted)
- Impossible de prévoir au-delà des données de formation pour la régression
Comment utiliser over et under sampling dans R ?
trainControl( sampling = “Down” ou “Up”)
Boosted Trees (Gradient Boosted trees GBM) -Sequence method
Chaque arbre est construit séquentiellement à l’aide des résidus d’arbres cultivés précédemment et en utilisant la version modifiée de l’ensemble de données d’origine (au lieu d’échantillons). Modèle additif
● Boosting permet aux variables qui seraient normalement éclipsées par d’autres variables d’être adaptées aux erreurs
fait en utilisant les autres variables