Decision tree Flashcards

1
Q

Pruning (cost complexity pruning)

A

réduit la taille de l’arbre décisionnel en enlevant les sections d’arbres qui fournissent peu de puissance prédictive. Ce processus réduit le overfitting, ce qui peut conduire à de meilleures prédictions et se traduit par un arbre plus simple et plus interprétable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Complexity parameter (CP)

A

Représente le minimum d’amélioration requis (ou minimum d’impurité) pour effectuer un split. Il permet de trouver l’arbre optimal et réduit overfitting.

  • Le CP optimal est celui qui minimise l’erreur de validation croisée (colonne xerror) pour claissification
  • miminise le Squared error pour Regression
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

maxdepth

A

paramètre qui set le nombre minimum de levels pour le split.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

minbucket

A

paramètre qui set le nombre minimal d’observations dans chaque feuille dans l’arbre.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

mtry

A
Random forest 
# des variables que l’algorithme sélectionne parmi les variables prédictrices disponibles lors de la formation de chaque fractionnement dans un arbre. Un ensemble aléatoire différent de variables est sélectionné à chaque fractionnement
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

minsplit

A

minimum # d’observations qui doivent exister dans un nœud afin de diviser
- Tout le reste égal, plus le minsplit est bas, plus l’arbre résultant est grand et complexe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Decision tree

A

structure basée sur un ensemble d’instructions if/then qui divisent les données et identifient les facteurs clés et les interactions. ( ils prédisent la variable cible en divisant l’ensemble de données en sous-ensembles basés sur les différenciateurs les plus significatifs dans les variables prédictrices)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

6 avantages Decision Tree

A
    • Interprétable et intuitif. Plus facile à interpréter et à expliquer à un public non technique qu’un GLM (selon la fonction de lien utilisée).
    • Les interactions sont automatiquement reconnues.
    • Il n’est pas nécessaire de binarize données. Les variables catégoriques sont traitées automatiquement.
  1. S’adapte aux discontinuités
    • Bon à gérer les relations non linéaires (corrélées aussi) et ne nécessitent pas de transformation variable
  2. Les variables sont automatiquement sélectionnées - les variables les plus importantes sont au sommet de l’arbre et d’autres
    variables qui n’apparaissent pas sont filtrées
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q
  1. Disadvantages of decision trees
A
  1. Les nœuds terminaux contiennent souvent un petit nombre d’observations, qui sont vulnérables au bruit
    • Lorsque les données sous-jacentes changent, peuvent être instables et changer considérablement, la location à faible confiance.
  2. *variance élevée (peut être fortement dépendre de training set) -> sujettes à la overfitting (peut être réduit en utilisant pruning) et ont tendance à produire des prédictions instables avec une variance élevée
    • Lors du fitting d’un seul arbre, l’algorithme localement gourmand est peu susceptible de trouver un arbre optimal à l’échelle globale - > utiliser des forêts aléatoires
  3. Il y a un manque d’outils de diagnostic modèles pour les arbres de décision
  4. S’ils ne sont pas binariés, les arbres de décision ont tendance à favoriser les caractéristiques catégoriques avec de nombreux niveaux de facteur.
  5. S’il est binariized, il y a une augmentation de la charge de calcul, surtout lorsqu’il y a un grand nombre de Facteurs
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Random forest Definition

A

Chaque arbre est généré à partir d’un échantillon bootstrap à partir des données, où les splits sont considérés comme
sous-ensemble sélectionné aléatoirement de variables.
* Les prédictions de chaque arbre ne sont pas corrélées parce qu’elles utilisent différents sous-ensembles des variables prédictives (contrôlées par mtry)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Partial dependence plots

A

Méthode de visualisation de la structure de dépendances dans le modèle entre une feature ou une paire de features. Démontre quel feature contribue le plus. Permet de comprendre les relations entre les features et la target. Calcule la prédiction moyenne de la Target variable en changeant la valeur d’un ou plusieurs inputs features.

?pdp
Partial dependence plots (PDPs) help visualize the relationship between a subset of the features (typically 1-3) and the response while accounting for the average effect of the other predictors in the model. They are particularly effective with black box models like random forests and support vector machines.
Note: for classification problems, predictions are on a logit scale (log(p/(1-p))) so 0 implies 50% yes/50% no

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

6 Advantages of Random Forests

A
  1. Réduction du overfitting et de la variance (en faisant la moyenne des arbres)
  2. Mesure l’importance des variables
  3. Puissance prédictive et robustesse supplémentaires
  4. Utilise la validation croisée pour définir le paramètre de réglage plutôt que proxy tel que AIC ou test hypo
  5. Puissant pour détecter les interactions non linéaires (corrélation)
  6. Gère les valeurs manquantes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

6 Disadvantages of Random Forests

A
  1. Difficile à interpréter car le résultat dépend de nombreux arbres différents
  2. Nécessite souvent un oversampling ou un undersampling lorsque la cible est une classe déséquilibrée
  3. Plus long à exécuter et à analyser
  4. Difficile à mettre en œuvre
  5. Ont tendance à avoir une puissance prédictive inférieure à celle des arbres stimulés (Boosted)
  6. Impossible de prévoir au-delà des données de formation pour la régression
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment utiliser over et under sampling dans R ?

A

trainControl( sampling = “Down” ou “Up”)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Boosted Trees (Gradient Boosted trees GBM) -Sequence method

A

Chaque arbre est construit séquentiellement à l’aide des résidus d’arbres cultivés précédemment et en utilisant la version modifiée de l’ensemble de données d’origine (au lieu d’échantillons). Modèle additif
● Boosting permet aux variables qui seraient normalement éclipsées par d’autres variables d’être adaptées aux erreurs
fait en utilisant les autres variables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

5 Advantage of GBM

A
  1. Outil puissant pour détecter les interactions non linéaires
  2. Corrige les valeurs manquantes
    4 . Par rapport aux forêts aléatoires et aux arbres de base, les arbres stimulés obtiennent de meilleurs résultats en termes de précision des prédictions
  3. Réduit Variance et Biais
17
Q

4 Disadvantages of GBM

A
  1. Plus sujet au overfitting que les forêts aléatoires
  2. Plus sensible aux input d’hyperparamètres
  3. Les arbres les mieux stimulés apprennent lentement (utilisent beaucoup d’arbres) et peuvent donc prendre plus de temps qu’une forêt aléatoire pour Train.
  4. Plus long à exécuter
  5. Nécessite une plus grande taille d’échantillon que GLM
18
Q

Bagging vs boosting both used to reduce variance

A
  • ** Bagging : Formation de plusieurs modèles (M) indépendamment en parallèle sur des sous-ensembles aléatoires (échantillons de l’ensemble de données de training unique) et ensuite en prenant le résultat final en moyenne des output . Aide à éviter de trop overfit.
  • ** Boosting: Utilisation d’informations provenant de modèles précédemment adaptés. Utilisation de la version modifiée de l’ensemble de données d’origine (au lieu d’échantillons). Adapte l’arbre de décision aux résidus du modèle, puis met à jour les résidus. Réduit les biais, mais le risque d’overfitting.
19
Q

Mesure d’impureté : Entropy

A
  1. Mesure l’impureté dans chaque noeud

2. Mesure l’amélioration dans le gain d’information pour des splits possibles

20
Q

Mesure d’impureté : Gini

A

Mesure de la fréquence à laquelle l’élément aléatoire serait incorrectement classifié
Gini = 0 : Meilleur split -> plus grande pureté ->Tous les éléments sont correctement classés
Gini = 1 : Pire fractionnement -> pureté la plus basse -> éléments sont répartis au hasard entre les classes

21
Q

Classification Error via (Complexity parameter CP)

A

Proportion d’observations dans l’ensemble des tests qui sont incorrectement classifiées
- (FP + FN)/ Toutes les données

22
Q

ntree

A

Hyperparamètre de Random Forest qui set le nombre d’arbre à faire grandir. + d’arbre = + de réduction de variance

23
Q

Eta

A

Boosted tree : Taux d’apprentissage entre 0 et 1. (Recommandé de choisir une petite valeur)

24
Q

Nrounds

A
Nombre maximum d'itérations de boosting. 
# large = Bon, mais attention car + c'est large plus il y'a overfitting. Lower eta = larger nrounds
25
Q

Cutoff

A

Probabilité minimale pour être classé 1. Plus le coutoff est bas =, plus il y’,a de chances d’être classé 1

26
Q

Oversampling

A

Take duplicata des observations positives

: oversampling(dupliquer) la classe positive.
Important : doit être effectué sur les données de formation. Cela empêche de réduire aritifically erreur de prédiction.

27
Q

Undersampling

A
au lieu d’utiliser l’ensemble de données complet, undersampling la classe négative pour avoir plus positif.
# Prenez un échantillon des observations négatives qui ont la même taille que le nombre d’observations positives
28
Q

One standard error rule

A

Plus petit arbre avec un cross validation error de + ou - un écart type du plus petit cross validation error