Decision Trees Flashcards
1
Q
Cos’è un DT?
A
- È un modello strutturato come un albero
- È un modello non parametrico con la struttura determinata dai dati
- È composta da nodi terminali (foglie) e non terminali
- Il primo nodo è chiamato root
- Nodi non terminali implementano una funzione di routing
- Foglie implementano una funzione di predizione
- Ogni nodo non terminale è definito da 3 elementi: routing f, albero di destra e di sinistra
2
Q
Funzioni di impurity nei decision Trees
A
- Classification error
- GINI impurity
- Entropia
3
Q
DT, perchè random forest?
A
- Random sampling del training data sono usati per allenare diversi DT
- Questo permette di avere DT decorrelati
- La predizione finale è data dalla media delle predizioni di ciascun DT
4
Q
DT, come si fa il training ? Come decido se far crescere una foglia?
A
- Dato un training set, trova la funzione di predizione ft ottimale che corrisponde al DT ottimale
- ft è una finzione ricorsiva
- Una foglia cresce se nel training set corrente gli esempi appartengono tutti alla stessa categoria
- In realtà si calcola l’impurity measure rispetto ad una classe, se è minore rispetto al threshold si fa crescere una foglia
- Si fa crescere un nodo quando il valore del impurity associata alla funzione di split è minimo