Masurarea performantei Flashcards
Cum este definita performanta unui model?
Performanta unui model masoara capacitatea acestuia de a clasifica corect PD-ul pentru observatii noi
Pentru ce folosim esantioanele de antrenare si testare?
Esantioanele de antrenare sunt folosite pentru a contrui modelul (pentru a obtine ecuatia de regresie)
Esantionul de test este folosit pentru a calcula performanta modelului
De obei, dimensiunile esantioanelor de antrenament / testare sunt:
Doua treimi din observatii in esantionul de antrenare
O treime din observatii in esantionul de testare
Ce presupune metoda cross validation?
Esantionul este:
* Impartit in K segmente,
* Antrenat pe K-1 segmente
* Testat pe segmentul ramas
Care sunt elementele unui confusion matrix?
- True positive(TP): numarul de clienti buni clasificati corecti
- False positive(FP): numarul de clienti buni clasificati gresiti (sunt de fapt rai)
- True negative(TN): numarul de clienti rai clasificati corecti
- False negative(FN): numarul de clienti rai clasificati gresiti (sunt buni)
In functie de elementele din confusion matrix, care sunt masurile performantei?
Acuratetea clasificatii: (TP+TN) / (TP+TN+FP+FN)
Rata de eroare
Sensitivitatea (masoara cati clienti buni sunt clasificati corecti) TP / (TP+FN)
Specificitatea(masoara cati clienti rai sunt clasificati corect)
Ce reprezinta curba ROC?
Este o reprezentare grafica intre sensitivitate si 1-specificitate
Un model perfect are o sensitivitate de 1 si o specificitate de 1 (adica prezice perfect ambele cazuri)
Cu cat curba ROC este mai apropiata de coltul din stanga-sus, cu atat performanta modelului creste
Cum interpretam AUC?
Area under curve
AUC este interpretata ca probabilitatea ca un client bun ales la alegere sa aibe un scor mai mare decat un client rau ales la alegere
In graficul curbei ROC, diagonala principala reprezinta clienti alesi la alegere
Ce reprezinta curba CAP
Este o reprezentare grafica a proportiei cumulative de clasificari bad
Ne asteptat ca clientii rai sa aibe scoruri mici, deci curba CAP trebuie sa creasca abrupt la inceput, intr-un caz perfect
Ce reprezinta distanta KS
Distanta KS calculeaza distanta dintre distributia cumulativa a scorurilor celor buni fata de cei rai
Poate fi masurata si pe curba ROC, fiind distanta dintre curba ROC si diagonala principala
Ce este distanta mahalanobis?
Reprezinta diferenta dintre scorul mediu al clientilor buni si rai impartit la deviatia standard a populatiei
Un model bun are o distanta mare, adica distributiile scorurilor sunt bine separate
Care sunt intervalele de clasificare pentru IV?
- < 10% (rosu)
- [10% - 30%] (galben)
- > 30% (verde)
Care sunt intervalele de clasificare pentru coeficientul Gini (AR)
La nivel de variabila:
- < 0% (rosu)
- [0% - 10%] (galben)
- > 10% (verde)
La nivel de model:
- < 40% (rosu)
- [40% - 50%] (galben)
- > 50% (verde)
Care sunt intervalele de clasificare pentu corelarile dintre variabile?
- > 70% (rosu)
- [50% - 70%] (galben)
- < 50% (verde)