Measuring Accuracy Using Cross-Validation Flashcards

1
Q

Cos’ ‘e la Cross-Validation?

https://www.lorenzogovoni.com/5-tecniche-di-cross-validation/

A

Metodo statistico utilizzato per stimare l’abilità dei modelli di apprendimento automatico.

non utilizza l’intero set di dati durante il train di un modello: una parte di essi vengono rimossi prima dell’inizio del train.
Al termine della formazione, i dati rimossi possono essere utilizzati per testare le prestazioni del modello appreso su ”nuovi” dati.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Tipi di Cross-Validation + mini definizione

A
  • Holdout: il tipo più semplice di convalida dei dati, con un’unica suddivisione.
  • LOOCV: in cui il numero delle suddivisioni è pari al numero delle osservazioni che abbiamo nel dataset.
  • K-fold CV: la convalida più diffusa che permette di definire k suddivisioni del dataset.
  • Stratified Cross Validation: in cui in ogni piega o suddivisione la distribuzione dei campioni tra le classi viene mantenuta costante.
  • ShuffleSplit: un metodo ibrido tra il metodo holdout e la convalida k-fold.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Confusion Matrix

A

è una tabella che viene spesso utilizzata per descrivere le prestazioni di un modello di classificazione (o “classificatore”) su un insieme di dati di test di cui sono noti i valori reali.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
True Positive (TP)
True Negative (TN)
False Positive (FP)
False Negative (FN)
A
veri positivi (TP): questi sono casi in cui abbiamo previsto di sì (hanno la malattia) e loro hanno la malattia.
veri negativi (TN): abbiamo previsto di no e loro non hanno la malattia.
falsi positivi (FP): avevamo previsto di sì, ma in realtà non hanno la malattia. (Noto anche come "errore di tipo I.")
falsi negativi (FN): avevamo previsto di no, ma in realtà hanno la malattia. (Noto anche come "errore di tipo II".)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Precision
Recall

F1 score

A

Precision = risponde alla domanda: quale percentuale di identificazioni positive era effettivamente corretta?

Recall = risponde alla domanda: quale percentuale di True Positive e’ stata identificata correttamente?

F1 score: Combinare precision e recall in una singola metrica, e’ una harmonic mean della precision e recall, dà molto più peso ai valori bassi. punteggio F1 alto solo se sia il recall che la precision sono alti.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Precision/Recall Trade-off

Decidere soglia

A

Per ogni istanza, calcola uno score basato su una decision function.
Se lo score è maggiore di una soglia, assegna l’istanza alla classe positiva; altrimenti lo assegna alla classe negativa. all’aumentare della soglia diminuisce il recall.

Usa la funzione cross_val_predict () per ottenere i punteggi di tutte le istanze nel training set, che vuoi restituire i punteggi delle decisioni invece delle previsioni:
Con questi score, utilizza la funzione precision_recall_curve () per calcolare la precision e recall per tutte le soglie possibili:
usa Matplotlib per tracciare la precision e recall come funzioni del valore di soglia

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

ROC Curve
Descrizione
Utilizzo

A

Il receiver operating characteristic (ROC) e’ utilizzato con i classificatori binari.
Simile alla curva di precision/recall, ma invece di tracciare la precision rispetto al recall,
traccia il tasso di True Positive (recall) contro il false positive rate (FPR).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly