Measuring Accuracy Using Cross-Validation Flashcards

Question 1

Q

Cos’ ‘e la Cross-Validation?

https://www.lorenzogovoni.com/5-tecniche-di-cross-validation/

Answer

A

Metodo statistico utilizzato per stimare l’abilità dei modelli di apprendimento automatico.

non utilizza l’intero set di dati durante il train di un modello: una parte di essi vengono rimossi prima dell’inizio del train.
Al termine della formazione, i dati rimossi possono essere utilizzati per testare le prestazioni del modello appreso su ”nuovi” dati.

Question 2

Q

Tipi di Cross-Validation + mini definizione

Answer

A

Holdout: il tipo più semplice di convalida dei dati, con un’unica suddivisione.
LOOCV: in cui il numero delle suddivisioni è pari al numero delle osservazioni che abbiamo nel dataset.
K-fold CV: la convalida più diffusa che permette di definire k suddivisioni del dataset.
Stratified Cross Validation: in cui in ogni piega o suddivisione la distribuzione dei campioni tra le classi viene mantenuta costante.
ShuffleSplit: un metodo ibrido tra il metodo holdout e la convalida k-fold.

Question 3

Q

Confusion Matrix

Answer

A

è una tabella che viene spesso utilizzata per descrivere le prestazioni di un modello di classificazione (o “classificatore”) su un insieme di dati di test di cui sono noti i valori reali.

Question 4

Q

True Positive (TP)
True Negative (TN)

False Positive (FP)
False Negative (FN)

Answer

A

veri positivi (TP): questi sono casi in cui abbiamo previsto di sì (hanno la malattia) e loro hanno la malattia.
veri negativi (TN): abbiamo previsto di no e loro non hanno la malattia.
falsi positivi (FP): avevamo previsto di sì, ma in realtà non hanno la malattia. (Noto anche come "errore di tipo I.")
falsi negativi (FN): avevamo previsto di no, ma in realtà hanno la malattia. (Noto anche come "errore di tipo II".)

Question 5

Q

Precision
Recall

F1 score

Answer

A

Precision = risponde alla domanda: quale percentuale di identificazioni positive era effettivamente corretta?

Recall = risponde alla domanda: quale percentuale di True Positive e’ stata identificata correttamente?

F1 score: Combinare precision e recall in una singola metrica, e’ una harmonic mean della precision e recall, dà molto più peso ai valori bassi. punteggio F1 alto solo se sia il recall che la precision sono alti.

Question 6

Q

Precision/Recall Trade-off

Decidere soglia

Answer

A

Per ogni istanza, calcola uno score basato su una decision function.
Se lo score è maggiore di una soglia, assegna l’istanza alla classe positiva; altrimenti lo assegna alla classe negativa. all’aumentare della soglia diminuisce il recall.

Usa la funzione cross_val_predict () per ottenere i punteggi di tutte le istanze nel training set, che vuoi restituire i punteggi delle decisioni invece delle previsioni:
Con questi score, utilizza la funzione precision_recall_curve () per calcolare la precision e recall per tutte le soglie possibili:
usa Matplotlib per tracciare la precision e recall come funzioni del valore di soglia

Question 7

Q

ROC Curve
Descrizione
Utilizzo

Answer

A

Il receiver operating characteristic (ROC) e’ utilizzato con i classificatori binari.
Simile alla curva di precision/recall, ma invece di tracciare la precision rispetto al recall,
traccia il tasso di True Positive (recall) contro il false positive rate (FPR).

Measuring Accuracy Using Cross-Validation Flashcards

(7 cards)