ML Flashcards

Question 1

Q

Qual’è il ciclo di vita del ML?

Answer

A

1) Idea, per trovare la soluzione su un problema

2)Identificazione della fonte, analisi dei dati e comprensione del contesto/problema

3)Ideazione del modello statistico

4) Prototipizzazione del modello e test con gli utenti, che ci permette di validare o meno il modello oppure ci permette di comprendere meglio i dati e ottenere info aggiuntive (insights), oppure possiamo riformulare il problema

5) Ingegnerizzazione: Output

Question 2

Q

Come definiamo un modello?

Answer

A

1) Partiamo da dati storici

2) Facciamo feature engineering

3) Splittiamo i dataset in 3:
a) Training: Costruiamo il modello da questi dati

b) Validation: testiamo il modello, vediamo i risultati e possiamo utilizzarli per fare il tuning degli hyperparametri (ottimizzandoli) e ripetere il training

c) Hold out test: su cui facciamo test conclusivi e compariamo con altri modelli

Question 3

Q

Come ricavo i dati? Quali sono i possibili formati?

Answer

A

I dati possono avere diverse fonti, e possono essere di diverso formato, come strutturati o non, storici o real time.

Question 4

Q

Quali sono le fasi del data analysis?

Answer

A

Per la data analysis abbiamo le seguenti fasi:

1) Definizione del problema/contesto

2) Raccolta dei dati: da fonti steam/storici, strutturati e non

3) Data cleaning (dove passiamo il 90% del lavoro): gestiamo i dati sporchi, risolviamo i conflitti di formato etc….

4)Analisi dei dati

5) Visualization

6) Presententig the data

Per i dati storici abbiamo DB operazionali o anche data lakes, li operiamo in batch, salviamo in un DW/Data Lake e li serviamo nella Pipeline del training.

Per i dati in real time, li processiamo in stream, li salviamo in un DB NoSql/SQL e li serviamo alla Serving pipeline.

Question 5

Q

Quali sono i vincoli per la Gestione dei dati? In cosa consiste il feature store?

Answer

A

1) Data lineage: Identifare le sorgenti e stakeholder, definire i requisiti di lineage a rispetto della normativa, trovare il framework giusto e monitoring continuo

2) Versioning e stoccaggio: dobbiamo tenere traccia dell’evoluzione dei dati di training per i modelli di scoring per poter ricostruire la storia del risultato a distanza di anni

Usiamo il Feature store per mantenere in modo ordinato i dati e a disposizione dei modelli

Question 6

Q

Come scegliamo il modello?

Answer

A

Possiamo scegliere il modello in base a quello che ci serve:
1) Classificazione: se abbiamo dati labellati e dobbiamo prevedere una categoria

2) Clustering: se i dati non sono labellati

3) Regressione: se dobbiamo predirre una quantità

4)Dimensionality reduction

Question 7

Q

Brainscape's Knowledge GenomeTM

ML Flashcards

Brainscape's Knowledge Genome^TM