ML Flashcards
Qual’è il ciclo di vita del ML?
1) Idea, per trovare la soluzione su un problema
2)Identificazione della fonte, analisi dei dati e comprensione del contesto/problema
3)Ideazione del modello statistico
4) Prototipizzazione del modello e test con gli utenti, che ci permette di validare o meno il modello oppure ci permette di comprendere meglio i dati e ottenere info aggiuntive (insights), oppure possiamo riformulare il problema
5) Ingegnerizzazione: Output
Come definiamo un modello?
1) Partiamo da dati storici
2) Facciamo feature engineering
3) Splittiamo i dataset in 3:
a) Training: Costruiamo il modello da questi dati
b) Validation: testiamo il modello, vediamo i risultati e possiamo utilizzarli per fare il tuning degli hyperparametri (ottimizzandoli) e ripetere il training c) Hold out test: su cui facciamo test conclusivi e compariamo con altri modelli
Come ricavo i dati? Quali sono i possibili formati?
I dati possono avere diverse fonti, e possono essere di diverso formato, come strutturati o non, storici o real time.
Quali sono le fasi del data analysis?
Per la data analysis abbiamo le seguenti fasi:
1) Definizione del problema/contesto
2) Raccolta dei dati: da fonti steam/storici, strutturati e non
3) Data cleaning (dove passiamo il 90% del lavoro): gestiamo i dati sporchi, risolviamo i conflitti di formato etc….
4)Analisi dei dati
5) Visualization
6) Presententig the data
Per i dati storici abbiamo DB operazionali o anche data lakes, li operiamo in batch, salviamo in un DW/Data Lake e li serviamo nella Pipeline del training.
Per i dati in real time, li processiamo in stream, li salviamo in un DB NoSql/SQL e li serviamo alla Serving pipeline.
Quali sono i vincoli per la Gestione dei dati? In cosa consiste il feature store?
1) Data lineage: Identifare le sorgenti e stakeholder, definire i requisiti di lineage a rispetto della normativa, trovare il framework giusto e monitoring continuo
2) Versioning e stoccaggio: dobbiamo tenere traccia dell’evoluzione dei dati di training per i modelli di scoring per poter ricostruire la storia del risultato a distanza di anni
Usiamo il Feature store per mantenere in modo ordinato i dati e a disposizione dei modelli
Come scegliamo il modello?
Possiamo scegliere il modello in base a quello che ci serve:
1) Classificazione: se abbiamo dati labellati e dobbiamo prevedere una categoria
2) Clustering: se i dati non sono labellati
3) Regressione: se dobbiamo predirre una quantità
4)Dimensionality reduction