Lezioni Flashcards
Perché ML?
Data driven, molto piú semplice per alcuni tasks (riconoscimento lettere).
Obbiettivi di ML?
Creare funzioni, dipendenze, ipotesi che partendo dai dati permettono di ottenere risultati accurati.
Come funziona in ML un predictive System?
Partendo dai Data, tramite modello, effettua prediction. Il modello é composto da Task, learning algoritmhs e validation.
Che tipologie di data possiamo avere?
Flat (tabelle) o strutturati (grafi, db).
Cosa sono noise, outliers, feature selection,
Noise, é il fattore esterno derivamente dalla randomness dei dati misurati. Outliers, sono i dati inusuali rispetto a quelli registrati. Feature selection sono un numero piccolo di info che possono comunque dare abbastanza info come optimal input.
Cosa sono i tasks in ML e di che tipologia sono
indicano lo scopo dell’applicazione, quali info abbiamo, cosa vogliamo raggiungere, natura dei risultati.
Possono essere Predittivi (classification, regression), dove avró dati futuri e devo capire di che tipo oppure quali potrebbero essere, oppure descrittivi (cluster analysis, association rules) che trovano dei subsets in gruppi di dati.
Differenza tra supervisioned learning e unsupervisioned
Supervisioned, parte da traning examples e cerca una buona approssimazione per dati mai visti, Classificazione, dove devo capire a che classe appartiene un dato e regression, dove devo capire il valore numerico di un dato, partendo da precedenti.
Unsupervisioned hanno un cluster e devono analizzarlo.
Come puó essere vista la classificazione?
Come una allocazione dell’input space in regioni (es. 0/1).
La regressione come vede i dati in input?
Potrebbe vedere dati in input come f(x) + random noise
Altre tipologie di tasks
Semi-supervisionati che permettono di combina esempli labeled e non per costruire classificatore.
Renforcement learning adattamento dei sistemi autonomi.
Modelli cosa sono
Hanno lo scopo di catturare relazione tra dati, basati su traning example, target function f, ipotesi di funzione simile ad f, Spazio delle ipotesi (tutte le possibile ipotesi che possono essere output del learning algo)
Esempi di modelli
Modelli lineari restituiscono valore, simbolici (danno in base a regole logiche output 0 o 1), probabilistici (stimano p), k nearest neighbor regression (predicono y di neareast value), neural networks (approssimano relazioni non lineari)
No free lunch
Non esiste un modello migliore rispetto agli altri, ogni modello avrá delle pecche su qualcosa.
Non tutti i modelli uguali, dobbiamo vedere flexibility in base a caso d’uso.
Learning algoritmh
Dato lo spazio delle ipotesi, partnedo da initial solution, cerco soluzioni con minimo errore che portano a optimal soluition.
Quali sono i bias induttivi che possiamo avere?
Questi possono essere: bias nel modello (language bias), ossia prendiamo in considerazione solo alcuni valori.
Bias Search, che ha preferenze nei dati analizzati, andandoli a semplificare.
Entrambi
Esempio funzione learning booleana
Mal formata, possiamo avere 2ˆ2ˆn possibili funzioni per geneare lookup table, quindi non sostenibile.C
Cosa é il version space?
Spazio di tutte le possibili ipotesi consistenti con i nostri dati.
Loss nei task.
Possiamo calcolare errore come E(h(w)) = 1/L * sommatoria dei L valori Loss(h(w), real(w)) ; dove la loss la posso misurare con Mean Square Error. (dp - h(xp))ˆ2
ML in 4 punti
Data: informazioni rappresentate tramite strutture dati
Task: supervisionati, unsupervisionati
modello che descrive relazione tra i dati
Learning algo: effettua una ricerca euristica all’interno dello spazio delle ipotesi.
Fasi del ML
Learning per costruire modello
Prediction che valuta la funzione di apprendimento riguardo dei sample data nuovi
Inductive learning hypotesis: ogni h che approssima f in modo adeguato per il training set, approssimerá anche per valori nuovi.
Overfitting: un learner effettuerá overfitting se ha errore empirico sul training basso E, ed un errore generalizzato R alto (sui dati non visti).