Lezioni Flashcards

1
Q

Perché ML?

A

Data driven, molto piú semplice per alcuni tasks (riconoscimento lettere).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Obbiettivi di ML?

A

Creare funzioni, dipendenze, ipotesi che partendo dai dati permettono di ottenere risultati accurati.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Come funziona in ML un predictive System?

A

Partendo dai Data, tramite modello, effettua prediction. Il modello é composto da Task, learning algoritmhs e validation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Che tipologie di data possiamo avere?

A

Flat (tabelle) o strutturati (grafi, db).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Cosa sono noise, outliers, feature selection,

A

Noise, é il fattore esterno derivamente dalla randomness dei dati misurati. Outliers, sono i dati inusuali rispetto a quelli registrati. Feature selection sono un numero piccolo di info che possono comunque dare abbastanza info come optimal input.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cosa sono i tasks in ML e di che tipologia sono

A

indicano lo scopo dell’applicazione, quali info abbiamo, cosa vogliamo raggiungere, natura dei risultati.
Possono essere Predittivi (classification, regression), dove avró dati futuri e devo capire di che tipo oppure quali potrebbero essere, oppure descrittivi (cluster analysis, association rules) che trovano dei subsets in gruppi di dati.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Differenza tra supervisioned learning e unsupervisioned

A

Supervisioned, parte da traning examples e cerca una buona approssimazione per dati mai visti, Classificazione, dove devo capire a che classe appartiene un dato e regression, dove devo capire il valore numerico di un dato, partendo da precedenti.
Unsupervisioned hanno un cluster e devono analizzarlo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Come puó essere vista la classificazione?

A

Come una allocazione dell’input space in regioni (es. 0/1).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

La regressione come vede i dati in input?

A

Potrebbe vedere dati in input come f(x) + random noise

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Altre tipologie di tasks

A

Semi-supervisionati che permettono di combina esempli labeled e non per costruire classificatore.
Renforcement learning adattamento dei sistemi autonomi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Modelli cosa sono

A

Hanno lo scopo di catturare relazione tra dati, basati su traning example, target function f, ipotesi di funzione simile ad f, Spazio delle ipotesi (tutte le possibile ipotesi che possono essere output del learning algo)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Esempi di modelli

A

Modelli lineari restituiscono valore, simbolici (danno in base a regole logiche output 0 o 1), probabilistici (stimano p), k nearest neighbor regression (predicono y di neareast value), neural networks (approssimano relazioni non lineari)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

No free lunch

A

Non esiste un modello migliore rispetto agli altri, ogni modello avrá delle pecche su qualcosa.
Non tutti i modelli uguali, dobbiamo vedere flexibility in base a caso d’uso.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Learning algoritmh

A

Dato lo spazio delle ipotesi, partnedo da initial solution, cerco soluzioni con minimo errore che portano a optimal soluition.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quali sono i bias induttivi che possiamo avere?

A

Questi possono essere: bias nel modello (language bias), ossia prendiamo in considerazione solo alcuni valori.
Bias Search, che ha preferenze nei dati analizzati, andandoli a semplificare.
Entrambi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Esempio funzione learning booleana

A

Mal formata, possiamo avere 2ˆ2ˆn possibili funzioni per geneare lookup table, quindi non sostenibile.C

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Cosa é il version space?

A

Spazio di tutte le possibili ipotesi consistenti con i nostri dati.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Loss nei task.

A

Possiamo calcolare errore come E(h(w)) = 1/L * sommatoria dei L valori Loss(h(w), real(w)) ; dove la loss la posso misurare con Mean Square Error. (dp - h(xp))ˆ2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

ML in 4 punti

A

Data: informazioni rappresentate tramite strutture dati
Task: supervisionati, unsupervisionati
modello che descrive relazione tra i dati
Learning algo: effettua una ricerca euristica all’interno dello spazio delle ipotesi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Fasi del ML

A

Learning per costruire modello
Prediction che valuta la funzione di apprendimento riguardo dei sample data nuovi
Inductive learning hypotesis: ogni h che approssima f in modo adeguato per il training set, approssimerá anche per valori nuovi.
Overfitting: un learner effettuerá overfitting se ha errore empirico sul training basso E, ed un errore generalizzato R alto (sui dati non visti).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Vapnik-chervonenkis dim and SLT

A

Con questo teorema garantiamo che R <= epsilon(1/L, VC, 1/delta) ; formula che tiene con Pr(1 - delta).
VC indica invece complessitá del modello in uso, piú modello complesso, maggiore upperbound (es. numero di parametri in input al modello).

22
Q

Validation in ML

A

Avviene dopo training del modello.
Model selection: stimo le performance (errore generalizzato) di differenti modelli per scegliere il migliore
Model assessment: una volta scelto il migliore, stimo il suo rischio generalizzato su nuovi test data.

23
Q

Come suddivido dati?

A

50 % training, 25 validation, 25 % test per assessment.

24
Q

Classification accuracy, come funziona confusion matrix?

A

TP, FN, FP, TN, specificitá = TN / (TP + FP)
sensitivity = TP / TP + FN

25
Q

ROC Curve

A

Indica migliori classificatori (grande area sotto la curva), peggior classificatore diagonale (poiché se peggiore di diaognale mi basta fare 1- classificatore per risposta esatta.
y = TP
x = FP

26
Q

Design ciclo

A

Colleziono dati: selezione, integration, cleaning
Data rappresentazione: seleziono feature, trovo outliers
Scelgo modello, costruisco, valuto e deploy del modello.

27
Q

Misinterpretations

A

Per ogni modello statistico, posso avere casuality che non possiamo comprendere da analisi dei dati.

28
Q

Linear model

A

Cerco funzione lineare che fitta meglio i miei dati y = m * x + b

29
Q

Lest mean square formula, come risolverlo

A

sommatoria in p … l (yp - hw(xp))ˆ2 , dove hw(xp) = m * x + b .
Calcolo il gradiente, ora il gradiente se raggiunge zero, vuol dire che sono in un minimo locale , altrimenti sposto parametri verso segno del gradiente.

30
Q

K-nn

A

Dato un punto calcolo distanza con tutti gli altri punti, ordino distanze e in base a valore di k restituisco valore piu presente nei retrieved values.

31
Q

Bayes error rate

A

Rappresenta il minimo errore teorico che possiamo ottenere

32
Q

Improvements K-NN

A

Weights delle features in accordo alla loro importanza, eliminando quelle meno relevant.

33
Q

Task di classificazione

A

Nel task di classificazione ogni input ha una label, w^T X = w0 + w1x1 + w2x2 = 0
Dove w0 é detto bias, definiamo invece threshold = h(w1x1 + w2x2) > -w0

34
Q

Learning algorithms, online/batch

A

Uno basato su SVD, applicabile solo a linear models
Uno basato su gradient descent, dove aggiungo delta w ai pesi, delta w influenzato da gradiente.
Online aggiorna continuamente i pesi, batch raccoglie l elementi e li aggiunge per computare l’errore.

35
Q

Search e inductive bias in language problems

A

language bias ci limitiamo a linear model, search bias supponiamo che diminuendo LMS andremo a risolvere problema.

36
Q

Linear basis expansion (LBE), e limiti

A

Possiamo aggiungere dimensionality semplicmente trasformando x -> xˆ2 o rad(x) o norma di x.
problema siamo limitati da dimensionality e potremmo andare in overfitting

37
Q

Tikhonow

A

Per diminuire complessitá del modello utilizziamo tikhonow che aggiunge alla loss + delta ||w||^2

38
Q

Eagar timing vs lazy timing

A

Eagar analizzo tutti i dati e creo modello, lazy prima creo modello e poi imparo dai dati.

39
Q

K-NN varianti

A

K-NN per piu classi, assegno la classe piu presente
K-NN pesato, il peso che hanno i punti nella media, viene diviso per la distanza al quadrato di questi dal punto che vogliamo assegnare al cluster.

40
Q

Limiti K-NN

A

curse of dim, all’aumentare del numero di dimensioni, abbiamo bisogno di un numero di elementi esponenzialmente maggiore di prima.
costo computazionale.
scelta di K.
Sensibilitá al rumore.

41
Q

Come funziona un neurone?

A

Abbiamo una sommatoria di inputs con weights, e a questa sommatoria andiamo ad applicare una funzione di activation: linear, threshold, altre (tipo sigmoide).

42
Q

problemi nel training NN

A

over parametrizzazione.
valori iniziali randomici, da evitare pesi troppo grandi o tutti zero, meglio in un range.
Piu punti di minimo locali, utile effettuare avg minimi locali.

43
Q

Il global minimo perchè limita?

A

Per inseguirlo possiamo andare a creare un modello troppo complesso.

44
Q

Online, batch, mini batch

A

Con modalità online (stocastica) vado a ad effettuare upgrade per ogni pattern.
Con batch sommo tutti i gradienti e poi effettuo modifiche.
Mini batch migliore, poichè sommo un btach di k gradienti, fino ad arrivare a tutti i pattern. (SGD minibatch) i batch prendono dei set randomici dai sampling.

45
Q

Momentum come funziona?

A

Aggiungo al gradiente anche il delta world, che sarebbe gradiente precedentemente calcolato. Questo per evitare convergenza verso minimi locali.

46
Q

Nesterov momentum

A

Aggiungo prima il momentum e poi applico gradiente.

47
Q

Variable learning rate

A

Posso utilizzare un learning rate ns = (1 - alfa) n0 + alfa nt.

48
Q

stopping criteria per training NN

A

Di base si utilizza errore medio minore di E.
per classification #miss
per tollerance registro il max.
Spesso utilizzo nessun cambio di peso rilevante, gradiente quasi pari a zero.

49
Q

Come regolarizzo NN?

A

Aggiungo alla loss i weights (Tikhonov)

50
Q

La regolarizzazione aiuta ad arrivare alla convergence stability?

A

No, aiuta a diminuire complessità modello.

51
Q

Quante units?

A

costruttivo, inizio con una rete piccola ed aggiungo units.
Pruning, inizio con rete grande e poi elimino pesi o units.

52
Q

Costructive correlation

A

Inzio con inputs collegati ad outputs, se non raggiungo errore desiderato, aggiungo unit e cosi in modo iterativo.