Domande orale Flashcards

1
Q

Cosa è LBE?

A

LBE per linear model viene utilizzata quando il problema non è linearmente separabile, è una funzione che viene applicata al input “X” e lo trasforma per poter riuscire, nel caso della regressione, a rendere il modello più flessibile e quindi di fittare al meglio i punti, mentre nel caso della classificazione, si cerca di aumentare la dimensionalità dell’input cercando di trovare un hyperplane di dimensione k-1 (dove K rappresenta la nuova dimensione dell’input e dei pesi) che separi i punti associati alle due classi.

contro: rischiamo di aumentare la complessità del modello e quindi di overfittare

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Tikhonov regularization

A

Aggiunta alla Loss di valori che penalizzano un’eccessiva crescita dei pesi.
formula = λ ||w||^2
λ troppo grande porta a data error che cresce a dismisura, underfitting
λ troppo piccolo porta ad overfitting, stessa cosa di non averlo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

write the loss for a linear model in form of ridge regression (with Tikhonov regularization)

A

cerca su notability

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

scrivere algoritmo 1-NN

A

Store the training data <xp, yp> p=1…l
Given an input x, with size n
Find the nearest training example xi
Find the i which has the d(x,xi) minore #es euclidean distance
Output yi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Come si comporta 1-nn dal punto di vista di errori ecc

A

TR error = 0, parliamo di algoritmo troppo flessibile che porta ad overfitting, con i noise points.
VD-Dim infinita.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

formula della funz. di attivazione logistica

A

f(x) = 1/(1+e^(-alfa x))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Perchè non si usano perceptron in una rete neurale?

A

Perchè essendo una threshold non si può differenziare, si usano solo per tasks di classificazione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Perceptron Convergence theorem

A

Un perceptron converge in un numero finito di passi, per problemi linearmente separabili… Dim…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

quali tipi di problema risolve il perceptron

A

Il perceptron è un modello di classificazione binaria che può risolvere problemi di separazione lineare tra due classi. È in grado di apprendere un iperpiano di separazione lineare tra i dati di input, che può essere utilizzato per classificare nuovi dati in una delle due classi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

backpropagation e scrivere \DeltaW per un generico peso rz su l pattern

A

notability

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Approximation teorema

A

Una single hidden layer network con una funzione di attivazione logistica, può approssimare ogni funzione continua, a patto di avere abbastanza unità nell’hidden layer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Cascade correlation + covarianza

A

Cascade correlation creo rete minimale, traino.
Itero aggiugendo unit, cercando di
massimiazzare covarianza, con formula su Notability, se non aumenta piu di threshold, stop.
since the maximization of the correlation is obtained using
a gradient ascent technique on a surface with several maxima, a pool of hidden units is trained and the best one selected. This helps avoiding local maxima.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Write the formula of the LBE for a Neural Network

A

(the phi are learned)
y = wt phi(x) + bias

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

what are the most important factors ruling the flexibility of NN ?

A

Activation function, lbe, #units, #layers, lr e regolarizzazione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

come si può giustificare il funzionamento delle rand-nn?

A

cover theorem:
Un pattern di classificazione complesso, avrà piu probabilità di essere linearmente separabile in higher dimension che in lower dimension, supposto che lo spazio non sia densamente popolato.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

dal punto di vista della funzione di attivazione come cambia la complessità

A

boh

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

da cosa dipende la VC dimension nelle reti neurali?

A

In generale, la VC-dimension aumenta all’aumentare della complessità dello spazio delle ipotesi e diminuisce all’aumentare del numero di esempi di apprendimento 1. In altre parole, una rete neurale con una maggiore complessità (ad esempio, un maggior numero di neuroni o strati) avrà una VC-dimension maggiore

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Dropout

A

Ogni volta che alleno minibatch utilizzo un subsample della rete originale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Perché usare l’apprendimento profondo se un solo livello è sufficiente?

A

Poichè con piu livelli posso avere rete che utilizza meno units

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Che problemi hai con reti deep?

A

Gradient vanishing, devo utilizzare funzioni attivazione specifiche.

21
Q

cosa sono le reti deep e vantaggi/svantaggi

A

Posso utilizzare meno units, piu layers, problema con gradient vanishing, explainability…

22
Q

descrivere SOM e scrivere la formula della fase competitiva

A

Self organizing Maps algoritmh impara una mappa dai vettori per mapparli in uno spazio discreto (single output).

Input vecotr viene comparato con tutte le unit weights utilizzando Distanza euclida.

i * (x) = arg min(i) || x - wi ||_2

23
Q

scrivere formula fase cooperativa

A

Notabilty

24
Q

confronto tra SOM e K-means

A

K-Means facile da implementare, efficiente.
Funziona bene per clusters compatti.

25
Q

explain why SOMs are better than K-Means

A

Abbiamo bisogno di fornire K (numero di cluster a priori).
Troviamo local minima, suboptimal solutions.
Non possiamo avere proprieta di visualizzazione.

26
Q

def VC-dimension and VC-bound

A

vc dim rappresenta la complessità dello spazio delle ipotesi
VC-Bound R <R emp + eps(Vc dim, 1/l, 1/delta)

27
Q

SRM e per cosa si usa

A

Structural risk minimization=
trade off tra bound R < Remp(training) + epsilon(1/l, VC, 1/delta).
l numero di esempi
holds with 1 - delta probability.

Guido i modelli on SRM, non per stimare errore.

28
Q

VC(H) di iperpiani lineari con input con dim K

A

VC(H)=K+1

Dove:
K è la dimensione degli input.
Questa formula mostra che la VC dimensione degli iperpiani lineari con input di dimensione K è pari a
K+1. Questo perché gli iperpiani lineari possono separare punti in uno spazio K-dimensionale utilizzando
K coefficienti per le variabili di input e un termine bias aggiuntivo.

29
Q

forma primale hard/soft margin (con e senza kernel)

A

note

30
Q

teorema di Vapnik e controllo complessità in SVM

A

Il teorema di Vapnik è un risultato fondamentale nell’apprendimento statistico che fornisce una stima superiore del rischio di generalizzazione di un classificatore binario 1. In particolare, il teorema di Vapnik afferma che il rischio di generalizzazione di un classificatore binario dipende dalla VC-dimension dello spazio delle ipotesi e dal numero di esempi di apprendimento disponibili 12.

Per quanto riguarda il controllo della complessità in SVM, una delle tecniche più comuni è la regolarizzazione 3. La regolarizzazione è un metodo per prevenire l’overfitting, ovvero la tendenza di un modello ad adattarsi troppo ai dati di addestramento, perdendo la capacità di generalizzare a nuovi dati 3. In SVM, la regolarizzazione viene solitamente implementata attraverso il parametro di regolarizzazione C 3. Un valore elevato di C corrisponde a una minore regolarizzazione, mentre un valore basso di C corrisponde a una maggiore regolarizzazione 3

31
Q

kernel di SVM, scrivere il kernel RBF e commentare l’iperparametro sigma2

A

Radial basis function net, vedi su notability. L’iperparametro
σ controlla quanto rapidamente diminuisce l’influenza dei punti dati più distanti. Più è piccolo
, maggiore sarà la distanza tra i punti dati per cui il kernel restituirà un valore significativo. Al contrario, se è grande, anche i punti dati più distanti avranno un’importante influenza sul kernel.

32
Q

what are the most important factors ruling the flexibility of SVM

A

Choice of Kernel
Regularization Parameter (C): The regularization parameter (C) controls the trade-off between maximizing the margin and minimizing the classification error.

33
Q

confronto tra SVM e NN

A

Struttura:

SVM: Le SVM sono basate su un’idea geometrica di trovare un iperpiano che separi ottimamente le classi nel caso di classificazione binaria. In spazi di dimensioni superiori, questo si traduce nell’identificare l’iperpiano di massimo margine.
NN: Le reti neurali sono composte da un insieme di nodi, o neuroni, organizzati in strati (strato di input, strati nascosti e strato di output), dove ogni neurone è collegato ai neuroni nei layer successivi attraverso pesi.
Addestramento:

SVM: L’addestramento delle SVM coinvolge l’ottimizzazione di un problema di programmazione quadratica vincolata (QP), che cerca di massimizzare il margine tra le classi.
NN: Le reti neurali vengono addestrate tramite algoritmi di ottimizzazione come la discesa del gradiente, dove viene minimizzata una funzione di perdita (loss function) tramite aggiornamenti iterativi dei pesi.
Capacità di generalizzazione:

SVM: Le SVM tendono ad avere una buona capacità di generalizzazione, specialmente quando il numero di feature è molto maggiore del numero di campioni e quando è presente un margine di separazione chiaro.
NN: Le reti neurali possono essere estremamente flessibili e adattive, in grado di catturare complessi modelli non lineari, ma possono essere soggette a overfitting, specialmente in presenza di grandi quantità di dati e complessità del modello.
Interpretabilità:

SVM: Le SVM offrono una maggiore interpretabilità rispetto alle reti neurali, specialmente con il kernel lineare, in quanto l’iperpiano di separazione è facilmente interpretabile.
NN: Le reti neurali, soprattutto quelle profonde, possono essere molto complesse e difficili da interpretare a causa del gran numero di parametri e del loro comportamento non lineare.
Applicazioni:

SVM: Le SVM sono spesso utilizzate per problemi di classificazione binaria, rilevamento di outlier, regressione e classificazione multiclasse.
NN: Le reti neurali sono utilizzate in una vasta gamma di applicazioni, tra cui classificazione, regressione, riconoscimento di pattern, elaborazione del linguaggio naturale, visione artificiale e molto altro.

34
Q

cosa succede alla complessità all’aumentare dell’iperparametro C nel soft margin

A

In una SVM a margine morbido, l’iperparametro C controlla la complessità del modello e la quantità di errori di classificazione che vengono tollerati durante il processo di addestramento 1. In particolare, un valore elevato di C corrisponde a una minore tolleranza degli errori di classificazione, il che può portare a un modello più complesso e a una maggiore capacità di adattamento ai dati di addestramento

35
Q

formula dell’ipotesi dell’SVM hard/soft margin (classificazione e regressione). formula h(x) SVR, commenta epsilon insensitive loss

A

h(x) = wt phi(x)
dove la loss function ha un epsilon di margine, che permette di avere flessibilità quando calcoliamo loss

36
Q

definizione di support vector con e senza hard margin e nella regressione (3 def)

A

di * (wtxi + b) = 1
di * (wtxi + b) = 1 - eps i
di * (wtxi + b) = 1 (dove i weights cambiano).

37
Q

scrivere la h(x) di hard/soft margin

A

boh

38
Q

decomposizione bias-variance

A

Bias: quantifica la discrepanza tra la funzione reale e h(x)
(media sui dati): se H è troppo piccolo è alto -

Varianza: quantifica la variabilità della risposta del modello h
diverse realizzazioni dei dati di addestramento: a causa dell’alta flessibilità

39
Q

è vero che le slack variable servono a rendere il margine più piccolo?

A

ni, il loro scopo è accettare un errore nel margin\

40
Q

scrivere la formula della variance, spiegarla

A

Var[Z] = E[(Z - Z’)^2] = E[Z^2] - Z’^2
Var[Z] = 1/N sum N ( Z - mean(Z) ) ^2

41
Q

quali sono i metodi di ensemble visti in classe e spiegarli

A

Bagging creo piu classificatori e li unisco con ensemble
Boosting vado a concentrarmi su errore, andando a pesare quelli che sono dati andati in errore per classificatori successivi

42
Q

perchè gli ensemble migliorano l’expected error

A

poiche mettendo insieme vari classificatori devono andare tutti in errore

43
Q

Varianza utile quando?

A

ensemble, Ciò è dovuto al fatto che i metodi di ensemble combinano le previsioni di più modelli, riducendo così la varianza complessiva del modello.

44
Q

Ridurre Varianza?

A

k-fold, esemble o regolarizzazione

45
Q

where the regularization appears during the course

A

introdotto quando abbiamo aggiunto LBE per evitare overfitting

46
Q

what is the linear basis expansion (phi) and where it appears

A

Permette di aumentare espressivita funzione, appare nei linear model, nn

47
Q

decision tree: da cosa dipende la VC dimension

A

(profondità dell’albero)

48
Q

random forest: perché è più affidabile di un decision tree

A

(perché è un ensemble, riduce la varianza)