Domande orale Flashcards
Cosa è LBE?
LBE per linear model viene utilizzata quando il problema non è linearmente separabile, è una funzione che viene applicata al input “X” e lo trasforma per poter riuscire, nel caso della regressione, a rendere il modello più flessibile e quindi di fittare al meglio i punti, mentre nel caso della classificazione, si cerca di aumentare la dimensionalità dell’input cercando di trovare un hyperplane di dimensione k-1 (dove K rappresenta la nuova dimensione dell’input e dei pesi) che separi i punti associati alle due classi.
contro: rischiamo di aumentare la complessità del modello e quindi di overfittare
Tikhonov regularization
Aggiunta alla Loss di valori che penalizzano un’eccessiva crescita dei pesi.
formula = λ ||w||^2
λ troppo grande porta a data error che cresce a dismisura, underfitting
λ troppo piccolo porta ad overfitting, stessa cosa di non averlo.
write the loss for a linear model in form of ridge regression (with Tikhonov regularization)
cerca su notability
scrivere algoritmo 1-NN
Store the training data <xp, yp> p=1…l
Given an input x, with size n
Find the nearest training example xi
Find the i which has the d(x,xi) minore #es euclidean distance
Output yi.
Come si comporta 1-nn dal punto di vista di errori ecc
TR error = 0, parliamo di algoritmo troppo flessibile che porta ad overfitting, con i noise points.
VD-Dim infinita.
formula della funz. di attivazione logistica
f(x) = 1/(1+e^(-alfa x))
Perchè non si usano perceptron in una rete neurale?
Perchè essendo una threshold non si può differenziare, si usano solo per tasks di classificazione
Perceptron Convergence theorem
Un perceptron converge in un numero finito di passi, per problemi linearmente separabili… Dim…
quali tipi di problema risolve il perceptron
Il perceptron è un modello di classificazione binaria che può risolvere problemi di separazione lineare tra due classi. È in grado di apprendere un iperpiano di separazione lineare tra i dati di input, che può essere utilizzato per classificare nuovi dati in una delle due classi.
backpropagation e scrivere \DeltaW per un generico peso rz su l pattern
notability
Approximation teorema
Una single hidden layer network con una funzione di attivazione logistica, può approssimare ogni funzione continua, a patto di avere abbastanza unità nell’hidden layer.
Cascade correlation + covarianza
Cascade correlation creo rete minimale, traino.
Itero aggiugendo unit, cercando di
massimiazzare covarianza, con formula su Notability, se non aumenta piu di threshold, stop.
since the maximization of the correlation is obtained using
a gradient ascent technique on a surface with several maxima, a pool of hidden units is trained and the best one selected. This helps avoiding local maxima.
Write the formula of the LBE for a Neural Network
(the phi are learned)
y = wt phi(x) + bias
what are the most important factors ruling the flexibility of NN ?
Activation function, lbe, #units, #layers, lr e regolarizzazione
come si può giustificare il funzionamento delle rand-nn?
cover theorem:
Un pattern di classificazione complesso, avrà piu probabilità di essere linearmente separabile in higher dimension che in lower dimension, supposto che lo spazio non sia densamente popolato.
dal punto di vista della funzione di attivazione come cambia la complessità
boh
da cosa dipende la VC dimension nelle reti neurali?
In generale, la VC-dimension aumenta all’aumentare della complessità dello spazio delle ipotesi e diminuisce all’aumentare del numero di esempi di apprendimento 1. In altre parole, una rete neurale con una maggiore complessità (ad esempio, un maggior numero di neuroni o strati) avrà una VC-dimension maggiore
Dropout
Ogni volta che alleno minibatch utilizzo un subsample della rete originale
Perché usare l’apprendimento profondo se un solo livello è sufficiente?
Poichè con piu livelli posso avere rete che utilizza meno units