Teoria Flashcards

1
Q

Nell’ambito dell’apprendimento automatico quali sono le principali cause di overfitting?

A
  • Se i dati non sono sufficientemente numerosi per la complessità del problema e del modello scelto
  • Se i gradi di libertà del classificatore sono eccessivi, si raggiunge elevata accuratezza su Train, ma non su Valid (scarsa generalizzazione)
  • le dimensioni del test set sono limitate
  • Nei processi di addestramento iterativo, tipicamente dopo un certo numero di iterazioni l’accuratezza su Valid non aumenta più (e può iniziare a decrescere) a causa dell’overfitting.
    Monitorando l’andamento si può arrestare l’addestramento nel punto ideale.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quanti sono i parametri indipendenti di una distribuzione multinormale nel caso 3-dimensionale? Motivare la risposta.

A

𝛍 = [𝜇1, 𝜇2 … 𝜇𝑑] è il vettore medio è Σ = [𝜎𝑖𝑗] la matrice di covarianza (𝑑 × 𝑑).

La matrice di covarianza è sempre simmetrica e definita positiva, pertanto ammette inversa. Essendo simmetrica il numero di parametri che la definisce è 𝑑 ∙ (𝑑 + 1)/2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quali sono le più comuni funzioni di attivazione utilizzate per neuroni artificiali? Perché è necessario che siano non-lineari e differenziabili (esistenza derivata)?

A

Le reti neurali più comunemente utilizzate operano con livelli continui e 𝑓(∙) è una funzione non-lineare ma continua e differenziabile (quasi ovunque).

  • Perché non-lineare? Se vogliamo che una rete sia in grado di eseguire un mapping (complesso) dell’informazione di input sono necessarie non-linearità.
  • Perché continua e differenziabile? Necessario per la retropropagazione dell’errore (come scopriremo presto).

Una delle funzioni di attivazione più comunemente utilizzata è la sigmoide nelle varianti:

  • standard logistic function (chiamata semplicemente sigmoid)
  • tangente iperbolica (tanh)
  • Funzioni di attivazione più recenti (Relu, Elu) introdotte per reti profonde (deep-learning)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quali sono le più note tecniche di riduzione di dimensionalità? Quali i loro tipici utilizzi?

A

Obiettivo dei metodi per la riduzione di dimensionalità (dimensionality reduction) è quello di eseguire un mapping dallo spazio iniziale R𝑑 a uno spazio di dimensione inferiore R𝑘, 𝑘 < 𝑑.

Può essere vista come una forma di compressione (con perdita di informazione). Obiettivo è scartare le informazioni non rilevanti o meno rilevanti per il problema di interesse

Riduzione di dimensionalità non significa mantenere alcune «dimensioni» e cancellarne altre, ma «combinare» le dimensioni in modo opportuno.

Le più note tecniche di riduzione di dimensionalità sono:

  • Principal Component Analysis (PCA): trasformazione nonsupervisionata nota anche come Karhunen Loeve (KL) transform. Esegue un mapping lineare con l’obiettivo di preservare al massimo l’informazione dei pattern.
  • Linear Discriminant Analysis (LDA): il mapping è ancora lineare, ma in questo caso è supervisionato. Mentre PCA privilegia le dimensioni che rappresentano al meglio i pattern, LDA privilegia le dimensioni che discriminano al meglio i pattern del TS.
  • t-distributed Stochastic Neighbor Embedding (t-SNE): trasformazione non lineare e non supervisionata, specificatamente ideata per ridurre dimensionalità a 2 o 3 dimensioni onde poter visualizzare dati multidimensionali.
  • UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction) è una tecnica di riduzione di dimensionalità (non lineare e non supervisionata) simile a t-SNE, utile per la visualizzazione 2D o 3D di dati multidimensionali.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Come si misurano le prestazioni di un classificatore?

A
  • Accuratezza: in un problema di Classificazione, l’accuratezza di classificazione [0…100%] è la percentuale di pattern correttamente classificati.
  • Errore: l’errore di classificazione è il complemento dell’accuratezza.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Nella formulazione dell’SVM lineare la funzione obiettivo richiede di massimizzare il margine.
L’ottimizzazione è però vincolata; in cosa consistono i vincoli? quanti sono?

A

Nel caso di pattern separabili:

  • L’iperpiano ottimo secondo SVM è quello soddisfa i vincoli di separazione dei pattern e massimizza il margine.

Nel caso di pattern non separabili:

  • L’iperpiano ottimo deve in questo caso ancora massimizzare il margine, ma allo stesso tempo minimizzare il numero di elementi non correttamente classificati.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Cosa si intende per risoluzione dei problemi con approccio “forza bruta”. Si tratta di intelligenza artificiale?

A

Brute-Force (ricerca esaustiva): in alcuni domini applicativi un calcolatore è in grado di risolvere problemi in modo ottimo semplicemente enumerando e valutando tutte le possibili alternative.

Talvolta si utilizza il termine Weak AI (intelligenza artificiale debole) per caratterizzare sistemi capaci di risolvere (problem solvers) problemi complessi senza però capacità di ragionamento e comprensione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Come opera un livello di convoluzione di una CNN?

A

La convoluzione è una delle più importanti operazioni di image processing attraverso la quale si applicano filtri digitali.
Un filtro digitale (una piccola maschera 2D di pesi) è fatto scorrere sulle diverse posizioni di input; per ogni posizione viene generato un valore di output, eseguendo il prodotto scalare tra la maschera e la porzione dell’input coperta.

Consideriamo i pixel come neuroni e le due immagini di input e di output come livelli successivi di una rete. Dato un filtro 3x3, se colleghiamo un neurone ai 9 neuroni che esso «copre» nel
livello precedente, e utilizziamo i pesi del filtro come pesi delle connessioni 𝑤, notiamo che un classico neurone (di una MLP) esegue di fatto una convoluzione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Definire i problemi di Classificazione e Regressione evidenziandone le differenze e fornendo per ciascuno esempi reali della loro applicazione.

A
  • Classificazione: assegnare una classe a un pattern.
    Necessario apprendere una funzione capace di eseguire il mapping dallo spazio dei pattern allo spazio delle classi. Si usa spesso anche il termine riconoscimento.
    Nel caso di 2 sole classi si usa il termine binary classification, con più di due classi multi-class classification.Esempi di problemi di classificazione:
    • Spam detection
    • Credit Card fraud detection
    • Face recognition
    • Pedestrian classification
    • Medical diagnosys
    • Stock Trading
  • Regressione: assegnare un valore continuo a un pattern. Utile per la predizione di valori continui. Risolvere un problema di regressione corrisponde ad apprendere una funzione approssimante delle coppie «input, output» date.Esempi di problemi di regressione:
    • Stima prezzi vendita appartamenti nel mercato immobiliare
    • Stima del rischio per compagnie assicurative
    • Predizione energia prodotta da impianto fotovoltaico
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Come può essere scelto nella pratica il numero di cluster in un algoritmo di clustering come K-means?

A
  • Discontinuità nel grafico: un modo più efficace per determinare il numero ottimale di cluster è quello di cercare punti di inflessione (anche detti elbow) nel valore di 𝐽𝑒 al variare di 𝑠.
  • Silhouette score: un criterio più oggettivo (che funziona per cluster sferici come quelli prodotti da k-means) e quello di calcolare il silhouette score come media dei silhouette coefficient di ciascun pattern e scegliere 𝑠 che lo massimizza.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quali sono le limitazioni di Q learning per risolvere problemi complessi? Le tecniche di deep learning possono essere di aiuto in questo caso? Come?

A
  • Nel Q-learning la funzione 𝑄(𝑠, 𝑎) indica l’ottimalità (o qualità) dell’azione 𝑎 quando ci si trova in stato s.
  • Il punto cruciale è dunque l’apprendimento della funzione 𝑄.
  • Problema (pratico): quanto è grande 𝑄 ?
    • Tanti valori quanti sono i possibili stati x le possibili azioni
  • L’idea consiste nell’approssimare la funzione 𝑄 con una rete neurale deep (CNN) che, per ogni stato di input, fornisce in output un valore di qualità per ogni possibile azione
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nell’ambito dei multi-classificatori che cosa è e come funziona il Borda count?

A

Borda count: ogni classificatore invece di una singola classe, produce una classifica o ranking delle classi (dalla prima all’ultima) a seconda della probabilità che a ciascuna di esse appartenga il pattern da classificare.
I ranking sono convertiti in punteggi e poi sommati; la classe con il più elevato punteggio finale è quella scelta dal multiclassificatore. Rispetto a majority vote rule, considera anche i «non primi» di ogni classificatore.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Fare esempi pratici di ragionamento induttivo e deduttivo.

A
  • Deduttivo
    • REGOLA (C → R): Tutti gli uomini sono mortali
    • CASO (C1): Socrate è un uomo
    • RISULTATO (R1): Socrate è mortale
  • Induttivo
    • Nel ragionamento induttivo, diversamente da quello deduttivo, le premesse (caso/i particolare/i) forniscono un’evidenza più o meno forte a sostegno della conclusione (generalizzazione), ma non ne garantiscono necessariamente la verità
    • CASO (C1): Socrate era un uomo
    • RISULTATO (R1): Socrate morì
    • REGOLA (C → R): Tutti gli uomini sono mortali
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Che cosa si intende per clustering? Fare esempi di applicazioni.

A

Con il termine Clustering (in italiano «raggruppamento») si denota un famiglia di metodi non supervisionati in grado di individuare raggruppamenti intrinseci (cluster) di pattern nello spazio
multidimensionale, e (opzionalmente) di definire in corrispondenza di tali raggruppamenti le classi (incognite).
Il clustering ha applicazioni in numerose discipline (pattern recognition, machine learning, computer vision, data mining, database, …)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Cosa si intende per future reward nell’ambito del reinforcement learning? Fare un esempio.

A

Il future reward è la somma di tutti i reward che saranno ottenuti in futuro.

Viene utilizzo come criterio per scegliere la mossa allo stato i-esimo in modo che massimizzi il future reward.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Cosa si intende per multi-classificatore? Quando un multi-classificatore è efficace?

A

Un multi-classificatore è un approccio dove diversi classificatori sono utilizzati (normalmente in parallelo, ma talvolta anche in cascata o in modo gerarchico) per eseguire la classificazione dei
pattern; le decisioni dei singoli classificatori sono fuse ad un certo livello del processo di classificazione.

La combinazione è efficace solo quando i singoli classificatori sono (almeno parzialmente) indipendenti tra loro, ovvero non commettono gli stessi errori.

L’indipendenza (o diversità) è normalmente ottenuta:

  • Utilizzando feature diverse (non correlate o poco correlate)
  • Utilizzando algoritmi diversi per l’estrazione delle feature
  • Utilizzando diversi algoritmi di classificazione
  • Addestrando lo stesso algoritmo di classificazione su porzioni diverse del training set (bagging)
  • Insistendo con l’addestramento sugli errori commessi dai predecessori (boosting)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Che cos’è il learning rate nell’ambito dell’apprendimento di reti neurali? Cosa succede se viene scelto un learning rate troppo piccolo o troppo grande?

A
  • Il learning rate è il parametro che specifica di quanto si vuole andare a migliorare la soluzione durante backpropagation-
  • Tarare il learning rate 𝜂 in modo ottimale è molto importante:
    • se troppo piccolo convergenza lenta ed è più facile rimanere intrappolati in minimi locali.
    • se troppo grande oscillazione e/o divergenza
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Cosa si intende per K-fold cross-validation? Quali sono i vantaggi rispetto a un semplice split a due dei dati di training?

A
  • Una scelta più robusta degli iperparametri (di fatto obbligatoria per dataset di piccole dimensioni) si ottiene con la procedura di k-fold Cross-Validation.
  • Per ogni combinazione di iperparametri Hi che si vuole valutare:
    • Si esegue 5 volte il training scegliendo uno dei fold come Valid e i 4 rimanenti come Train.
    • Si calcola l’accuratezza avg_acci come media/mediana delle 5 accuratezze sui rispettivi Valid
    • Si sceglie la combinazione di iperparametri con migliore avg_acc.
    • Scelti gli iperparametri ottimali si riaddestra il modello su tutto il training set (5 fold) e, solo a questo punto, si verificano le prestazioni sul test set.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Quali sono i parametri di una distribuzione multinormale?

A
  • 𝛍 = [𝜇1, 𝜇2 … 𝜇𝑑] è il vettore medio
  • Σ = [𝜎𝑖𝑗] la matrice di covarianza (𝑑 × 𝑑).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Descrivere a grandi linee un classificatore Random Forest

A
  • Appartiene alla famiglia di metodi di Bagging (Boostrap Aggregating)
    • Estrazione con re-imbussolamento di un sottoinsieme 𝑆𝑗 di pattern dal training set (tipicamente i 2/3 del totale).
    • Addestramento del classificatore 𝐶𝑗 sul sottoinsieme 𝑆𝑗
    • Fusione dei classificatori (e.g., majority vote rule, somma)
  • In Random Forest i singoli classificatori sono classification tree.
  • Per la «crescita» dell’albero a partire da un training set, si sceglie (in modo greedy) ad ogni livello la coppia (feature, soglia di suddivisione) che meglio separa le classi.
  • Per la classificazione di un nuovo pattern si visita l’albero e una volta giunti a una foglia, si classifica il pattern sulla base della classe più comune nel nodo (tra i pattern del training
    set): majority vote rule

In Random Forest, per rendere maggiormente indipendenti i classificatori (tree):

  • per ogni nodo la scelta della feature migliore su cui partizionare non è fatta sull’intero insieme delle 𝑑 feature (dimensionalità dei pattern), ma su un sottoinsieme random di 𝑑′ feature. Valore tipico 𝑑′ = sqrt(d)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Indicare le differenze tra le tecniche di riduzione di dimensionalità PCA e LDA.

A
  • PCA: trasformazione non lineare. Il mapping lineare cerca di mantenere al massimo l’informazione
  • LDA: mapping lineare supervisionato. Privilegia le dimensioni che discriminano meglio i pattern.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Descrivere a grandi linee l’algoritmo di Clustering K-means.

A

K-means: minimizza la distanza dai centroidi. Si parte da una soluzione base e si arriva iterativamente alla soluzione. Ad ogni iterazione si assegnano i pattern al cluster il cui centro è più vicino e poi si ricalcola il centroide. Si ripete tutto fino a che non si raggiunge stabilità.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Qual è l’idea di base dell’algoritmo backpropagation per l’addestramento di reti neurali?

A

L’idea alla base dell’algoritmo di backpropagation è quello di risolvere il problema del credit assignment, cioè individuare i pesi responsabili degli errori e far sì che tramite i training pattern il comportamento della rete venga spostato per minimizzare tali errori. Di fatto, arrivati alla fine della rete viene propagato all’indietro l’errore.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Nell’ambito dell’apprendimento automatico cosa si intende per generalizzazione e overfitting?

A
  • Per generalizzazione si intende la capacità di spostare l’accuratezza ottenuta nel training set sul validation set.
  • Per overfitting si intende il problema che si verifica quando il classificatore inizia ad “imparare a memoria” e quindi ottiene ottimi risultati nel training set ma scarsi nel validation; non c’è generalizzazione.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Rispetto a K-means l’approccio di clustering EM con Gaussian mixture quali maggiori flessibilità consente?

A

Il principale vantaggio che si ha è che si possono individuare anche cluster di forma ellissoidale che invece K-means non riesce ad individuare.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Indicare le principali “stagioni” nello sviluppo dell’intelligenza artificiale e machine learning.

A
  • Nascita e anni d’oro (1940-1974): primi calcolatori e predizioni ottimistiche
  • Primo inverno (1974-1980): risultati non all’altezza, riduzione finanziamenti. Problemi: dataset piccoli, scarsa capacità computazionale.
  • Nuova primavera (1980-1987): calcolatori di Quinta generazione
  • Secondo inverno (1987-1993): flop dei calcolatori di Quinta generazione, riduzione finanziamenti. Risultati in campi specifici
  • Tempi moderni (1993-2011): hardware più potente
  • Deep Learning (2011-oggi): CNN
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

In classificazione cosa si intende per superficie decisionale o di separazione? Riportare anche un esempio grafico.

A

Un decision boundary o decision surface (superficie decisionale) è una zona di confine tra regioni che il classificatore associa a classi diverse.

Sul boundary la classificazione è ambigua.

Le superfici decisionali possono assumere forme diverse. Nel caso specifico si tratta di due iperboli. In generale:

  • Se le 2 matrici di covarianza sono uguali tra loro: la superficie decisionale è un iper-piano.
  • Se le 2 matrici di covarianza sono arbitrarie: la superficie decisionale è un iper-quadratica.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Che cosa sono i criteri di clustering? Fare un esempio.

A

I criteri di clustering descrivono cosa si vuol ottenere specificando il grado di ottimalità di ogni soluzione ammissibile.
Si basano su 2 osservazioni:
- Pattern della stessa classe devono essere più simili tra loro di pattern appartenenti a classi diverse
- I cluster sono costituiti da nuvole di punti ad alta densità separate da zone a bassa densità

  • minimizzazione della distanza dai centroidi: si cerca di minimizzare la somma dei quadrati delle distanze dei punti dai centroidi.
  • minimizzazione distanze intra-classe
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Definire cosa si intende per apprendimento supervisionato e non supervisionato.

A
  • Per apprendimento supervisionato si intende l’utilizzo di un training set in cui i pattern sono tutti etichettati e quindi sono note le classi dei pattern (classificazione e regressione).
  • Nell’apprendimento non supervisionato le classi non sono note, quindi il training set non è etichettato (clustering).
30
Q

Qual è l’obiettivo di una tecnica di regressione?

A

L’obiettivo è trovare la funzione che fa da mapping tra la variabile indipendente x (scalare o vettore, in entrambi i casi è considerata esatta) e la variabile dipendente y (i cui valori sono numerici e continui, ed è affetta da errore), cioè trovare f(x) -> y.

31
Q

La posizione e forma dell’ellissoide di una distribuzione multinormale come è influenzata da 𝜇 e Ʃ?

A
  • 𝜇 controlla il centro dell’ellissoide
  • Ʃ ne determina la rotazione (elementi NON diagonali della matrice) rispetto agli assi cartesiani e l’allungamento (elementi diagonali della matrice) sui due assi dell’ellisse.
32
Q

Nell’ambito dei multi-classificatori come si può ottenere indipendenza tra i singoli classificatori utilizzati?

A

L’indipendenza (o diversità) è normalmente ottenuta:

  • Utilizzando feature diverse (non correlate o poco correlate)
  • Utilizzando algoritmi diversi per l’estrazione delle feature
  • Utilizzando diversi algoritmi di classificazione
  • Addestrando lo stesso algoritmo di classificazione su porzioni diverse del training set (bagging)
  • Insistendo con l’addestramento sugli errori commessi dai predecessori (boosting)
33
Q

Nell’ambito delle reti neurali, quali sono le principali differenze di CNN rispetto a MLP?

A
  • In MLP i neuroni sono fully-connected mentre in CNN no, se non negli ultimi livelli.
  • Processing locale: i neuroni sono connessi solo localmente a quelli del livello precedente e ognuno di essi esegue un’elaborazione locale. Diminuisce così il numero di connessioni.
  • Pesi condivisi: i pesi sono condivisi a gruppi. Più neuroni dello stesso livello eseguono la stessa operazione su porzioni diverse dell’input. Diminuisce così il numero dei pesi.
  • Alternanza tra livelli di feature extraction e pooling.
34
Q

Qual è la funzione obiettivo in formato matriciale della multiple linear regression?

A

|| y – X*Beta||^2
- Y: vettore contenente uno scalare per ogni pattern
- X: matrice rettangolare in cui ogni riga è un pattern del TS
- Beta: vettore dei termini noti

35
Q

Cosa si intende per iperparametri? Fornire esempi pratici di iperparametri. Come si ottimizzano?

A
  • Con iperparametri si indicano dei parametri necessari agli algoritmi che vanno definiti prima dell’apprendimento vero e proprio (e dei parametri dell’apprendimento).
  • Sono iperparametri il numero di neuroni in una rete neurale o il numero di vicini k in un classificatore k-NN.
  • Per ottimizzare gli iperparametri si scelgono dei loro valori ragionevoli e si esegue l’addestramento; si prendono poi gli iperparametri che hanno fornito le prestazioni migliori.
36
Q

Con quali tecniche si può estendere SVM da 2 a più classi?

A
  • One-against-one: in questo approccio vengono utilizzati solo classificatori binari. Prese s classi vengono addestrati s(s-1)/2 classificatori, uno per ogni coppia di classi. Ogni pattern viene classificato da ogni classificatore e viene assegnato a quella che ha ricevuto più voti.
  • One-against-all: addestra s classificatori in cui per ognuno è determinata la superficie di separazione tra i pattern di una classe k e quelli di tutte le altre classi. Il pattern viene assegnato alla classe per cui è massima la distanza dalla superficie decisionale.
37
Q

Cosa si intende per Clustering esclusivo e Clustering soft (o Fuzzy). Quest’ultimo che vantaggi può avere?

A
  • Nel clustering esclusivo un pattern può appartenere ad un solo cluster;
  • in quello soft invece viene assegnato ad ogni pattern una probabilità di appartenenza ai vari cluster. Il vantaggio che ha quest’ultima versione è che gestisce meglio pattern sul bordo dei cluster ed eventuali outliers.
38
Q

Che cosa codifica la funzione Q nell’ambito dell’approccio Q-learning? Quali sono gli input che ne determinano il valore?

A

Q(s,a): i 2 input sono lo stato s e l’azione a. La funzione indica l’ottimalità dell’azione se eseguita quando ci si trova nello stato s. Q deve essere massimizzata per poter eseguire la miglior azione a durante lo stato s affinché si abbia la ricompensa più alta (future reward).

39
Q

Cosa si intende per approccio parametrico e non-parametrico nell’ambito della classificazione? Fare un esempio di classificatore parametrico e non parametrico.

A
  • Nell’approccio parametrico si fanno ipotesi sulla forma delle distribuzioni (si suppone che le forme siano note) e si apprendono i parametri fondamentali dal TS. Classificatore: Bayes.
  • Nell’approccio non parametrico si apprendono le distribuzioni dal TS. Classificatore: parzen-window
40
Q

Qual è il principio su cui si basa il classificatore SVM? Cosa si intende per margine?

A

SVM ricerca l’iperpiano (o nel caso non lineare la superficie complesse) di separazione in grado di separare le classi con il maggior margine possibile. Il margine è la distanza minima tra i vettori di una classe e l’iperpiano di separazione trovato.

41
Q

Come può essere matematicamente definita la loss function (su un singolo pattern) per l’addestramento di una rete neurale?

A

Può essere definita come la somma dei quadrati degli errori diviso 2. (1/2 * Ʃ(ti-zi)^2) in cui t indica il valore desiderato e z quello prodotto dalla rete). La dipendenza dai pesi è implicita in z.

42
Q

Quali sono i più noti algoritmi di clustering?

A
  • K-means: minimizza la distanza dai centroidi. Si parte da una soluzione base e si arriva iterativamente alla soluzione. Ad ogni iterazione si assegnano i pattern al cluster il cui centro è più vicino e poi si ricalcola il centroide. Si ripete tutto fino a che non si raggiunge stabilità.
  • Fuzzy K-Means: la differenza rispetto a K-means è che assegna ad ogni pattern un grado di appartenenza ai cluster (la probabilità)
  • EM: consente di individuare anche cluster ellissoidali che invece K-means fatica a identificare.
43
Q

Descrivere a grandi linee l’approccio di classificazione AdaBoost

A
  • AdaBoost è un algoritmo di boosting che quindi si concentra sui pattern erroneamente classificati durante l’addestramento. Per far ciò, crea un multiclassificatore strong a partire da più classificatori weak.
  • Si parte classificando i pattern con alcuni classificatori, effettuata la classificazione, si verifica la sua correttezza; ai pattern che sono stati classificati erroneamente viene assegnato un peso maggiore rispetto a quelli classificati correttamente. In base ai pesi viene scelto un nuovo classificatore da aggiungere a quelli già presenti che sia efficacie sui pattern critici (quelli erroneamente classificati) e si ripete il tutto.
44
Q

Indicare la formula di Bayes per la probabilità a posteriori, definendo i termini.

A

p(Wi|x) = p(x|Wi)*P(Wi)/p(x)

  • p(Wi|x): probabilità a posteriori
  • p(x|Wi): densità di probabilità condizionale, cioè la probabilità che data la classe Wi il prossimo pattern sia x
  • P(Wi): probabilità a priori, cioè la probabilità che, a prescindere da quale sia il prossimo pattern x, la classe sia Wi
  • p(x): densità di probabilità assoluta, cioè la probabilità che il prossimo pattern da classificare sia x
45
Q

Fare esempi pratici di pattern numerici, categorici e di sequenze.

A
  • Pattern numerici: valori relativi a caratteristiche misurabili. Età, altezza, peso
  • Pattern categorici: valori relativi a caratteristiche qualitative o alla presenza/assenza di una caratteristica. Sesso, colore degli occhi o dei capelli
  • Sequenze: pattern sequenziali con relazione spaziali o temporale. Frase, video, stream audio
46
Q

Qual è l’idea di base dell’algoritmo di clustering EM con Gaussian mixture?

A
  • Si parte dall’ipotesi che i pattern siano stati generati da un mix di distribuzioni: ogni classe ha generato i pattern a partire da una propria distribuzione, ma alla fine i pattern appaiono come generati da un’unica distribuzione multi-modale. EM cerca di risalire, partendo dai pattern del TS, ai parametri di queste distribuzioni che li hanno generati.
  • A tal fine si ipotizza nota la forma delle distribuzioni e si assume, per semplicità, che esse siano tutte dello stesso tipo. Il caso più frequente è quello di mix di 𝑠 distribuzioni multinormali (gaussiane), di cui si vogliono stimare i parametri di definizione (𝑠 vettori medi + 𝑠 matrici di covarianza + 𝑠 coefficienti $\alpha$)
47
Q

Nell’ambito dei multi-classificatori quali sono le più comuni tecniche di fusione a livello di decisione e di confidenza?

A
  • Fusione a livello di decisione:
    • majority vote rule (classe maggiormente votata)
    • borda count (classifica delle classi, per ogni posizione viene assegnato un punteggio, la classe con il punteggio più alto è quella scelta)
  • Fusione a livello di confidenza:
    • somma (somma delle confidenze e scelta della massima),
    • prodotto (prodotto delle confidenze e scelta della massima),
    • massimo (viene scelta la massima confidenza ottenuta da ogni classe e si sceglie la massima delle massime)
    • minimo (viene scelta la minima confidenza ottenuta da ogni classe e si sceglie la massima delle minime).
48
Q

Nell’ambito di CNN, che cosa si intende con transfer learning? Quali sono le tecniche di transfer learning utilizzabili?

A
  • Il transfer learning è un’alternativa al training da zero di una CNN quando cambia il problema da risolvere; le tecniche utilizzabili sono 2:
    • Fine tuning: si parte da una rete addestrata su un problema simile, si sostituisce il livello di output con un nuovo livello di output softmax, si mantengono tutti i pesi a parte quelli tra il penultimo e l’ultimo livello che vengono inizializzati random e si effettuano nuove iterazioni di addestramento;
    • Riutilizzo delle features: si parte da una rete addestrata senza effettuare fine tuning. Si estraggono le feature generate dai livelli intermedi durante il forward e si addestra un classificatore esterno con esse sui nuovi pattern
49
Q

Dare la definizione di Training, Validation e Test set e discutere una possibile suddivisione dei dati nei tre insiemi.

A
  • Training set: insieme dei pattern su cui viene effettuato l’addestramento trovando i valori ottimi dei parametri.
  • Validation set: insieme dei pattern tramite i quali vengono definiti gli iperparametri.
  • Test set: insieme dei pattern su cui si valutano le prestazioni finali.
  • Se possibile si usano set disgiunti (quando i pattern sono numerosi) altrimenti bisogna ricorrere a tecniche come la k-fold cross validation che consentono di utilizzare stessi pattern opportunamente combinati sia per il training che per il validation set.
50
Q

Nella regressione cosa si intende per variabile indipendente e variabile dipendente?

A
  • Nella regressione si cerca una funzione mapping tra i valori di x e y, cioè f(x) -> y
  • I valori di x sono considerati esatti e può essere uno scalare o un vettore; è la variabile indipendente.
  • I valori di y sono numerici e continui, e sono considerati affetti da errore; è la variabile dipendente (che si ottiene tramite la funzione f e la variabile x)
51
Q

Nell’ambito di classificazione con SVM cosa si intende per pattern linearmente separabili e non linearmente separabili? Fare esempio grafico dei due casi.

A
  • Pattern linearmente separabili sono pattern per cui esiste un iperpiano in grado di separarli
  • Pattern non linearmente separabili sono pattern per cui NON esiste un iperpiano in grado di separarli per cui ci saranno degli errori di classificazione.
52
Q

Cosa si intende per convergenza di un algoritmo di apprendimento iterativo? Accuratezza e loss come si comportano durante le iterazioni in caso di convergenza. Disegnare un semplice grafico.

A
  • Per convergenza di un algoritmo si intende che:
    • l’accuratezza ha un andamento crescente (blu)
    • la loss decrescente (rosso).
53
Q

Cosa si intende per funzione obiettivo e loss function?

A
  • La funziona obiettivo indica il comportamento di un algoritmo ed ha in input il TS e dei parametri; l’addestramento serve per trovare il valore ottimo di questi parametri per massimizzarla.
  • La loss function indica la perdita o l’errore che deve essere minimizzata.
54
Q

Qual è la differenza sostanziale dell’approccio “On-line” rispetto a “SGD con mini-batch“ per il training di reti neurali?

A
  • Nell’approccio online i pattern sono presentati sequenzialmente e i pesi vengono aggiornati dopo ogni presentazione;
  • con i mini-batch invece l’aggiornamento del peso avviene solo dopo che tutti i pattern di un mini-batch sono stati processati.
55
Q

Come è definita la funzione di attivazione Relu? Perché consente di addestrare reti neurali profonde limitando il problema del vanishing gradient?

A
  • Relu è definita come max(0,net)
  • La sigmoide ha il problema del vanishing gradient, cioè la derivata assume spesso valori minori di 1 e il prodotto di molti termini minori di 1 porta il gradiente a ridursi parecchio. La funzione risolve il problema perché la derivata assume valore 0 solo per valori di net negativi o nulli, e assume valore 1 per valori positivi, quindi non annulla il gradiente.
56
Q

Nel caso di pattern non-linearmente separabili, nella formulazione di SVM lineare come si approccia il problema?

A
  • L’obiettivo rimane sempre quello di cercare l’iperpiano che separa le classi massimizzando il margine ma minimizzando anche il numero di pattern che valicano il margine stesso (e che quindi saranno erroneamente classificati).
  • Per far questo vengono aggiunte ai vincoli delle variabili di slack positive che li rilassano (esse assumono valore 0 per i pattern separabili ed entrano in gioco solo per quelli non separabili).
57
Q

Per l’addestramento di una rete neurale che cosa si intende con vettore di output desiderato? Come può essere definito? Come si può calcolare l’errore da retro-propagare a partire dal vettore desiderato e dal valore calcolato dalla rete per un pattern?

A

Il vettore di output desiderato t è un vettore lungo s (numero delle classi) le cui componenti sono tutte =-1 tranne quella relativa alla classe di appartenenza che è = 1; dato l’output della rete z (anch’esso è un vettore lungo s) si effettua la somma dei quadrati degli errori, cioè la sommatoria delle differenze al quadrato tra i valori di t e di z (Ʃ (ti – zi)^2) e si trova quindi l’errore.

58
Q

Nel classificatore di Bayes cosa si intende per densità di probabilità condizionale e probabilità a priori.

A
  • indichiamo con 𝑝(𝐱|𝑤𝑖) la densità di probabilità condizionale (o condizionata) di 𝐱 data 𝑤𝑖,
    ovvero la densità di probabilità che il prossimo pattern sia 𝐱, sotto l’ipotesi che la sua classe di appartenenza sia 𝑤i.
  • indichiamo con 𝑃(𝑤𝑖) la probabilità a priori di 𝑤𝑖 ovvero la probabilità, indipendentemente dall’osservazione, che il prossimo pattern da classificare sia di classe wi.
59
Q

Quali sono le condizioni necessarie affinché le tecniche di deep learning siano più efficaci di altri approcci di machine learning?

A
  • Big Data: disponibilità di dataset etichettati di grandi dimensioni
  • Gpu computing: il training di modelli complessi (profondi e con molti pesi e connessioni) richiede elevate potenze computazionali.
  • Vanishing Gradient: la retro propagazione del gradiente (fondamentale per backpropagation) è problematica su reti profonde se si utilizza la sigmoide come funzione di attivazione.
60
Q

Come si calcola l’attivazione (net) di un neurone artificiale? Indicare formula e commentarla.

A

net_i = sum_{j=1..d}{ w_{ji} x in_j + w_{0i} }

out_i = f(net_i)

  • 𝑖𝑛1, 𝑖𝑛2, … 𝑖𝑛𝑑 sono i 𝑑 ingressi che il neurone 𝑖 riceve da assoni di neuroni afferenti.
  • 𝑤1𝑖, 𝑤2𝑖, … 𝑤𝑑𝑖 sono i pesi (weight) che determinano l’efficacia delle connessioni sinaptiche dei dendriti (agiremo su questi valori durante l’apprendimento).
  • 𝑤0𝑖 (detto bias) è un ulteriore peso che si considera collegato a un input fittizio con valore sempre 1; questo peso è utile per «tarare» il punto di lavoro ottimale del neurone.
  • 𝑛𝑒𝑡_𝑖 è il livello di eccitazione globale del neurone (potenziale interno);
    • 𝑓(∙) è la funzione di attivazione che determina il comportamento del neurone (ovvero il suo output 𝑜𝑢𝑡𝑖) in funzione del suo livello di eccitazione 𝑛𝑒𝑡_𝑖.
61
Q

Cosa si intende con SVM lineari? Cosa sono le superfici di separazione nel caso d=2 e d=3?

A
  • SVM lineare (i.e., la superficie di separazione è un iperpiano) e pattern del training set linearmente separabili (i.e., esiste per ipotesi almeno un iperpiano in grado di separarli).
  • SVM lineare e pattern non linearmente separabili. Ci saranno inevitabilmente errori di classificazione nel training set non esistendo alcun iperpiano in grado di separare i pattern.
  • Nel caso d=2 la superficie di separazione è una retta
  • Nel caso d=3 la superficie è un iperpiano
62
Q

Indicare le differenze tra reti neurali feedforward e le reti neurali ricorrenti, disegnando un esempio di entrambe.

A
  • Le reti ricorrenti prevedono «anche» collegamenti all’indietro o verso lo stesso livello. I modelli più comuni e diffusi (es. LSTM, GRA) prevedono collegamenti verso lo stesso livello.
63
Q

Cosa è possibile apprendere mediante tecniche di reinforcement learning? Fare un esempio.

A
  • L’obiettivo è apprendere un comportamento ottimale a partire dalle esperienze passate.
  • Un agente esegue azioni ( 𝑎 ) che modificano l’ambiente, provocando passaggi da uno stato (𝑠) all’altro. Quando l’agente ottiene risultati positivi riceve una ricompensa o reward.
64
Q

Nelle SVM non lineari cosa si intende per kernel? Quali sono i kernel più utilizzati?

A
  • SVM prevede un’importante estensione della teoria inizialmente sviluppata per iperpiani, al caso (non lineare) di separazione dei pattern con superfici anche molto complesse. Tutto ciò avviene in modo molto semplice:
    • Viene definito un mapping Φ non lineare dei pattern dallo spazio di partenza R𝑑 verso uno spazio R𝑚 a più alta dimensionalità (𝑚 > 𝑑)
    • Nello spazio R𝑚, dove maggiori sono i gradi di libertà, i pattern Φ 𝐱1 , Φ 𝐱2 , … Φ 𝐱𝑛 possono essere più facilmente separati da un iperpiano.
  • Kernel più utilizzati:
    • Polinomio di grado 𝑞 (iperparametro):
    • Radial Basis Function (RBF) di ampiezza 𝜎 (iperparametro)
    • Sigmoid (meno utilizzato)
65
Q

Come opera un livello di pooling in una CNN?

A
  • Un livello di pooling esegue un’aggregazione delle informazioni nel volume di input, generando feature map di dimensione inferiore. Obiettivo è conferire invarianza rispetto a semplici trasformazioni dell’input mantenendo al tempo stesso le informazioni significative ai fini della discriminazione dei pattern.
  • L’aggregazione opera (generalmente) nell’ambito di ciascuna feature map, cosicché il numero di feature map nel volume di input e di output è lo stesso. Gli operatori di aggregazione più utilizzati sono la media (Avg) e il massimo (Max): entrambi «piuttosto» invarianti per piccole traslazioni. Questo tipo di aggregazione non ha parametri/pesi da apprendere
66
Q

Nel classificatore SVM cosa sono i support vectors?

A

I pattern del training set che giacciono sul margine sono detti support vector. Tali pattern, che costituiscono i casi più complessi, definiscono completamente la soluzione del problema, che può essere espressa come funzione di solo tali pattern, indipendentemente dalla dimensionalità dello spazio 𝑑 e dal numero 𝑛 di elementi in TS

67
Q

Qual è l’obiettivo delle tecniche di riduzione di dimensionalità?

A
  • Obiettivo dei metodi per la riduzione di dimensionalità (dimensionality reduction) è quello di eseguire un mapping dallo spazio iniziale R𝑑 a uno spazio di dimensione inferiore R𝑘, 𝑘 < 𝑑.
  • Può essere vista come una forma di compressione (con perdita di informazione). Obiettivo è scartare le informazioni non rilevanti o meno rilevanti per il problema di interesse
  • Riduzione di dimensionalità non significa mantenere alcune «dimensioni» e cancellarne altre, ma «combinare» le dimensioni in modo opportuno.
68
Q

Come si imposta un problema di multiple linear regression? Come sono popolati X, y e β?

A
  • Y: vettore contenente uno scalare per ogni pattern
  • X: matrice rettangolare in cui ogni riga è un pattern del TS
  • Beta: vettore dei termini noti
69
Q

Perché le recenti reti neurali deep sono più efficaci delle MLP a tre livelli?

A
  • L’organizzazione gerarchica consente di condividere e riusare informazioni (un po’ come la programmazione strutturata). Lungo la gerarchia è possibile selezionare feature specifiche e
    scartare dettagli inutili.
  • BigData: disponibilità di dataset etichettati di grandi dimensioni
  • GPU computing
  • Convolutional Neural Networks (CNN)
70
Q

Descrivere le principali criticità e limitazioni dell’algoritmo di Clustering K-means.

A
  • Richiede in input il numero di cluster (𝑠) e una soluzione iniziale. Produce buoni risultati a patto di fornire una ragionevole soluzione iniziale e un numero adeguato di classi.
  • Il tipo di ottimizzazione è iterativa e locale; pertanto il metodo può convergere a massimi locali della soluzione.
  • Identifica cluster iper-sferici nel caso in cui venga utilizzata la distanza euclidea come misura di distanza tra i pattern o cluster iper-ellissoidali nel caso di distanza di Mahalanobis.
  • Minimizzando le distanze dai centroidi, K-means non è in grado di identificare cluster dalla
    forma non sferica.
71
Q

Nell’ambito di CNN, che cosa si intende per connessioni locali e condivisione di pesi?

A
  • processing locale: i neuroni sono connessi solo localmente ai neuroni del livello precedente. Ogni neurone esegue quindi un’elaborazione locale. Forte riduzione numero di connessioni.
  • Pesi condivisi: i pesi sono condivisi a gruppi. Neuroni diversi dello stesso livello eseguono lo stesso tipo di elaborazione su porzioni diverse dell’input. Forte riduzione numero di pesi.