RIDUZIONE DELLA DIMENSIONALITA' Flashcards

1
Q

Cos’è la riduzione della dimensionalità?

A

Molti problemi di ML coinvolgono milioni di features per ogni istanza di training. Questo problema è indicato come maledizione della dimensionalità. Possiamo ridurre la dimensionalità ma potremmo perdere alcune informazioni. Questa processo può essere utili per:
- Rendere i modelli più facili da interpretare
- Prevenire l’overfitting, perché se avessimo molte caratteristiche il modello si adatterà troppo ai dati di training e non generalizzerà bene sui dati nuovi
- Riduzione della complessità
Ci sono 2 approcci principali per ridurre la complessità:
- Proiezione
- Manifold learining

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Proiezione

A

si tenta di ridurre la dimensionalità dei dati proiettandoli su un sottospazio di dimensione inferiore. Questo spazio può essere definito da una combinazione lineare delle variabili originali.
Un esempio comune di proiezione è l’Analisi delle Componenti Principali (PCA), che cerca di trovare la combinazione lineare delle variabili originali che massimizza la varianza dei dati proiettati. In altre parole, PCA cerca un insieme di assi lungo i quali i dati variano di più, e proietta i dati su questi assi.
Vantaggi: efficiente con i dati lineari
Svantaggio: non funzione bene con dati non lineari

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Manifold learning

A

l manifold learning è un approccio più flessibile che cerca di catturare la struttura intrinseca o la geometria dei dati. Si basa sull’assunzione che molti insiemi di dati ad alta dimensionalità siano raggruppati intorno a una struttura geometrica di dimensione inferiore chiamata manifold (o varietà). L’obiettivo è di trovare una rappresentazione di bassa dimensionalità che preservi la struttura del manifold.
Costoso computazionalmente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

PCA

A

Cerca un insieme di assi(iperpiano) lungo i quali i dati variano di più, e proietta i dati su questi assi.
Gli assi sono chiamati componenti principali. Come lo fa:
- è prima necessario calcolare la matrice di covarianza dei dati, fornisce informazioni sulla relazione tra le variabili nei dati.
- si effettua la decomposizione della matrice di covarianza. PCA utilizza una tecnica chiamata decomposizione ai valori singolari (SVD) per scomporre la matrice di covarianza in un insieme di componenti principali.
- Infine, i dati originali vengono proiettati sul nuovo spazio delle componenti principali.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly