Riduzione della dimensionalità Flashcards
Cos’è la riduzione della dimensionalità?
La riduzione della dimensionalità è un concetto fondamentale nell’ambito dell’analisi dei dati e dell’apprendimento automatico. Si riferisce al processo di riduzione del numero di attributi (o dimensioni) presenti in un insieme di dati senza perdere una quantità significativa di informazioni rilevanti. In altre parole, si tratta di semplificare la rappresentazione dei dati mantenendo le caratteristiche più importanti.
Nell’analisi dei dati, spesso ci si trova di fronte a set di dati ad alta dimensionalità, cioè dati con un gran numero di attributi. Questo può portare a vari problemi come la “maledizione della dimensionalità”, dove la densità dei dati nello spazio aumenta con l’aumentare delle dimensioni, rendendo più difficile l’analisi e l’interpretazione dei dati. Inoltre, modelli di apprendimento automatico addestrati su dati ad alta dimensionalità possono diventare complessi e soggetti a overfitting, cioè possono imparare a rappresentare rumore invece di pattern significativi nei dati.
La riduzione della dimensionalità può essere ottenuta in due modi principali:
Riduzione della dimensionalità lineare: Questo approccio coinvolge la proiezione dei dati da uno spazio ad alta dimensione a uno spazio a dimensione inferiore. Un esempio noto è l'analisi delle componenti principali (PCA), che trova le direzioni lungo le quali i dati hanno la massima varianza e proietta i dati su queste direzioni. Questo può essere utile per catturare le principali variazioni nei dati. Riduzione della dimensionalità non lineare: Questo tipo di riduzione della dimensionalità tiene conto delle relazioni complesse e non lineari tra le variabili. Metodi come t-SNE (t-distributed Stochastic Neighbor Embedding) o UMAP (Uniform Manifold Approximation and Projection) sono esempi di questa categoria. Sono spesso utilizzati per la visualizzazione dei dati in uno spazio bidimensionale o tridimensionale in modo da preservare le relazioni tra i punti.
Cos’è il Manifold Learning?
Il Manifold Learning (apprendimento di varietà o varietà geometrica) è un approccio nell’ambito dell’apprendimento automatico e dell’analisi dei dati che mira a catturare la struttura intrinseca e complessa dei dati che possono essere rappresentati come varietà o manifolds all’interno di uno spazio di dimensioni superiori.
In parole semplici, i dati spesso esistono in spazi multidimensionali, ma possono essere intrinsecamente organizzati su strutture più basse, come curve o superfici all’interno di queste dimensioni. Il Manifold Learning cerca di scoprire queste strutture sottostanti e rappresentarle in uno spazio a dimensione inferiore in modo che possano essere meglio visualizzate, analizzate o utilizzate per compiti di apprendimento automatico.
Cos’è e come funziona il PCA?
L’Analisi delle Componenti Principali (PCA, Principal Component Analysis) è una tecnica di riduzione della dimensionalità ampiamente utilizzata nell’ambito dell’analisi dei dati e dell’apprendimento automatico. L’obiettivo principale del PCA è quello di trasformare un insieme di dati iniziale, rappresentato da un certo numero di attributi (variabili), in un nuovo sistema di coordinate in cui le nuove variabili (chiamate componenti principali) sono disposte in ordine decrescente di varianza.
Il processo di PCA è il seguente:
Standardizzazione dei dati: Se le variabili iniziali hanno scale diverse, è importante standardizzare i dati in modo che abbiano media zero e deviazione standard uno. Questo passo assicura che tutte le variabili siano comparabili tra loro. Calcolo della matrice di covarianza: Si calcola la matrice di covarianza dei dati standardizzati. Questa matrice cattura le relazioni tra le diverse variabili e indica quanto le variazioni delle variabili sono correlate. Calcolo degli autovalori e autovettori: Si calcolano gli autovalori e gli autovettori della matrice di covarianza. Gli autovettori rappresentano le direzioni lungo le quali i dati hanno la massima varianza, e gli autovalori rappresentano la varianza lungo ciascuna di queste direzioni. Selezione delle componenti principali: Le componenti principali sono gli autovettori normalizzati associati agli autovalori più alti. In pratica, è possibile selezionare un numero di componenti principali che catturino una percentuale significativa della varianza totale (ad esempio, il 95% o il 99%). Proiezione dei dati: I dati vengono proiettati sulle componenti principali selezionate per ottenere una nuova rappresentazione a dimensione inferiore dei dati. Questa rappresentazione è composta dalle nuove variabili, ovvero le componenti principali