Unsupervised learning Flashcards
Dimensionality reduction cos’è e a cosa serve? vantaggi?
• Comprime i dati di input riducendo la dimensionalità delle features,
conservando quante più informazioni possibili.
• Ciò riduce i tempi di elaborazione e/o memorizzazione dei dati
• Permette una migliore visualizzazione dei dati
Metodi shallow, come faccio a fare dimentionality reduction?
PCA
PCA
- Trova le direzioni ortogonali di maggior varianza
- Cambia il sistema di coordinate
- Cancella le features con minor varianza
k-means
- Fisso un numero k di cluster
- Partizionare i dati in k set minimizzando la variazione di ciascuno
- Ciclo:
- Calcolare i k centroidi
- Assegnare i punti al centroide più vicino
- Convergenza garantita anche se di un minimo locale
come EM migliora k-means (expectation maximization)
- Usa cluster ellittici
* È un’algoritmo di clustering SOFT
normalizzazione, perchè è importante normalizzare le features prima di darle a k-means?
• La normalizzazione è necessaria in caso di dati con scale differenti
Density estimation, esempio di modello per farlo
- VAE (esplicito)
* GAN (implicito)
mi scrive la loss del K-Means?
• Minimizzare la varianza di ogni set
K-means converge? come funziona l’algoritmo di K-means
- Inizia con acluni centri di cluster iniziali
- Itera:
- Assegna ad ogni esempio il centro più vicino
- Ricalcola i centri come media degli esmpi del cluster
Come si misura la distanza tra i punti in k-means?
• Distanza euclidea
PCA, come calcolo la FPC con l’eigenvalue decomposition?
risposta
differenza tra k means e hierarchical clustering
• Produce una serie di cluster annidati organizzati come un albero gerarchico chiamato dendrogramma
Quali altri problemi ci sono in unsupervised learning?
- Density estimation
- Dimensionalitu reduction
- Clustering
Perché in K-means ogni tanto la distanza euclidea non è la migliore scelta?
- Ci possono essere dati con una grande distanza ma con una distribuzione simile
- In quel caso conviene utilizzare cosine similarity