Aula 16: Redução de dimensionalidade - t-SNE Flashcards
t-SNE
t-Distributed Stochastic Neighbor Embedding é um algoritmo popular para a redução de dimensionalidade não linear
t-SNE princípios básicos
É incorporado todos os pontos d dimensionais em 2D ou 3D de tal modo que pontos similares estão bem próximos de si e pontos não similares estão bem distantes por uma alta probabilidade.
Funcionamento do t-SNE
É construído uma distribuição de probabilidade sobre os pares de pontos no espaço d dimensional de forma que os pares semelhantes recebam uma probabilidade maior e os dissemelhantes uma menor probabilidade.
Em seguida é definido uma distribuição de probabilidade sobre os pares de pontos na dimensão espacial 2D ou 3D para tentar minimizar a diferença entre esta distribuição e a de dimensão d.
Perplexidade (hiperparâmetro)
É aproximadamente uma medida suave do número efetivo de vizinhos. Uma busca binária é feita nos valores para encontrar o valor de perplexidade definido pelo usuário (geralmente entre 5 e 50);
Como medir semelhanças entre pontos no conjunto de dados no mapa?
Para medir semelhanças entre pontos no conjunto de dados no mapa é usado a Student t-distribution de cauda longa com um grau de liberdade. Usando esta distribuição, em vez da gaussiana permite que pontos diferentes sejam colocados distantes no mapa.
Uma maneira de medir similaridade entre distribuições
Pela divergência Kullback-Leiber (KL)
Essa divergência mede como uma distribuição P é diferente da distribuição de probabilidade de referência Q.
O que é a KL?
É a função objetiva que se deseja minimizar. Para isso é usado o algoritmo de gradiente descendente que depende do α e o nº de passos. As comparações pareadas entre os N pontos custam O(N²). As aproximações do gradiente podem ser usadas para acelerar ou até mesmo viabilizar a execução;
Comparação entre o PCA e o t-SNE
Comparando o PCA e o t-SNE, o PCA é considerado determinístico enquanto o t-SNE não é. A complexidade computacional do t-SNE é maior em comparação com o PCA.
A interpretabilidade dos embeddings é melhor para o t-SNE em comparação com o PCA. Essas comparações nem sempre se aplicam para métodos de redução de dimensionalidade lineares vs não linerares.