Aula 15: Redução de dimensionalidade 1 - PCA Flashcards
Redução de dimensionalidade
Dado um dataset com d features, busca-se aplicar uma transformação de forma a reduzir a quantidade de features (0 < k <= d).
Tal transformação deve reter o máximo de informação possível das features originais.
ϕ e ϕ⁻¹
ϕ: comprimir
ϕ⁻¹: descomprimir (o que se tem é uma aproximação de x^i)
Motivação para a redução de dimensionalidade
Se houver muitas features o treinamento pode ser lento
Se d > 3 não é possível visualizar o dataset em um único gráfico
Propriedades do PCA
Produz uma representação do dataset em baixa dimensionalidade. Para tanto, é encontrado uma sequência de k combinações lineares das variáveis.
As informações não usadas são perdidas.
Estruturas não lineares nos dados são esquecidos
z1
primeiro componente principal
ϕ_1 e ϕ_2
ϕ_1 é conhecido com loading vector do primeiro componente principal e indica sua direção.
ϕ_2 é ortogonal (perpendicular) à direção de ϕ_1.
PCA: o valor de k
A sequência das k combinações lineares é construída de tal forma que a combinação j tem duas propriedades: tem variância máxima (pelo menos 99% da variância é retida) e não está correlacionada com as combinações anteriores.
O método do cotovelo é usado para estimar o valor de k.
Como encontrar os componentes principais?
Todos os componentes principais podem ser encontrados através da decomposição em valores singulares (SVD ou Single Value Decomposition)
É assumido que cada feature…
É assumido que cada feature tem média zero, caso contrário pode-se performar a normalização média.
Desvantagem do PCA para visualização dos dados
Estruturas não lineares nos dados são negligenciados. Tais não linearidades podem ser relevantes para um agrupamento adequado dos pontos, pontos esses que são similares na representação em alta dimensionalidade e separação de pontos não similares