Aula 14: Clusterização 2 - Métodos Hierárquicos Flashcards
Clusters podem ser conjuntos disjuntos ou…
…ou podem ser organizados de maneira hierárquica.
Ex.: taxonomia, geografia, astronomia ou biologia.
Abordagens para a clusterização hierárquica
Aglomerativa (Single Linkage): Agrupa os primeiros pares que estão próximos de si.
Divisiva (Complete Linkage): Desagrupa os primeiros pares que estão distantes de si
Formalização da clusterização aglomerativa
Considerando a sequência de partições dos N pontos para os clusters, temos que:
- A primeira partição contém N clusters, cada um com um ponto
- A segunda partição contém N-1 clusters (um cluster com dois pontos e o restante com somente um)
- A k-ésima partição contém N-k+1 clusters
O que é necessário para a implementação da clusterização aglomerativa
Para implementar a clusterização aglomerativa precisa-se de duas coisas:
- A métrica de distância (Euclidiana ou índice Jaccard)
- Critério de aglomeração que pode ser a distância média entre os centróides dos clusters, combinação de dois clusters com o par mais próximo de elementos externos (single linkage) ou a combinação de dois clusters com os elementos mais distantes entre si (complete linkage)
Clusterização de matrizes N x d
Organizando um conjunto de N pontos de dimensão d em uma matriz N x d, então pode-se aplicar dois procedimentos de clusterização hierárquicos.
- Primeiro se clusteriza os N ponto de dados (linhas);
- Então é aplicado a clusterização hierárquica na matriz transposta, ou seja, nessa clusterização temos d pontos, cada um com dimensionalidade N.
O resultado obtido é melhor visualizado através de um mapa de calor.
Clusterização Divisiva
É uma abordagem Top-Down ao invés de Bottom-Up.
Durante as iterações é necessário encontrar a melhor partição entre os clusters.
Complexidade temporal dos diferentes métodos
k-means: O(N²)
Clusterização aglomerativa: O(N³), muito lento para datasets grandes
Clusterização divisiva: O(2^N) (sem heurísticas). Uma possível heurística seria rodar k-means, com k=2 no cluster para dividir em duas partes disjuntas.
Algumas observações sobre clusterização
- O procedimento de clusterização é dependente do contexto;
- Não há uma escolha correta de hiperparâmetros;
- Scaling features podem afetar os clusters.