Segmentação (Clustering) Flashcards
O que é a Segmentação?
A Segmentação (ou Clustering) de dados é um processo através do qual se particiona um conjunto de dados em segmentos (ou clusters) de menor dimensão, que agrupam conjuntos de dados similares.
O que é um cluster?
Um segmento é uma coleção de valores/objetos que são similares entre si quando dentro do mesmo segmento, porém são diferentes dos valores/objetos de outros clusters.
Quando é que a deteção de segmentos se mostra útil?
- Quando se suspeita da existência de agrupamentos “naturais”, que podem representar objetos que partilhem informação.
- Quando existam muitos padrões diferentes nos dados, dificultando a tarefa de identificar um determinado padrão (a criação de segmentos semelhantes reduz a complexidade do problema).
Que tipos de dados para análise existem?
- Atributos contínuos
- Atributos binários
- Atributos nominais
- Atributos ordinais
- Atributos mistos
Os atributos binários podem ser classificados em:
- Simétricos: significado de ser 0 é o mesmo de ser 1
- Assimétricos: significado de ser 0 é diferente de ser 1
Quais são os principais métodos de segmentação? Descreva-os brevemente.
- Particionamento: trata de criar partições e adotar um critério de avaliação
- Hierarquização: trata de decompor hierarquicamente o conjunto de dados
- Existem ainda outros baseados na densidade e baseados no modelo
Quais são os métodos heurísticos dos algoritmos de particionamento? Como funcionam?
- k-means: cada segmento é representado pelo centro do segmento (centroid)
- k-medoids: cada segmento é representado por um dos elementos do segmento (medoid)
Descreva os passos a tomar quando é usado o método k-means, sendo dado k como número de segmentos:
- Dividir os objetos em k subconjuntos não vazios
- Calcular o centro de cada segmento (centroid)
- Atribuir cada objeto ao centroid mais próximo
- Voltar ao ponto 2 até não haverem mais possibilidades de atribuição
Quais as vantagens do Método k-means?
- Relativamente eficiente
- Termina com ótimos locais
Quais as desvantagens do método k-means?
- Aplicável apenas quando é possível calcular a média (mean)
- É necessário identificar o número de segmentos a priori
- Incapacidade de lidar com ruído nos dados
- Inadequado para determinar segmentos côncavos
Quais as vantagens do método k-medoids?
- É mais robusto do que o método k-means na presença de dados ruidosos, uma vez que os objetos selecionados são menos influenciáveis por valores extremos do que a média
- Produz bons resultados para conjuntos de dados de pequenas dimensões
Qual a desvantagem do Método k-medoids
- Não se comporta tão bem quando se pretende a sua aplicação em conjuntos de dados de grande dimensões
Quais são os tipos de algoritmos de hierarquização? E que estratégia utiliza cada um?
- Aglomeração ou AGNES (Agglomerative Nesting): estratégia bottom-up
- Divisão ou DIANA (Divisive Analysis): estratégia top-down
Como funciona o método de hierarquização de Aglomeração?
- Inicia-se formando segmentos com um objeto, para todos os objetos
- Prossegue juntando segmentos atómicos em segmentos cada vez mais amplos
Como funciona o método de hierarquização de Divisão?
- Inicia-se com todos os objetos em um só segmento que se vai subdividindo em segmentos de menos dimensão