Segmentação (Clustering) Flashcards

1
Q

O que é a Segmentação?

A

A Segmentação (ou Clustering) de dados é um processo através do qual se particiona um conjunto de dados em segmentos (ou clusters) de menor dimensão, que agrupam conjuntos de dados similares.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O que é um cluster?

A

Um segmento é uma coleção de valores/objetos que são similares entre si quando dentro do mesmo segmento, porém são diferentes dos valores/objetos de outros clusters.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quando é que a deteção de segmentos se mostra útil?

A
  • Quando se suspeita da existência de agrupamentos “naturais”, que podem representar objetos que partilhem informação.
  • Quando existam muitos padrões diferentes nos dados, dificultando a tarefa de identificar um determinado padrão (a criação de segmentos semelhantes reduz a complexidade do problema).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Que tipos de dados para análise existem?

A
  • Atributos contínuos
  • Atributos binários
  • Atributos nominais
  • Atributos ordinais
  • Atributos mistos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Os atributos binários podem ser classificados em:

A
  • Simétricos: significado de ser 0 é o mesmo de ser 1

- Assimétricos: significado de ser 0 é diferente de ser 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quais são os principais métodos de segmentação? Descreva-os brevemente.

A
  • Particionamento: trata de criar partições e adotar um critério de avaliação
  • Hierarquização: trata de decompor hierarquicamente o conjunto de dados
  • Existem ainda outros baseados na densidade e baseados no modelo
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quais são os métodos heurísticos dos algoritmos de particionamento? Como funcionam?

A
  • k-means: cada segmento é representado pelo centro do segmento (centroid)
  • k-medoids: cada segmento é representado por um dos elementos do segmento (medoid)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Descreva os passos a tomar quando é usado o método k-means, sendo dado k como número de segmentos:

A
  1. Dividir os objetos em k subconjuntos não vazios
  2. Calcular o centro de cada segmento (centroid)
  3. Atribuir cada objeto ao centroid mais próximo
  4. Voltar ao ponto 2 até não haverem mais possibilidades de atribuição
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais as vantagens do Método k-means?

A
  • Relativamente eficiente

- Termina com ótimos locais

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quais as desvantagens do método k-means?

A
  • Aplicável apenas quando é possível calcular a média (mean)
  • É necessário identificar o número de segmentos a priori
  • Incapacidade de lidar com ruído nos dados
  • Inadequado para determinar segmentos côncavos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quais as vantagens do método k-medoids?

A
  • É mais robusto do que o método k-means na presença de dados ruidosos, uma vez que os objetos selecionados são menos influenciáveis por valores extremos do que a média
  • Produz bons resultados para conjuntos de dados de pequenas dimensões
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qual a desvantagem do Método k-medoids

A
  • Não se comporta tão bem quando se pretende a sua aplicação em conjuntos de dados de grande dimensões
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quais são os tipos de algoritmos de hierarquização? E que estratégia utiliza cada um?

A
  • Aglomeração ou AGNES (Agglomerative Nesting): estratégia bottom-up
  • Divisão ou DIANA (Divisive Analysis): estratégia top-down
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Como funciona o método de hierarquização de Aglomeração?

A
  • Inicia-se formando segmentos com um objeto, para todos os objetos
  • Prossegue juntando segmentos atómicos em segmentos cada vez mais amplos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Como funciona o método de hierarquização de Divisão?

A
  • Inicia-se com todos os objetos em um só segmento que se vai subdividindo em segmentos de menos dimensão
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quais as vantagens da realização de Segmentação Hierárquica?

A
  • Não é necessário especificar o número de segmentos ‘k’; basta “cortar” a árvore no nível ‘k-1’;
  • Produz melhores resultados do que os algoritmos k-means;
  • Uma hierarquia traduz alguma organização dos segmentos, ao contrário de um simples conjunto de segmentos
17
Q

Qual a desvantagem de Segmentação Hierárquica?

A
  • Dificuldades com o aumento de atributos ou de objetos, ou seja, à medida que aumentam os objetos a agrupar, aumenta o tempo necessário para procurar tais grupos