Föreläsning 7 - klusteranalys Flashcards

1
Q

Vad är klusteranalys?

A

En metod som försöker dela in case (objekt, observationer, svar från en respondent) i grupper så att de inom gruppen har saker gemensamma men skiljer sig från andra grupper.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vad är klustervariabler?

A

Det som tänkts använda för att segmentera case.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vad finns det för typiska klustervariabler?

A

Demografiska, geografiska, socioekonomiska, livsstil, beteendemönster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

När man väljer klustervariabler bör man se över följande:

A
  • Skiljer sig värden på variablerna (som mäts, tex pris, produktkvalitet) markant mellan varandra? Klustrerna får inte säga samma sak, då är det inget kluster. Dessutom, variablerna som mäts ska korrelera med någon slags variabel som man vill förklara = criterion vailidity.
  • Klustervariablerna får inte korrelera.
  • Urvalet ska vara tillräckligt stort.
  • Datat ska hålla en hög kvalitet.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vilka tre klustringsmetoder finns?

A

Hierarkisk
Partitionerande klustring
Tvåstegsklustring

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Beskriv hierarkisk klustring.

A

För att dela in objekt i kluster används det kortaste avståndet för att definiera likhet.

För att fortsätta processen måste linkage algoritm bestämmas, som avgör avståndet mellan kluster.

Genom distans matrisen sätts objekt samman utefter kortast avstånd. Därefter bildas en ny matris, med det nya klustret. För att bestämma avståndet som detta nya kluster har till varje objekt används algoritmen.

När den nya matrisen är klar delas objekt på nytt in utefter kortast avstånd. (ett objekt i taget).

Ny matris…

Processen fortskrider tills dess att alla objekt är indelade i ett stort kluster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vilka olika typer av linkage algoritmer finns?

A

Single - kortast avstånd mellan vilka två objekt som helst i klusterna.
Complete - längst avstånd
Average - genomsnittligt mellan alla objekt.
Centroid - genomsnittligt värde av de ingående objekten i klustret.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hur bestäms antal kluster med en hierarkisk metod?

A

Genom att inspektera dendogram, armbågsdiagram eller VRC.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Beskriv partitionerande klustring.

A

Börjar med att precisera antal kluster som ska extraheras från datat innan. Objekt tilldelas kluster på måfå och ett center beräknas för varje kluster.

Euklidiska avstånd beräknas från kluster center till varje objekt. Varje objekt tilldelas kluster utifrån kortast avstånd till center.

Varje klusters center beräknas på nytt (medelvärdet av alla case).

Avstånd från varje objekt till nytt center beräknas, och varje objekt tilldelas återigen kluster utifrån minsta avstånd. Om inget objekt byter kluster stoppa!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Beskriv tvåstegsklustring.

A

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vilka delar bör ses över för att validera och tolka lösningen så att den är användbar?

A

Stabilitet - olika metoder ska skapa samma kluster. Görs genom att applicera olika klustringsmetoder och se om skillnader uppstår.
Datadifferentiering - de olika klusterna ska uppvisa skillnader på variablerna, testa med t-test eller ANOVA.
Profilering - identifiera observerbara variabler som bäst speglar uppdelningen av objekt, så att man vet var ett nytt objekt ska tilldelas för kluster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Det är vanligt att det ändras lite mellan metoder (stabilitet), men vilken tumregel brukar nyttjas?

A

Mer än 20 % borde inte ändras, procenten ökar dock med ökat antal kluster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly