Klasterovanje Flashcards

1
Q

Sta je klasterovanje?

A

Извршити поделу датог скупа обjеката X = {x1 , x2 , …, xn } на групе
(подскупове) тако да jе обjекат xi коjи припада групи Gl сличниjи по
неком критериjуму обjектима xj коjи припадаjу (истоj) групи Gl него
неком обjекту xk коjи припада некоj другоj групи Gm . Свака од група
G се назива кластер, а целокупан поступак поделе улазног скупа
кластеровање.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Sta utice na izbor metode klasterovanja?

A

Избор методе кластеровања и мере помоћу коjе се рачуна сличност у великоj
мери зависе од типа податка коjе треба кластеровати. Такође, у великом броjу
случаjева ниjе до краjа jасно дефинисано шта све могу да буду целине коjе
представљаjу кластере, тако да jе честа недоумица да ли jе броj кластера коjи се
добиjе као резултат коректан.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Sta je klaster analiza?

A

Проналажење група обjеката таквих да су обjекти у групи међусобно слични (или повезани), и да су обjекти у различитим групама међусобно различити (или неповезани)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Sta jeste a sta nije klaster analiza ?

A

Припадност обjеката (елемената) jедном кластеру не значи да су
елементи међусобно слични по свим критериjумима
Не представља свака подела материjала у групе кластер анализу.
-Класификациjа под надзором
-Jедноставна подела
-Резултат упита

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Tipovi klasterovanja

A

1.Екслузивно/неекслузивно кластеровање, у зависности од тога да ли
поjединачни елемент коjи се кластеруjе припада само jедном (ексклузивно)
или може истовремено да се налази у више кластера (неексклузивно
кластеровање)
2.Расплинуто/нерасплинуто кластеровање. У расплинутом кластеровању
елемент припада сваком кластеру са неком тежином између 0 и 1, при
чему jе збир тежина елемента у свим кластерима jеднак 1

3.Делимично/комплетно кластеровање у зависности од тога да ли се
кластеруjе само део података или комплетан скуп

4.Хетерогено/хомогено кластеровање. Ако су кластери различите
величине, облика и/или густине тада се кластеровање назива нехомогено.

5.Код партиционог кластеровања скуп улазних података се дели у непреклапаjуће
подскупове (кластере) такве да сваки податак припада тачно jедном кластеру

6.У случаjу да кластери могу да садрже (угнеждене) кластере, тада jедан елемент
може да припада више кластера на различитим нивоима хиjерархиjе -
хиjерархиjско кластеровање

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Tipovi klastera

A

1.Добро раздвоjени кластери (енг. well-separated)
Карактеристика добро раздвоjених кластера jе да им припадаjу
елементи такви да су ближе било ком другом елементу у кластеру
него осталим елементима коjи нису у кластеру, при чему се често
поставља праг за максималну удаљеност елемената у истом кластеру.
Оваj случаj се jавља само код природно раздвоjених кластера.

2.Кластери засновани на центру (енг. center-based,prototype-based)
Кластер jе скуп обjеката таквих да jе било коjи обjекат у кластеру
ближи (или више сличан) прототипу (“центру”) кластера у односу на
прототипове (центре) осталих кластера. Центар кластера jе често
центроид (просек свих тачака у кластеру) или медоид
(наjрепрезентативниjа тачка у кластеру)

3.Кластери засновани на графовима
Ако су елементи представљени као чворови повезаног графа, тада кластери могу да буду скупови обjеката коjи су међусобно повезани, али нису повезани са обjектима ван групе, односно коjи припадаjу изолованом
подграфу.

4.Кластери засновани на суседству (енг. contiguous based clusters)
Кластери засновани на суседству представљаjу врсту кластера заснованих на графовима код коjих два елемента припадаjу истом кластеру акко су на
растоjању коjе jе мање од унапред дефинисаног прага. Последица оваквог услова jе да за сваки елемент коjи припада овом типу кластера постоjи елемент из истог кластера коме jе он ближи него било ком елементу коjи припада другом кластеру.

5.Кластери засновани на густини (енг. density-based)
Кластери су области са великом густином тачака коjе су раздвоjене областима са малом густином тачака. Ова карактеристика кластера се користи када су кластери неправилни или испреплетени, и када су присутни шум или елементи ван граница.

6.Концептуални кластери/кластеровање на основу заjедничких особина (енг. conceptual clusters)
Оваj тип кластера се добиjа када се кластер дефинише као скуп елемената коjи имаjу исту заjедничку карактеристику. Иако ова дефинициjа обухвата велики броj претходно наведних дефинициjа кластера, постоjе случаjеви када заjедничка особина не може да се изрази преко уобичаjених мера. Тако на претходноj слици, заjедничка особина елемената jе њихов облик.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Algoritmi zasnovani na reprezentnim predstavnicima

A

Основни принцип: За скуп од n тачака X1 , X2 , …, Xn у d
димензионом простору циљ jе пронаћи k репрезентативних тачака
Y1 , Y2 , … Yk , где jе k коjе минимизуjу циљну функциjу
O =∑ [minj Dist(Xi , Yj )]
x где Dist(A, B) функциjа растоjања

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Algoritam K-sredina

A

Алгоритам k-средина jе jедан од два (поред k-медиjана)
наjзначаjниjа представника модела са прототипом. У овом алгоритму
се прототип дефинише као центроид.
За разлику од алгоритама кластеровања коjи интерно одређуjу
наjбољи броj кластера, алгоритам k-средина захтева да се броj
кластера k наведе унапред. Алгоритам се извршава тако што се
инициjално свака тачка додељуjе кластеру са наjближим центроидом.
У наредном кораку се врши израчунавање нових центроида, и
ре-израчунавање припадности сваке тачке поjедином кластеру.
-За одређивање растоjања могу да се користе различите
мере (обрађене у уводном делу курса!).
-Алгоритам конвергира за поменуте мере, при чему се
наjвећи део конвергенциjе дешава у првих неколико
итерациjа
-Као услов заустављања алгоритма се задаjе броj тачака
коjе промене кластер у одређеноj итерациjи. Ако jе броj
тачака коjе промене кластер мањи од задатог прага,
алгоритам страjе.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

nedostatak K-sredina

A

Jедан од недостатака методе jе често бирање почетних
центроида на случаjан начин. Резултат оваквог начина
избора jе добиjање кластера коjи могу да се разликуjу од
’природних’ кластера, односно добиjање
незадовољаваjућих резултата

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Kako se procenjuje kvalitet dobijenih klastera

A

За податке у Еуклидском простору се
наjчешће као мера користи збир квадрата грешака (енг. sum of
squared errors, SSE ).
SSE = ∑ ∑dist(ci , x)^2

Jедан од начина за смањење SSE jе повећање броjа кластера k
Добро кластеровање са малим k може да има мању SSE
грешку од лошег кластеровања са великим k

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Klasterovanje dokumenata k-sredinom

A

За документе се као мера користи косинусно растоjање
Подаци се представљаjу преко матрице термова
Степен сличности докумената у кластеру са центроидом се
назива кохезиjа кластера

Аналогон SSE у случаjу кластеровања текстуалних
докумената jе укупна кохезиjа коjа се израчунава као

Ukupna kohezija = ∑ ∑ cosinus(ci , x)
i=1 x∈C

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Sta je suboptimalno klasterovanje?

A

У групу некоректних резултата спада и тзв. суб-оптимално
кластеровање у ком случаjу jе извршено кластеровање материjала, али ниjе
добиjена глобално већ само локално наjмања вредност SSE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Izbor pocetnih centroida

A

Узастопна извршавања алгоритма : primer u svakom slucajno izabrani centroid bira se onaj sa min SSE

Ако постоjи k ’реалних’ кластера тада jе вероватноћа да се изабере по jедан центроид у сваком од њих релативно мала

Ако jе k велико шанса за добар избор jе мала.
Ако кластери имаjу исту величину n, тада важи:
P = (броj начина за избор центроида у сваком кластеру) /(броj начина за избор к центроида)

#primeni se hijerarhijsko, izaberu pocetni
#primeni se m(m > k) pocetnih centroida i od njih se izabere k dobrih - treba da pokriju sto siri prostor
#postprocesiranje dobijeni rezultata
-uklanjanje elem van granica
- eliminacija malih klastera sa elementima van granice
- podela klastera sa velikim SSE
- grupisanje klastera koji su blizu
#priprema bisekcije k- sredine
- pocetni skup tacaka se podeli u 2,jedan od njih se izabere za dalju podelu i tako sve dok se ne podeli na k klastera
- nacin podele : 1. podela najveceg 2. sa najvecim SSE 3.kombinacije ta 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Rad sa praznim klasterima

A

Основни алгоритам k-средина може да произведе празне кластере
при извршавању. При томе ’празан’ означава да се у том кластеру
налази само центроид, без иjедног елемента.
Стратегиjе за елиминациjу празних кластера укључуjу замену
центроида на неки од следећих начина:
1.Изабрати тачку коjа наjвише учествуjе у SSE
2.Изабрати тачку коjа jе наjдаље од текућих центроида
3.Изабрати тачку из кластера са наjвећим SSE . Оваj начин
обично доводи до деобе кластера
4.Ако има више празних кластера поновити поступак

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Algoritam bisekcije k-sredina

A

Varijanta je algoritma k-sredina koja moze da proizvede particiono ili hijerarhijsko klasterovanje.

Основна идеjа: за добиjање k кластера подели се скуп свих тачака у
два кластера, изабере се jедан од њих за поделу, уз понављање
поступка све док се не добиjе К кластера. Различити начини поделе
кластера су:
1.подели се наjвећи кластер
2.подели се кластер са наjвећим ССЕ
3.користи се критериjум заснован и на величини кластера и на
величини ССЕ-а

Ова метода се често не користи за само кластеровање, већ се
добиjени центроиди користе за улаз у основни К-средина алгоритам
кластеровања!!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

nedostaci i ogranicenja k-sredina

A

1.не функционише за кластере произвољног облика
2.не функционише за кластере различитих густина
3.осетљив jе на елементе ван граница коjи могу да доведу
до jединичних или празних кластера
4.проблем представља одређивање репрезентативних
представника и броjа кластера k

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Dobre strane algoritma k-sredina

A

1.Jедноставност имплементациjе и примене
2.Наjбоље ради са глобуларним подацима
3.Ако се као мера растоjања користи Махаланобисово
растоjање, алгоритам к-средина препознаjе кластере
различитих густина

18
Q

Algoritam k-medijana

A

Алгоритам k-медиjана jе сличан алгоритму k-средина, при чему се
као центроид користи медиjана. Неке карактеристике овог алгоритма
су:
—Користи се растоjање такси блок.
—Показуjе се да репрезентативни представник медиjана података
по свакоj димензиjи кластера Cj
—Мања jе осетљивост на елементе ван граница

У алгортиму k-медоида избор центроида се увек врши из инциjалног
скупа тачака. Иако ниjе оптималан, разлог за овакав избор jе утицаj
елемената ван граница на медиjану, мада jе понекад тешко
израчунати центар за одређене (сложене) типове података. Као и код
k-медиjане и у овом алгоритму се као мера растоjања користи такси
блок.

19
Q

Hijerarhijsko klasterovanje

A

Основна идеjа ове групе алгоритама jе формирање скупа
угнеждених кластера коjи су организовани у облику хиjерахиjе по нивоима.
Резултати ове групе алгоритама се наjчешће визуелизуjу у облику дендограма
или диjаграма са угнежденим кластерима на коме се, поред односа
кластер/подкластер, види и редослед формирања кластера, односно коjа два
подкластера се спjаjу у кластер

20
Q

Algoritmi sakupljajuceg klasterovanja

A

hijerahija se formira odozdo /navise na pocetku se svaka tacka posmatra kao klaster zza sebe i u svakom koraku se spajaju najbliza 2 klastera nekom kriteriju]im dok ne ostane samo 1 klaster
neki algoritmi dopustaju presecanje -ranije zavrsavanje,ako se dodje do unapred zadatog broja klastera ili nivoa hijerarhije
- razlicite mere za rastojanje - Minkovski ..

nedostaci: cuvanje matrice rastojanja,treba je modifikovati ili povezi novi pri formiranju novog klastera

21
Q

Algoritmi razdvajajuceg klasterovanja

A

hijerarhija se formira odozgo/nanize - na pocetku sve tacke pripadaju 1 klasteru koji se u narednim koracima deli sve dok se ne dodje do klastera koji sadrzi samo pojedinacne tacke

22
Q

Slicnost klastera

A
  1. min veza( najboja ,najkraca pojedinacna veza)
    - rastojanje klastera je najmanje izmedju bilo koje 2 tacke koje im pripadaju

2.max veza(najgora ,najduza)
-rastojanje je najvece moguce

3.prosecno rastojanje
-tacke koje im pripadaju mogu se ukljuciti i tezinski vaktori,zavise od br. tacaka u klasteru,rastojanje svih tacaka

4.rastojanje izmedju centroida(moze i mediana)
-spajaju se klasteri cije su centroide najblize
-ne pravi se razlika kod spajanja klastera razlicitih velicina ako je rastojanje medju centroidima isto
-posle spajanje se opet racunaju centoidi(moze da se desi da je rastojanje manje na nivou k nego na nivou k-1)

5.minimizuju promenu varijanse
-posle spajanja se menja varijansa deltaSEij = SEij -SEi-SEj

6.Ward-ов метод и коме се уместо вариjансе користи збир квадрата грешака.

Нови кластер се формира од два кластера чиjим спаjањем се добиjа минимално повећање збира квадарата грешака унутар новог кластера. Тако, у општем случаjу грешка E jе jеднака

  K E = ∑ ∑ || xi − ck ||2 k=1xi∈Ck

где jе K броj кластера, и ck центроид кластера Ck добиjеног спаjањем два кластера. Промена се рачуна само за новодобиjени кластер на основу кластера од коjих jе настао и износи

∇Eij = minj ||ci −cj ||2 mi +nj
где mi и nj представљаjу броj тачака у кластерима Ci и Cj .

23
Q

Koje su vrednosti sakupljajuceg klasterovanja

A

-posle kombinovanja klasteri ne mogu da se razdvoje, ovo se resava tako sto radimo particionisano klasterovanje za formiranje manjih klastera na kojima se vrsi hijerarhijsko kasnije

-ne postoji globalna funkcija koja se direktno minimizuje

-u zavisnosti od racunanja rastojanja javljaju se :
#осетљивост на шум и елементе ван граница
#тешкоће у обради кластера различитих величина
#тешкоће у обради неглобуларних кластера
#тенденциjа ка разбиjању великих кластера

24
Q

Lance -williams formula

A

za slicnost klastera

omogucava da se matrica slicnosti azurira kod svakog spajanja tj. ne moraju da se cuvaju originalne tacke

R- dobijen spajanjem A i B (klaster)
P - funkcija slicnosti

slicnost klastera P i Q je:
p(R,Q) = alfaA p(A,Q)+ alfaB p(B,Q)+ alfap p(A,B)+gama(p(A,Q) -p(B,Q))

25
Algoritmi zasnovani na mrezama i gustini
Алгоритми засновани на мрежама и густини се користе када треба одредити регионе (кластере) са високом густином тачака коjи су раздвоjени регионима (кластерима) са мањом густином тачака. Карактеристика ове групе алгоритама jе да ефикасно одређуjу кластер коjи су различитог облика. Основна идеjа jе следећа: 1.Простор се подели на целине (ћелиjе, хиперкоцке) помоћу решетке или граничника другог облика. Добиjене ћелиjе могу да буду правоугаоне, кружне, троугласте, шестогаоне или да имаjу неки други (могуће и неправилан) облик 2.Преброjе се тачке коjе се налазе у некоj ћелиjи C . Уколико jе броj тачака већи од унапред задате величине k, за ту ћелиjу се каже да jе густа 3.Густе ћелиjе коjе имаjу заjедничке ивице или (у ређим случаjевима) заjедничку тачку (нпр. теме хиперкоцке) формираjу кластер. Ретке ћелиjе не припадаjу ни jедном кластеру 4.Од густине линиjа коjе одређуjу мрежу хиперкоцки зависи да ли ће ћелиjа бити густа или ретка
26
DBSCAN
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) алгоритам за задату вредност ε и броj t дели тачке на коjе се примењуjе у три категориjе: 1.Све тачке коjе се налазе на растоjању мањем од ε, тj. припадаjу jезгру неке тачке се смештаjу у исти кластер као и тачка jезгра 2.Тачке на граници се придружуjу истом кластеру као и тачка jезгра на чиjоj се граници налазе. У случаjу да су на граници два кластера тада се доноси одлука коме кластеру припадаjу. 3.Све тачке коjе су шум се одбацуjу prednosti: dobro prepoznaje razlicite oblike mana: kod klastera razlicite gustine,redji mogu biti prepoznati kao sum
27
Provera korektnosti klasterovanja
Провера коректности кластеровања и исправности добиjених кластера (модела) ниjе jедноставан задатак као у случаjу класификациjе где су унапред познати тачан броj и ознаке класа. Приликом кластеровања увек треба имати на уму да Сваки алгоритам кластеровања ће пронаћи кластере у подацима без обзира да ли они заиста постоjе или не. Због тога jе пожељно извршити проверу да ли у материjалу уопште постоjе кластери Не постоjи наjбољи алгоритам кластеровања за поjедини скуп података. Савет jе увек пробати више различитих алгоритама да би се дошло до коректног решења
28
Хопкинсова статистика
Jедна од метода коjом може да се одреди да ли постоjе кластери у подацима без претходног кластеровања Нека jе дат скуп од n тачака коjе треба кластеровати. Да би испитали да ли дати скуп садржи кластер, односно да ли jе погодан за кластеровање, одабрати броj p < n и генерисати p тачака коjе су случаjно распоређене у простору коjе покрива улазни скуп, и изабрати узорак од p тачака из оригиналног скупа од n тачака. За оба скупа од n тачака одредити растоjање сваке тачке до наjближег суседа у оригиналном скупу. Нека су vi и oi растоjања до наjближих суседа тачака из вештачки генерисаног скупа и скупа тачака коjи jе узоркован из оригиналног скупа. Тада се Хопкинсова статистика дефинише као H =∑ oi / (∑ vi + ∑ oi) Ако случаjно генерисане тачке и тачке из узорка имаjу слична растоjања до наjближих суседа, вредност ≈ 0.5. То значи да су подаци наjвероватниjе случаjни и да не постоjи задовољаваjуће кластеровање. Вредност → 1 означава да тачке са великом вероватноћом могу да се групишу у кластере.
29
Unutraslji kriterijumi provere
Наjчешће коришћени критериjуми провере у овом случаjу су: #Мере кохезиjе (компактности) кластера коjе показуjу колико су близу jедно другом елементи истог кластера #Мере раздваjања (изолациjе) кластера коjе показуjу колико су различити кластери међусобно раздвоjени #Однос растоjања у кластеру/ван кластера #Коефициjент сенке (енг. silhouette) #Вероватносна мера
30
Spoljasnji kriterijumi provere
Ова врста критериjума се користи када постоjе тачне информациjе о кластерима у подацима коjи треба да се кластеруjу. У општем случаjу, то ниjе могуће за наjвећи броj реалних скупова података. Изузетак jе случаj када се синтетички подаци генеришу на основу познатих скупова за проверу у ком случаjу jе могуће придружити идентификациjу кластера сваком поjединачном податку улазног скупа. za proveru se najvise koriste: matrica konfuzije, razlicite mere poput: gini, entropija, preciznost
31
Klasterovanje kategorickih podataka
1.Jедан начин конверзиjа у бинарне податке 2.Одређивање центроида за категоричке податке -----хистограм вероватноћа за сваки атрибут ------центроид - категоричка вредност коjа се jавља у наjвећем проценту 3.Рачунање сличности категоричких података 4.К-модално кластеровање За сваки од атрибута се одређуjе модална вредност (вредност са наjвећом фреквенциjом) Модална вредност сваког од атрибута се одређуjе независно у односу на вредности других атрибута због чега одабрана репрезентативна вредност (’центроид’) не мора да припада скупу података к-модално кластеровање може ефективно да се користи ако су вредности категоричких атрибута равномерно распоређене Ако вредности категоричких атрибута нису равномерно распоређене врши се нормализациjа деобом фреквенциjе у кластеру са фреквенциjом у комплетном скупу података
32
postprocesiranje dobijenih rezultata
Dodatne tehnike postprocesiranja koje dovode do poboljsanja rezultata: -eliminacija malih klastera sa elementima van granica -podela klastera sa visokim SSE -integracija klastera koji su blizu i imaju relativno mali SSE
33
1.najkraca(najbolja) i 2.najduza(najgora, kompletna) veza karakteristike zatim 3.prosek rastojanja parova el. iz dva klastera
1.Pogodnost najkrace veze: -moze da obradi ne-elipticke klastere Nedostaci najkrace veze: -osetljivost na sum i elemente van granica 2.Pogodnost najduze veze: -otpornost na sum i elemente van granica Nedostaci najduze veze: -tendencija razbijanja velikih klastera i naginjanje globularnim klasterima 3. kompromis izmedju 1 i 2 pogodnost: manje osetljiv na sum i el. van granica nedostatak: naklonost ka glob. klast.
34
Slicnost klastera, Wardova metoda
слично просеку растоjања парова елемената ако jе мера растоjања квадрат грешке мање jе осетљива на шум и елементе ван граница наклоност ка глобуларним кластерима Хиjерархиjски аналогaн К-средина; може да се користи за инициjализациjу К-средина
35
mera za odredjivanje kohezije tj. kompaktnosti
Као мера за одређивање кохезиjе кластера може се користити Збир квадрата међусобног растоjања тачака у кластеру или збир квадрата растоjања тачака од центроида тог кластера Боље прилагођена алгоритмима коjи су засновани на одређивању растоjања (као k-средина) Мање одговараjу алгоритмима са мрежама и густином Апсолутне вредности растоjања не пружаjу квалитетну информациjу о квалитету самог кластера
36
razdvajanje mera
Као мера раздваjања кластера - збир растоjања између елемената у кластеру и елемената ван кластера, или растоjање центроида кластера
37
odnost rastojanja u klasteru i van klastera???
mrzelo me
38
senka koeficijent
mrzelo me
39
verovatnosna mera
mrzelo me
40
poslednjih 10ak strana valjda ne treba