9. predavanje: Uvod u nendazirano strojno učenje Flashcards
Koji je zadatak kod nenadziranog strojnog učenja?
Dani su podatci X (bez oznaka y) te je potrebno oblikovati funkciju y=f(x) takvu da je jednostavnija reprezemtacija podataka.
Definirati problem grupiranja.
Zadan je skup točaka, zajedno s pojmom udaljenosti između njih potrebno je grupirati točke u neki broj grupa tako da:
a) članovi iste grupe su blizu jedan drugom
b) članovi različitih grupa su daleko jedan od
drugoga
Nabrojiti svojstva metoda grupiranja.
- Kvantitativne
- Kvalitativne
- Robusnost
- Korisnička interkacija
Navesti vrste grupiranja.
- Hijerarhijsko: grupe stablaste hijerarhijske
strukture - Ravno: nema strukture između grupa
- Čvrsto: svaki objekt pripada samo jednoj grupi
- Meko: pripadnost grupi modelira se pomoću
teorije vjerojatnosti ili neizrazitom logikom
Navesti problem koji se pojavljuje zbog prokletstva dimenizionalnosti.
Gotovo svi parovi točaka su otprilike jednako udaljeni.
Objasniti ideju iza korištenja Pearsonove koerlacijske udaljenosti za dva vektora.
Dva objekta su slična ako su njihove značajke korelirane (iako mogu biti daleko u smislu euklidske metrike).
Kakve vrste hijerarhijskog grupiranja postoje i što je rezultat hijerarhijskog grupiranja?
- Aglomerativno (bottom up)
- Divizivno (Top down)
Rezultat hijerarhijskog grupiranja je dendrogram.
Navesti pristupi prilikom definiranja bliskosti grupa.
- međugrupna udaljenost: minimum, maskimum,
prosjek udaljenosti svih točaka u grupi - pojam kohezije (povezanosti unutar grupe)
Navesti vrste povezivanja grupa.
a) maksimum (complete linkage)
b) minimum (single linkage)
c) srednja vrijednost (average linkage)
d) centroid (linkage)
e) Wardova metoda (min variance method)
Koju informaciju je moguće dobiti iz konstruiranog dendrograma?
Dendrogram u potpunosti omogućuje rekonstrukciju slijeda grupiranja.
Navesti algoritme grupiranja temeljene na pridruživanju točaka.
Algoritam k-srednjih vrijednosti, K-means++, DBSCAN.
Objasniti princip rada algoritma k-srednjih vrijednosti.
Clij je pridružiti svaku točku jednoj od k grupa tako da je udaljenost točaka od centroida minimalna.
- nađi najbliži centroid grupe za svaki element i
pridruži element toj grupi - ponovno izračunaj nove centroide
Navesti niz koraka algoritma k-srednjih vrijednosti.
- izaberi broj grupa k
- inicijaliziraj k centara klastera (random)
- svaki od n primjera priduži najbližem
centroidu - ponovno izračunaj cnetroide klastera na
temelju primjera za svaku grupu
Navesti nedostatke algoritma k-srednjih vrijednosti.
Obično završava u lokalnom optimumu, potrebno je odrediti broj k (broj grupa) unaprijed, ne ponaša se dobro na podacima sa šumom i stršećim vrijednostima, grupa imaju samo konveksne oblike.