slides Flashcards

Question

Vad är skillnad på k-means och k-medoid?

Answer 1

K-means använder centroid som prototyp, som är ett medelvärde av allaobjekt i klustret. K-medoid använder ett objekt som prototyp

Answer 2

Datormässigt effektiv Enkel Kan användas för många datatyper

Answer 3

Definitionen av k är viktigt | Kan producera tomma kluster

Answer 4

Agglomerative är bottom-up, dvs startar som flera kluster och blir ett! Divisive är motsatsen dvs top-down, börjar som ett och blir flera(ett specificerat nummer)

Answer 5

Baseras på proximiteten mellan dom två NÄRMASTE/MEST LIKA objekten i två kluster

Answer 6

Baseras på proximiteten mellan dom två objekten SOM ÄR LÄNGST IFRÅN VARANDRA i två kluster

Answer 7

Behöver inte definera kluster innan Ingen global objective function. Lokal beräkning är datamässigt enklare

Answer 8

Har svårt med brusig data och höga dimensioner

Answer 9

Densitetsbaserad klustering algoritm

Answer 10

Core points Användardefinerat, beroende på hur många objekt som är inom EPS Border point Inte ett corepoint med faller inom radien för en corepoint Noise points Alla punkter som varken är core eller border

Answer 11

Resistant mot brus och uteliggare Kan hantera olika storlekar och former av kluster, k-means är alltid runda

Answer 12

Svårt att avgöra rätt värden för Size of cluster (Eps) och density of cluster (MinPts)

Answer 13

``` • Unsupervised, do not use external data – Cluster cohesion • Compactness – Cluster separation • How well clusters are separated – Cohesion and separation are related, remember goal of clustering • Intra cluster similarity and inter cluster dissimilarity ```

Answer 14

In classification, the possible outcomes (classes) are known beforehand. In other words, we know what the new cases may be. For example, we might already know the different segments among our customers and wish to categorize new customers. In clustering, the possible outcomes are not know of we wish to redefine them. Relating to our new customers, we do not know what classes (segments) they could be, instead we wish to identify them based upon patterns (similarities) in the data.

Answer 15

Sometimes, clustering is called unsupervised classification because clustering can be used to identify the classes that can in the future be used for supervised classification tasks.

Answer 16

One level clustering means that clustering is performed as one solution, not as for example a hierarchy of clustering solutions. This is partitional, i.e., we partition a dataset into a defined number of clusters.

Answer 17

Ett mått på hur många gånger ett itemset finns i ett dataset

Answer 18

Generera vanligt förekommande itemsets Dvs hitta itemsets som möter minumumkraven för supportvärdet du sätter upp Generera starka regler, dvs vad implicerar vad? blöjor implicerar öl? Detta görs med high confidence values

Answer 19

Apriori använder detta för att gallra bort irrelevanta itemsets. Den baseras på principen att om ett itemset syns ofta och har hög supportvärde så måste också subsets ha hög frekvens. Och motsatsen gäller för superset, Om egg, coke är ovanligt så är alla combinatoer av detta ovanligt

Answer 20

Betydligt mindre kombinationer att räkna ut. med hjälp av support-based pruning så kan vi minska antalet markant.

Answer 21

Enkel | Kan hantera assymetric binär data

Answer 22

Att balansera support minimum kraven | Och datormässigt dyrt för att den måste köra flera omgångar

Answer 23

När det finns många lika återkommande itemsets.

Answer 24

``` Syntactic (hur ord är ihopsatta) och semantic(Vad betyder dom?) ```

Answer 25

``` – Removing poor or unusable data • Errors, such as obvious keystroke errors • Special characters • Tags • Incomplete data • Other language text • Etc. ```

Answer 26

Bryt ut ord i chunks eller tokens. Ta bort punkter och stora bokstäver Delar upp bindeord, content-based blir content och based

Answer 27

Se till att ord som New York inte blir två ord

Answer 28

Tar bort vanligt förekommande ord som "the" och "a" som inte bär någon vikt. Detta reducerar dimensionen signifikant.

Answer 29

Reducera individuella ord till dess ordstam. Och tar vort suffixes, så som ing osv. Detta tar bort varianter av orden så att reducerar dimensionaliteten.

Answer 30

En form av semantisk stemming. Där man gör ordet till sin basform. Reducing blir reduce. Och poor och worse blir samma ord

Answer 31

Räkna hur många gånger ett ord dyker upp i ett dokument, detta blir multidimensionell vektor . Detta tillåter oss att jämföra dokument baserad på deras likhet hur många ord som förekommer Vi kan sen använda metoder för att jämföra dokument, såsom jaccards etc

Answer 32

Används för att mäta vikten av ett ord i ett corpus. Om ett ord uppkommer flera gånger i ett dokument men få gånger i corpuset så är det VIKTIGT. Detta reducerar vikten på vanligt förekommande ord

slides Flashcards

(56 cards)