HC3 Clustering Flashcards

Question 1

Q

Wat is clusteren?

Answer

A

Kijken of je groepen kan vinden in de gemeten data.

Question 2

Q

Wat is classificatie?

Answer

A

Dit is het kunnen voorspellen van de een variabele die niet is gemeten.

Question 3

Q

Wat is een clusteranalyse?

Answer

A

Dit is een diagram waarbij in de kolommen samples staan. En in de rijen staan de genen. De kolommen worden zo geplaatst op basis van een dendogram.

Question 4

Q

Wat is een dendogram?

Answer

A

Een dendogram geeft een ordening van de data, de rijen die dicht bij elkaar staan lijken op elkaar.

Question 5

Q

Wat is sample-space?

Answer

A

Bij sample space worden de genen afgebeeld met puntjes in een grafiek.

Sample-space is high dimensional!!

Question 6

Q

Wat is gene-space?

Answer

A

Bij gene space worden worden de samples afgebeeld met puntjes in een grafiek.

Question 7

Q

Wat is hierachical clustering

Answer

A

Deze vorm van clustering behoort tot de agglomeratieve cluster.

Hierachical clustering is een herhaling van steeds 2 dezelfde stappen.

Deze stappen zijn eerst het plaatsen van elk data punt zijn eigen cluster. Hierna zoekt het algormitme de twee clusters die het meest op elkaar lijken. Als je deze stappen blijft doorlopen krijg je een denodgram. De hoogte van de dendogram is de afstand tussen de samengevoegde clusters.

Question 8

Q

Wat is Euclidean distance?

Answer

A

Hierbij bereken je de afstand tussen 2 clusters met behulp van de phytagoras.

Question 9

Q

Wat is Pearson correlatie?

Answer

A

Je kijkt hierbij niet alleen naar de absolutie amplitude van de genen, maar kijkt ook of relatieve stijgingen overeen komen. Hierbij negeer je dus eigenlijk de amplitude.

Question 10

Q

Wat is Mixed Pearson correlatie?

Answer

A

Je kijkt nu ook niet meer naar de richting van de stijgingen en dalingen. Een inverse wordt ook geclusterd met de niet inverse.

Question 11

Q

Wat is single linkage (SL)?

Answer

A

Kijkt naar de kleinste afstand tussen 2 punten in verschillende clusters.

Question 12

Q

Wat is complete linkage (CL)?

Answer

A

Kijkt naar de grootste afstand tussen 2 punten in verschillende clusters.

Question 13

Q

Wat is average linkage (AL)?

Answer

A

Kijkt naar de gemiddelde afstand tussen de verschillende clusters.

Question 14

Q

Wat is ward clustering?

Answer

A

Clustering waarbij de interne variatie binnen elk cluster zo klein mogelijk moet zijn.

Question 15

Q

Wat is k-means clustering?

Answer

A

Hierbij cluster je op basis van de afstand van een prototype. Hierna bereken je het gemiddelde object binnen elke groep en vorm je hier een nieuw prototype. Dit blijf je doen tot dat er geen verandering meer is in de objecten.

Het kiezen van een eerste willekeurige prototypen is wel van belang aangezien dit tot verschillende resultaten kan leiden.

Question 16

Q

Wat is en k-NN graph?

Answer

A

Een diagram welke elke node verbind met zijn k dichtstbijzijnde nodes.
Hiervan kan jeen een adjecency and weight matrices maken.

Question 17

Q

Wat is cluster tendency?

Answer

A

Afvragen of de data die je hebt überhaupt wel te clusteren is. Dit kan je doen door random punten toe te voegen en te kijken of er veel verbindingen bestaan, die dus niks betekenen.

Question 18

Q

Wat is cluster validility?

Answer

A

De kleinste ratio betekent waarschijnlijk de beste clustering.

Question 19

Q

Wat is de Davis-Bouldin index?

Answer

A

Dit is een test welke gebruikt wordt bij cluster validility, De index is een maat voor de som waarin de varience kijkt naar de similarity tussen twee clusters.

Question 20

Q

Wat is de Silhouette score?

Answer

A

Je kijkt bij elk datapunt in een cluster hoe goed deze past bij dit cluster.

s(i) = (b(i)-a(i))/max(a(i),b(i)).
a(i) -> de gemiddelde afstand tot alle andere datapunten in het cluster.
b(i) -> het dichtstbijzijnde datapunt van alle andere clusters.

Question 21

Q

Wat is supervised learning?

Answer

A

Het leren van bepaald gedrag, met gebruik van eerdere beschikbare gegevens over verschillende groepen.

Question 22

Q

Wat is unsupervised learing?

Answer

A

Het leren van structuur of relaties, zonder gebruik van beschikbare gegevens.