HC3 Clustering Flashcards

You may prefer our related Brainscape-certified flashcards:
1
Q

Wat is clusteren?

A

Kijken of je groepen kan vinden in de gemeten data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat is classificatie?

A

Dit is het kunnen voorspellen van de een variabele die niet is gemeten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat is een clusteranalyse?

A

Dit is een diagram waarbij in de kolommen samples staan. En in de rijen staan de genen. De kolommen worden zo geplaatst op basis van een dendogram.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat is een dendogram?

A

Een dendogram geeft een ordening van de data, de rijen die dicht bij elkaar staan lijken op elkaar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat is sample-space?

A

Bij sample space worden de genen afgebeeld met puntjes in een grafiek.

Sample-space is high dimensional!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat is gene-space?

A

Bij gene space worden worden de samples afgebeeld met puntjes in een grafiek.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat is hierachical clustering

A

Deze vorm van clustering behoort tot de agglomeratieve cluster.

Hierachical clustering is een herhaling van steeds 2 dezelfde stappen.

Deze stappen zijn eerst het plaatsen van elk data punt zijn eigen cluster. Hierna zoekt het algormitme de twee clusters die het meest op elkaar lijken. Als je deze stappen blijft doorlopen krijg je een denodgram. De hoogte van de dendogram is de afstand tussen de samengevoegde clusters.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat is Euclidean distance?

A

Hierbij bereken je de afstand tussen 2 clusters met behulp van de phytagoras.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat is Pearson correlatie?

A

Je kijkt hierbij niet alleen naar de absolutie amplitude van de genen, maar kijkt ook of relatieve stijgingen overeen komen. Hierbij negeer je dus eigenlijk de amplitude.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat is Mixed Pearson correlatie?

A

Je kijkt nu ook niet meer naar de richting van de stijgingen en dalingen. Een inverse wordt ook geclusterd met de niet inverse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat is single linkage (SL)?

A

Kijkt naar de kleinste afstand tussen 2 punten in verschillende clusters.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is complete linkage (CL)?

A

Kijkt naar de grootste afstand tussen 2 punten in verschillende clusters.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is average linkage (AL)?

A

Kijkt naar de gemiddelde afstand tussen de verschillende clusters.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is ward clustering?

A

Clustering waarbij de interne variatie binnen elk cluster zo klein mogelijk moet zijn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is k-means clustering?

A

Hierbij cluster je op basis van de afstand van een prototype. Hierna bereken je het gemiddelde object binnen elke groep en vorm je hier een nieuw prototype. Dit blijf je doen tot dat er geen verandering meer is in de objecten.

Het kiezen van een eerste willekeurige prototypen is wel van belang aangezien dit tot verschillende resultaten kan leiden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat is en k-NN graph?

A

Een diagram welke elke node verbind met zijn k dichtstbijzijnde nodes.
Hiervan kan jeen een adjecency and weight matrices maken.

17
Q

Wat is cluster tendency?

A

Afvragen of de data die je hebt überhaupt wel te clusteren is. Dit kan je doen door random punten toe te voegen en te kijken of er veel verbindingen bestaan, die dus niks betekenen.

18
Q

Wat is cluster validility?

A

De kleinste ratio betekent waarschijnlijk de beste clustering.

19
Q

Wat is de Davis-Bouldin index?

A

Dit is een test welke gebruikt wordt bij cluster validility, De index is een maat voor de som waarin de varience kijkt naar de similarity tussen twee clusters.

20
Q

Wat is de Silhouette score?

A

Je kijkt bij elk datapunt in een cluster hoe goed deze past bij dit cluster.

s(i) = (b(i)-a(i))/max(a(i),b(i)).
a(i) -> de gemiddelde afstand tot alle andere datapunten in het cluster.
b(i) -> het dichtstbijzijnde datapunt van alle andere clusters.

21
Q

Wat is supervised learning?

A

Het leren van bepaald gedrag, met gebruik van eerdere beschikbare gegevens over verschillende groepen.

22
Q

Wat is unsupervised learing?

A

Het leren van structuur of relaties, zonder gebruik van beschikbare gegevens.