Les 1 - Tentamenstof Flashcards

1
Q

Waarom is een JOIN in SQL inefficient?

A

Omdat een JOIN alle resultaten van beide tabellen in het RAM geheugen laadt en dan pas de niet nodige resultaten weg streept.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hoe werkt Map Reduce?

A

Allerlei computers doen de berekeningen op kleine datasets en schrijven de waarden weg, waardoor de te controleren aantal values steeds kleiner wordt.
Dus veel kleine taken en het tussenresultaat opschrijven.
De mapper houdt dit verder in de gaten en vraagt de tussenresultaten op.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hoe kan Map Reduce gebruikt / aangestuurd worden?

A

Door map en fold (reduce) functies, veelal geschreven in scripttalen, zoals JS en Python,.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat is classificeren?

A

Een conclusie trekken op bepaalde condities, meestal ja/nee, positief/negatief, A/B/C etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Waar staat CRIPS voor?

A

Een gestandardiseerde aanpak voor data mining: CRoss-Industry Standard Process (for Data Mining)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat kun je illustreren met Anscombe Dataset?

A

Vier verschillende grafieken vergelijken met een dataset dat statistisch bijna identiek is op basis van summary statistics, en toch er zeer verschillend uit komt te zien in een illustratie. (dat wilde hij aantonen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat zijn de verschillende types van data mining?

A

Association learning, Text mining, Clustering, Classification, Numeric prediction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Waar is Indexing nuttig voor?

A

Om een lijstje bij te houden waar iets/data zich bevindt, op welke plek. Dit heeft bij een JOIN voordelen, mar niet bij een delete. Ook vereist de index-lijst opslagruimte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat is hashing?

A

Net als in Java, kan het een hash maken, en daar komt een unieke waarde uit, die als index/key gebruikt kan worden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hoe werkt standard deviation?

A

Van elke waarde het gemiddelde aftrekken en kwadrateren, vervolgens dit bij elkaar optellen en delen door n-1. Daar dan de wortel van

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Waarvoor wordt standard deviation gebruikt?

A

Om de variatie uit te rekenen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is coovaratie?

A

Wordt gebruikt bij Spearman correlatie. De bovenste waarde is elke x - (gem)x * y - (gem)y, bij elkaar opgeteld. Voor de covaratie kan de uitkomst door n gedeeld worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat kun je uitlezen aan de correlatie coëfficiënt?

A

0 is geen relatie, dichter bij -1 en 1 is een zeer sterke correlatie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat doen de twee functies van Map Reduce?

A

Map, lees data in en geef het terug in key value pairs: emit(k,v) en reduce die krijgt params key, value en geeft terug: newValue. Bijvoorbeeld Map bereid alle waarden voor het gemiddelde voor, geeft het aan de reduce, die berekent het gemiddelde en geeft dat terug.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hoe ziet de MapReduce structuur eruit?

A

Het programma geeft een opdracht aan de manager, die zet zijn workers aan het werk die vervolgens op delen van de datasets berekeningen uitvoert en teruggeeft.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Risico van MapReduce?

A

Met veel mappers en veel resultaten is de kans op een collision van data bij disk-reads groter.

17
Q

Wat betekent TF-IDF?

A

Term Frequency-Inverse Document Frequency.

Numerieke waarde hoe belangrijk een woord is in een document binnen een collectie