Les 1 - Tentamenstof Flashcards

Question 1

Q

Waarom is een JOIN in SQL inefficient?

Answer

A

Omdat een JOIN alle resultaten van beide tabellen in het RAM geheugen laadt en dan pas de niet nodige resultaten weg streept.

Question 2

Q

Hoe werkt Map Reduce?

Answer

A

Allerlei computers doen de berekeningen op kleine datasets en schrijven de waarden weg, waardoor de te controleren aantal values steeds kleiner wordt.
Dus veel kleine taken en het tussenresultaat opschrijven.
De mapper houdt dit verder in de gaten en vraagt de tussenresultaten op.

Question 3

Q

Hoe kan Map Reduce gebruikt / aangestuurd worden?

Answer

A

Door map en fold (reduce) functies, veelal geschreven in scripttalen, zoals JS en Python,.

Question 4

Q

Wat is classificeren?

Answer

A

Een conclusie trekken op bepaalde condities, meestal ja/nee, positief/negatief, A/B/C etc.

Question 5

Q

Waar staat CRIPS voor?

Answer

A

Een gestandardiseerde aanpak voor data mining: CRoss-Industry Standard Process (for Data Mining)

Question 6

Q

Wat kun je illustreren met Anscombe Dataset?

Answer

A

Vier verschillende grafieken vergelijken met een dataset dat statistisch bijna identiek is op basis van summary statistics, en toch er zeer verschillend uit komt te zien in een illustratie. (dat wilde hij aantonen)

Question 7

Q

Wat zijn de verschillende types van data mining?

Answer

A

Association learning, Text mining, Clustering, Classification, Numeric prediction

Question 8

Q

Waar is Indexing nuttig voor?

Answer

A

Om een lijstje bij te houden waar iets/data zich bevindt, op welke plek. Dit heeft bij een JOIN voordelen, mar niet bij een delete. Ook vereist de index-lijst opslagruimte

Question 9

Q

Wat is hashing?

Answer

A

Net als in Java, kan het een hash maken, en daar komt een unieke waarde uit, die als index/key gebruikt kan worden

Question 10

Q

Hoe werkt standard deviation?

Answer

A

Van elke waarde het gemiddelde aftrekken en kwadrateren, vervolgens dit bij elkaar optellen en delen door n-1. Daar dan de wortel van

Question 11

Q

Waarvoor wordt standard deviation gebruikt?

Answer

A

Om de variatie uit te rekenen

Question 12

Q

Wat is coovaratie?

Answer

A

Wordt gebruikt bij Spearman correlatie. De bovenste waarde is elke x - (gem)x * y - (gem)y, bij elkaar opgeteld. Voor de covaratie kan de uitkomst door n gedeeld worden.

Question 13

Q

Wat kun je uitlezen aan de correlatie coëfficiënt?

Answer

A

0 is geen relatie, dichter bij -1 en 1 is een zeer sterke correlatie.

Question 14

Q

Wat doen de twee functies van Map Reduce?

Answer

A

Map, lees data in en geef het terug in key value pairs: emit(k,v) en reduce die krijgt params key, value en geeft terug: newValue. Bijvoorbeeld Map bereid alle waarden voor het gemiddelde voor, geeft het aan de reduce, die berekent het gemiddelde en geeft dat terug.

Question 15

Q

Hoe ziet de MapReduce structuur eruit?

Answer

A

Het programma geeft een opdracht aan de manager, die zet zijn workers aan het werk die vervolgens op delen van de datasets berekeningen uitvoert en teruggeeft.

Question 16

Q

Risico van MapReduce?

Answer

A

Met veel mappers en veel resultaten is de kans op een collision van data bij disk-reads groter.

Question 17

Q

Wat betekent TF-IDF?

Answer

A

Term Frequency-Inverse Document Frequency.

Numerieke waarde hoe belangrijk een woord is in een document binnen een collectie