Les 1 - Tentamenstof Flashcards
Waarom is een JOIN in SQL inefficient?
Omdat een JOIN alle resultaten van beide tabellen in het RAM geheugen laadt en dan pas de niet nodige resultaten weg streept.
Hoe werkt Map Reduce?
Allerlei computers doen de berekeningen op kleine datasets en schrijven de waarden weg, waardoor de te controleren aantal values steeds kleiner wordt.
Dus veel kleine taken en het tussenresultaat opschrijven.
De mapper houdt dit verder in de gaten en vraagt de tussenresultaten op.
Hoe kan Map Reduce gebruikt / aangestuurd worden?
Door map en fold (reduce) functies, veelal geschreven in scripttalen, zoals JS en Python,.
Wat is classificeren?
Een conclusie trekken op bepaalde condities, meestal ja/nee, positief/negatief, A/B/C etc.
Waar staat CRIPS voor?
Een gestandardiseerde aanpak voor data mining: CRoss-Industry Standard Process (for Data Mining)
Wat kun je illustreren met Anscombe Dataset?
Vier verschillende grafieken vergelijken met een dataset dat statistisch bijna identiek is op basis van summary statistics, en toch er zeer verschillend uit komt te zien in een illustratie. (dat wilde hij aantonen)
Wat zijn de verschillende types van data mining?
Association learning, Text mining, Clustering, Classification, Numeric prediction
Waar is Indexing nuttig voor?
Om een lijstje bij te houden waar iets/data zich bevindt, op welke plek. Dit heeft bij een JOIN voordelen, mar niet bij een delete. Ook vereist de index-lijst opslagruimte
Wat is hashing?
Net als in Java, kan het een hash maken, en daar komt een unieke waarde uit, die als index/key gebruikt kan worden
Hoe werkt standard deviation?
Van elke waarde het gemiddelde aftrekken en kwadrateren, vervolgens dit bij elkaar optellen en delen door n-1. Daar dan de wortel van
Waarvoor wordt standard deviation gebruikt?
Om de variatie uit te rekenen
Wat is coovaratie?
Wordt gebruikt bij Spearman correlatie. De bovenste waarde is elke x - (gem)x * y - (gem)y, bij elkaar opgeteld. Voor de covaratie kan de uitkomst door n gedeeld worden.
Wat kun je uitlezen aan de correlatie coëfficiënt?
0 is geen relatie, dichter bij -1 en 1 is een zeer sterke correlatie.
Wat doen de twee functies van Map Reduce?
Map, lees data in en geef het terug in key value pairs: emit(k,v) en reduce die krijgt params key, value en geeft terug: newValue. Bijvoorbeeld Map bereid alle waarden voor het gemiddelde voor, geeft het aan de reduce, die berekent het gemiddelde en geeft dat terug.
Hoe ziet de MapReduce structuur eruit?
Het programma geeft een opdracht aan de manager, die zet zijn workers aan het werk die vervolgens op delen van de datasets berekeningen uitvoert en teruggeeft.