slides Flashcards

1
Q

Vad kan man göra för att undvika overfitting?

A

Använd den enklaste modellen som ger bäst generaliserbara resultat.

Använd ett validerings set, som inte använts i träning eller testning

Metodspecifika

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vad är ensamble methods?

A

Flera metoder används, det svar som flest metoder ger blir “rätt” Majority voting

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Fördelar med beslutsträd?

A

Kan hantera diskreta och Kontinuerliga variabler

Tolerant mot brus och uteliggare

Lite preprocessing behövs

Enkel att förstå, whitebox

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Nackdelar med beslutsträd

A

Känslig mot stora mängder IRRELEVANT data

kan få liknande subtrees, tree replication

ANN SVM oftast högre träffsäkerhet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nearest neighbor classifiers

A

Ingen model, instantbaserad lärning

Klassifierar data baserad på liknande data, med hjälp av distance funktioner såsom euclidan eller jaccards

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Fördelar och nackdelar med Nearest neighbor classifiers

A

+ Enkel, ingen model behövs

  • Kan vara dyr att beräkna
  • utvärdering kan vara svår då närmaste grannen kan vara en uteliggare
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Vad är SVM och vad gör den?

A

Kennel-baserad maskinlärnings metod för att separera två klasser.

Dra en rak linje för att dela upp klasser.

Hyperplane heter det raka sträcket som dras för att dela upp.

den bygger på en global optimering, kollar inte bara på det närmaste lokala ( dvs greedy)

kan lösa ickelinjära problem med fler dimensioner

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Fördelar och neckdelar med SVM

A

Fördelar
Robust, stark mot överträning

Kan hantera en massa data

Lära sig komplexa modeller.

nackdelar
Lång tid att träna
Överlappande klasser

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vad är regression?

A

Att estimera ett kontinuerligt numeriskt värde, value prediction!

Används inom väder prediction, sales forecasting etc

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vad är linjär regression?

A

nom statistik är linjär regression en teknik med vilken man kan undersöka om det finns ett statistiskt samband mellan en responsvariabel (Y) och två eller flera förklarande variabler (X).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

För och nackdelar med linjär regression?

A

+
lätt att använda
datormässigt enkel

-
Fungerar inte på icke linjär data
Känslig mot uteliggare

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

vad är ickelinjär regression?

A

samma som linjär regression men kan hnatera ickelinjära relationer bättre.

Mer komplex!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

What is stratified sampling and how is it relevant for classification?

A

Stratified sampling is used to balance (weight) outcomes that occur in differing proportions in the population. For example, in classification the number of positive (or negative) outcomes may be disproportionately small (e.g., 5 out 100) in which case the classification model would have a hard time learning to identify these rare cases, making the model particularly poor. Stratified sampling would mean that, e.g., equal numbers of positive and negative outcomes are included in the training set to give the model a better chance at learning the patterns.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Precision is a measure that will avoid false negatives

A

False. Precision is the number of true positives divided by the number of positive predictions. The higher the score, the lower the number of false positives, and thus, Precision avoids false positives.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Recall is a measure that will avoid false negatives

A

True. Recall (also called specificity) is the number of true positives divided by true positives and false negatives. Recall avoids false negatives.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

What is overfitting in classification?

A

Overfitting is when a classification model learns patterns specific to the training set and fails when testing upon unseen data. Thus, the model may have high training accuracy but poor generalization accuracy.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Cross validation is

A

Cross validation is a partitioning strategy used to estimate the generalization error of a model by dividing the data into a number of folds. Each fold is then in turn used as a test set, while the rest are used for training. The average accuracy rates (for training and testing) across all folds are then used as an estimate for a model based on all data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

A greedy algorithm is based upon optimizing a global objective function

A

False. A greedy algorithm is based upon finding an optimal solution at a local level. For example, decision trees are based upon a greedy algorithm as the splitting decision in each node is based upon a local solution, i.e., what is the best way to split the node in order to get the purest solution at that point.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Inom klustering pratar man om Exklusive vs overlapping vs fuzzy, vad betyder dessa?

A

Exklusive menar att man bara kan tillhöra ett kluster åt gången

Overlapping kan man tillhöra flera

Fuzzy kan man ha olika grader av tillhörighet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Vad är K-means?

A

prototypbaserad Klustering metod, partitional.

Där k är antalet kluster som som skall skapas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Vad är skillnad på hierarkisk klustering och partitional klustering?

A

Hiearkisk klustering är ett set av klusters som är organiserade i ett träd (dendogram)

Partitional klustering är vanliga kluster utan någon hierarki

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Vad menas med complete vs partial klustering?

A

Complete så måste alla objekt tillhöra ett kluster

Partial så behöver inte alla det

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Vad är ett well-seperated cluster?

A

Varje objekt i ett kluster är mer lik ALLA andra objekt i samma kluster än något annat kluster

24
Q

Vad är ett prototypbaserat kluster?

A

Objekt är mer lika till klustrets prototyp (ex centroid) än någon annan prototyp i ett annat kluster

25
Q

Vad är skillnad på k-means och k-medoid?

A

K-means använder centroid som prototyp, som är ett medelvärde av allaobjekt i klustret. K-medoid använder ett objekt som prototyp

26
Q

Fördelar med K-means?

A

Datormässigt effektiv
Enkel
Kan användas för många datatyper

27
Q

Nackdelar med k-means?

A

Definitionen av k är viktigt

Kan producera tomma kluster

28
Q

vad är skillnad på Agglomerative hierarchical clustering och divisive Hierarchical Clustering?

A

Agglomerative är bottom-up, dvs startar som flera kluster och blir ett!

Divisive är motsatsen dvs top-down, börjar som ett och blir flera(ett specificerat nummer)

29
Q

Vad är single link agglomerative algorithm?

A

Baseras på proximiteten mellan dom två NÄRMASTE/MEST LIKA objekten i två kluster

30
Q

vad är complete link agglomerative algorithm?

A

Baseras på proximiteten mellan dom två objekten SOM ÄR LÄNGST IFRÅN VARANDRA i två kluster

31
Q

Vad är fördelen med hierarkisk klustering?

A

Behöver inte definera kluster innan

Ingen global objective function. Lokal beräkning är datamässigt enklare

32
Q

Nackdelar med hierarkisk klustering?

A

Har svårt med brusig data och höga dimensioner

33
Q

Vad är DBSCAN?

A

Densitetsbaserad klustering algoritm

34
Q

DBSCAN klassificerar dataobjekt till 3 olika klasser, vilka? Och vad betyder dessa?

A

Core points
Användardefinerat, beroende på hur många objekt som är inom EPS

Border point
Inte ett corepoint med faller inom radien för en corepoint

Noise points
Alla punkter som varken är core eller border

35
Q

Fördelar med DBSCAN?

A

Resistant mot brus och uteliggare

Kan hantera olika storlekar och former av kluster, k-means är alltid runda

36
Q

nackdelar med DBSCAN?

A

Svårt att avgöra rätt värden för Size of cluster (Eps) och density of cluster (MinPts)

37
Q

Hur validerar man klustering?

A
• Unsupervised, do not use external data
– Cluster cohesion
• Compactness
– Cluster separation
• How well clusters are separated
– Cohesion and separation are related, remember
goal of clustering
• Intra cluster similarity and inter cluster
dissimilarity
38
Q

What is the difference between clustering and classification?

A

In classification, the possible outcomes (classes) are known beforehand. In other words, we know what the new cases may be. For example, we might already know the different segments among our customers and wish to categorize new customers.

In clustering, the possible outcomes are not know of we wish to redefine them. Relating to our new customers, we do not know what classes (segments) they could be, instead we wish to identify them based upon patterns (similarities) in the data.

39
Q

Why is clustering sometimes called unsupervised classification?

A

Sometimes, clustering is called unsupervised classification because clustering can be used to identify the classes that can in the future be used for supervised classification tasks.

40
Q

Vad menas med partitional(one level clustering)?

A

One level clustering means that clustering is performed as one solution, not as for example a hierarchy of clustering solutions. This is partitional, i.e., we partition a dataset into a defined number of clusters.

41
Q

vad är support?

A

Ett mått på hur många gånger ett itemset finns i ett dataset

42
Q

Assiocationsanalys har två steg, vilka?

A

Generera vanligt förekommande itemsets
Dvs hitta itemsets som möter minumumkraven för supportvärdet du sätter upp

Generera starka regler, dvs vad implicerar vad? blöjor implicerar öl? Detta görs med high confidence values

43
Q

Vad är supportbased pruning?

A

Apriori använder detta för att gallra bort irrelevanta itemsets. Den baseras på principen att om ett itemset syns ofta och har hög supportvärde så måste också subsets ha hög frekvens.

Och motsatsen gäller för superset, Om egg, coke är ovanligt så är alla combinatoer av detta ovanligt

44
Q

Varför är apriori bättre än brute force?

A

Betydligt mindre kombinationer att räkna ut. med hjälp av support-based pruning så kan vi minska antalet markant.

45
Q

Vad är fördelar med apriori?

A

Enkel

Kan hantera assymetric binär data

46
Q

Vad är nackdelar med apriori?

A

Att balansera support minimum kraven

Och datormässigt dyrt för att den måste köra flera omgångar

47
Q

När är FP growth bättre än apriori?

A

När det finns många lika återkommande itemsets.

48
Q

Preprocessing text är uppdelat i två delar, vilka?

A
Syntactic (hur ord är ihopsatta)
och semantic(Vad betyder dom?)
49
Q

Vad är filtering i text mining?

A
– Removing poor or unusable data
• Errors, such as obvious keystroke errors
• Special characters
• Tags
• Incomplete data
• Other language text
• Etc.
50
Q

Vad är tokenization?

A

Bryt ut ord i chunks eller tokens.

Ta bort punkter och stora bokstäver

Delar upp bindeord, content-based blir content och based

51
Q

Varför är named-entity recognition?

A

Se till att ord som New York inte blir två ord

52
Q

Vad gör stop word removal?

A

Tar bort vanligt förekommande ord som “the” och “a” som inte bär någon vikt. Detta reducerar dimensionen signifikant.

53
Q

Vad är stemming?

A

Reducera individuella ord till dess ordstam.

Och tar vort suffixes, så som ing osv.

Detta tar bort varianter av orden så att reducerar dimensionaliteten.

54
Q

Vad är lemmatization?

A

En form av semantisk stemming. Där man gör ordet till sin basform. Reducing blir reduce. Och poor och worse blir samma ord

55
Q

Vad är bag of words?

A

Räkna hur många gånger ett ord dyker upp i ett dokument, detta blir multidimensionell vektor . Detta tillåter oss att jämföra dokument baserad på deras likhet hur många ord som förekommer

Vi kan sen använda metoder för att jämföra dokument, såsom jaccards etc

56
Q

Vad är TF-IDF, eller Term frequency – inverse document frequency

A

Används för att mäta vikten av ett ord i ett corpus. Om ett ord uppkommer flera gånger i ett dokument men få gånger i corpuset så är det VIKTIGT. Detta reducerar vikten på vanligt förekommande ord