slides Flashcards
Vad kan man göra för att undvika overfitting?
Använd den enklaste modellen som ger bäst generaliserbara resultat.
Använd ett validerings set, som inte använts i träning eller testning
Metodspecifika
Vad är ensamble methods?
Flera metoder används, det svar som flest metoder ger blir “rätt” Majority voting
Fördelar med beslutsträd?
Kan hantera diskreta och Kontinuerliga variabler
Tolerant mot brus och uteliggare
Lite preprocessing behövs
Enkel att förstå, whitebox
Nackdelar med beslutsträd
Känslig mot stora mängder IRRELEVANT data
kan få liknande subtrees, tree replication
ANN SVM oftast högre träffsäkerhet
Nearest neighbor classifiers
Ingen model, instantbaserad lärning
Klassifierar data baserad på liknande data, med hjälp av distance funktioner såsom euclidan eller jaccards
Fördelar och nackdelar med Nearest neighbor classifiers
+ Enkel, ingen model behövs
- Kan vara dyr att beräkna
- utvärdering kan vara svår då närmaste grannen kan vara en uteliggare
Vad är SVM och vad gör den?
Kennel-baserad maskinlärnings metod för att separera två klasser.
Dra en rak linje för att dela upp klasser.
Hyperplane heter det raka sträcket som dras för att dela upp.
den bygger på en global optimering, kollar inte bara på det närmaste lokala ( dvs greedy)
kan lösa ickelinjära problem med fler dimensioner
Fördelar och neckdelar med SVM
Fördelar
Robust, stark mot överträning
Kan hantera en massa data
Lära sig komplexa modeller.
nackdelar
Lång tid att träna
Överlappande klasser
Vad är regression?
Att estimera ett kontinuerligt numeriskt värde, value prediction!
Används inom väder prediction, sales forecasting etc
Vad är linjär regression?
nom statistik är linjär regression en teknik med vilken man kan undersöka om det finns ett statistiskt samband mellan en responsvariabel (Y) och två eller flera förklarande variabler (X).
För och nackdelar med linjär regression?
+
lätt att använda
datormässigt enkel
-
Fungerar inte på icke linjär data
Känslig mot uteliggare
vad är ickelinjär regression?
samma som linjär regression men kan hnatera ickelinjära relationer bättre.
Mer komplex!
What is stratified sampling and how is it relevant for classification?
Stratified sampling is used to balance (weight) outcomes that occur in differing proportions in the population. For example, in classification the number of positive (or negative) outcomes may be disproportionately small (e.g., 5 out 100) in which case the classification model would have a hard time learning to identify these rare cases, making the model particularly poor. Stratified sampling would mean that, e.g., equal numbers of positive and negative outcomes are included in the training set to give the model a better chance at learning the patterns.
Precision is a measure that will avoid false negatives
False. Precision is the number of true positives divided by the number of positive predictions. The higher the score, the lower the number of false positives, and thus, Precision avoids false positives.
Recall is a measure that will avoid false negatives
True. Recall (also called specificity) is the number of true positives divided by true positives and false negatives. Recall avoids false negatives.
What is overfitting in classification?
Overfitting is when a classification model learns patterns specific to the training set and fails when testing upon unseen data. Thus, the model may have high training accuracy but poor generalization accuracy.
Cross validation is
Cross validation is a partitioning strategy used to estimate the generalization error of a model by dividing the data into a number of folds. Each fold is then in turn used as a test set, while the rest are used for training. The average accuracy rates (for training and testing) across all folds are then used as an estimate for a model based on all data.
A greedy algorithm is based upon optimizing a global objective function
False. A greedy algorithm is based upon finding an optimal solution at a local level. For example, decision trees are based upon a greedy algorithm as the splitting decision in each node is based upon a local solution, i.e., what is the best way to split the node in order to get the purest solution at that point.
Inom klustering pratar man om Exklusive vs overlapping vs fuzzy, vad betyder dessa?
Exklusive menar att man bara kan tillhöra ett kluster åt gången
Overlapping kan man tillhöra flera
Fuzzy kan man ha olika grader av tillhörighet
Vad är K-means?
prototypbaserad Klustering metod, partitional.
Där k är antalet kluster som som skall skapas
Vad är skillnad på hierarkisk klustering och partitional klustering?
Hiearkisk klustering är ett set av klusters som är organiserade i ett träd (dendogram)
Partitional klustering är vanliga kluster utan någon hierarki
Vad menas med complete vs partial klustering?
Complete så måste alla objekt tillhöra ett kluster
Partial så behöver inte alla det