slides Flashcards
Vad kan man göra för att undvika overfitting?
Använd den enklaste modellen som ger bäst generaliserbara resultat.
Använd ett validerings set, som inte använts i träning eller testning
Metodspecifika
Vad är ensamble methods?
Flera metoder används, det svar som flest metoder ger blir “rätt” Majority voting
Fördelar med beslutsträd?
Kan hantera diskreta och Kontinuerliga variabler
Tolerant mot brus och uteliggare
Lite preprocessing behövs
Enkel att förstå, whitebox
Nackdelar med beslutsträd
Känslig mot stora mängder IRRELEVANT data
kan få liknande subtrees, tree replication
ANN SVM oftast högre träffsäkerhet
Nearest neighbor classifiers
Ingen model, instantbaserad lärning
Klassifierar data baserad på liknande data, med hjälp av distance funktioner såsom euclidan eller jaccards
Fördelar och nackdelar med Nearest neighbor classifiers
+ Enkel, ingen model behövs
- Kan vara dyr att beräkna
- utvärdering kan vara svår då närmaste grannen kan vara en uteliggare
Vad är SVM och vad gör den?
Kennel-baserad maskinlärnings metod för att separera två klasser.
Dra en rak linje för att dela upp klasser.
Hyperplane heter det raka sträcket som dras för att dela upp.
den bygger på en global optimering, kollar inte bara på det närmaste lokala ( dvs greedy)
kan lösa ickelinjära problem med fler dimensioner
Fördelar och neckdelar med SVM
Fördelar
Robust, stark mot överträning
Kan hantera en massa data
Lära sig komplexa modeller.
nackdelar
Lång tid att träna
Överlappande klasser
Vad är regression?
Att estimera ett kontinuerligt numeriskt värde, value prediction!
Används inom väder prediction, sales forecasting etc
Vad är linjär regression?
nom statistik är linjär regression en teknik med vilken man kan undersöka om det finns ett statistiskt samband mellan en responsvariabel (Y) och två eller flera förklarande variabler (X).
För och nackdelar med linjär regression?
+
lätt att använda
datormässigt enkel
-
Fungerar inte på icke linjär data
Känslig mot uteliggare
vad är ickelinjär regression?
samma som linjär regression men kan hnatera ickelinjära relationer bättre.
Mer komplex!
What is stratified sampling and how is it relevant for classification?
Stratified sampling is used to balance (weight) outcomes that occur in differing proportions in the population. For example, in classification the number of positive (or negative) outcomes may be disproportionately small (e.g., 5 out 100) in which case the classification model would have a hard time learning to identify these rare cases, making the model particularly poor. Stratified sampling would mean that, e.g., equal numbers of positive and negative outcomes are included in the training set to give the model a better chance at learning the patterns.
Precision is a measure that will avoid false negatives
False. Precision is the number of true positives divided by the number of positive predictions. The higher the score, the lower the number of false positives, and thus, Precision avoids false positives.
Recall is a measure that will avoid false negatives
True. Recall (also called specificity) is the number of true positives divided by true positives and false negatives. Recall avoids false negatives.
What is overfitting in classification?
Overfitting is when a classification model learns patterns specific to the training set and fails when testing upon unseen data. Thus, the model may have high training accuracy but poor generalization accuracy.
Cross validation is
Cross validation is a partitioning strategy used to estimate the generalization error of a model by dividing the data into a number of folds. Each fold is then in turn used as a test set, while the rest are used for training. The average accuracy rates (for training and testing) across all folds are then used as an estimate for a model based on all data.
A greedy algorithm is based upon optimizing a global objective function
False. A greedy algorithm is based upon finding an optimal solution at a local level. For example, decision trees are based upon a greedy algorithm as the splitting decision in each node is based upon a local solution, i.e., what is the best way to split the node in order to get the purest solution at that point.
Inom klustering pratar man om Exklusive vs overlapping vs fuzzy, vad betyder dessa?
Exklusive menar att man bara kan tillhöra ett kluster åt gången
Overlapping kan man tillhöra flera
Fuzzy kan man ha olika grader av tillhörighet
Vad är K-means?
prototypbaserad Klustering metod, partitional.
Där k är antalet kluster som som skall skapas
Vad är skillnad på hierarkisk klustering och partitional klustering?
Hiearkisk klustering är ett set av klusters som är organiserade i ett träd (dendogram)
Partitional klustering är vanliga kluster utan någon hierarki
Vad menas med complete vs partial klustering?
Complete så måste alla objekt tillhöra ett kluster
Partial så behöver inte alla det
Vad är ett well-seperated cluster?
Varje objekt i ett kluster är mer lik ALLA andra objekt i samma kluster än något annat kluster
Vad är ett prototypbaserat kluster?
Objekt är mer lika till klustrets prototyp (ex centroid) än någon annan prototyp i ett annat kluster
Vad är skillnad på k-means och k-medoid?
K-means använder centroid som prototyp, som är ett medelvärde av allaobjekt i klustret. K-medoid använder ett objekt som prototyp
Fördelar med K-means?
Datormässigt effektiv
Enkel
Kan användas för många datatyper
Nackdelar med k-means?
Definitionen av k är viktigt
Kan producera tomma kluster
vad är skillnad på Agglomerative hierarchical clustering och divisive Hierarchical Clustering?
Agglomerative är bottom-up, dvs startar som flera kluster och blir ett!
Divisive är motsatsen dvs top-down, börjar som ett och blir flera(ett specificerat nummer)
Vad är single link agglomerative algorithm?
Baseras på proximiteten mellan dom två NÄRMASTE/MEST LIKA objekten i två kluster
vad är complete link agglomerative algorithm?
Baseras på proximiteten mellan dom två objekten SOM ÄR LÄNGST IFRÅN VARANDRA i två kluster
Vad är fördelen med hierarkisk klustering?
Behöver inte definera kluster innan
Ingen global objective function. Lokal beräkning är datamässigt enklare
Nackdelar med hierarkisk klustering?
Har svårt med brusig data och höga dimensioner
Vad är DBSCAN?
Densitetsbaserad klustering algoritm
DBSCAN klassificerar dataobjekt till 3 olika klasser, vilka? Och vad betyder dessa?
Core points
Användardefinerat, beroende på hur många objekt som är inom EPS
Border point
Inte ett corepoint med faller inom radien för en corepoint
Noise points
Alla punkter som varken är core eller border
Fördelar med DBSCAN?
Resistant mot brus och uteliggare
Kan hantera olika storlekar och former av kluster, k-means är alltid runda
nackdelar med DBSCAN?
Svårt att avgöra rätt värden för Size of cluster (Eps) och density of cluster (MinPts)
Hur validerar man klustering?
• Unsupervised, do not use external data – Cluster cohesion • Compactness – Cluster separation • How well clusters are separated – Cohesion and separation are related, remember goal of clustering • Intra cluster similarity and inter cluster dissimilarity
What is the difference between clustering and classification?
In classification, the possible outcomes (classes) are known beforehand. In other words, we know what the new cases may be. For example, we might already know the different segments among our customers and wish to categorize new customers.
In clustering, the possible outcomes are not know of we wish to redefine them. Relating to our new customers, we do not know what classes (segments) they could be, instead we wish to identify them based upon patterns (similarities) in the data.
Why is clustering sometimes called unsupervised classification?
Sometimes, clustering is called unsupervised classification because clustering can be used to identify the classes that can in the future be used for supervised classification tasks.
Vad menas med partitional(one level clustering)?
One level clustering means that clustering is performed as one solution, not as for example a hierarchy of clustering solutions. This is partitional, i.e., we partition a dataset into a defined number of clusters.
vad är support?
Ett mått på hur många gånger ett itemset finns i ett dataset
Assiocationsanalys har två steg, vilka?
Generera vanligt förekommande itemsets
Dvs hitta itemsets som möter minumumkraven för supportvärdet du sätter upp
Generera starka regler, dvs vad implicerar vad? blöjor implicerar öl? Detta görs med high confidence values
Vad är supportbased pruning?
Apriori använder detta för att gallra bort irrelevanta itemsets. Den baseras på principen att om ett itemset syns ofta och har hög supportvärde så måste också subsets ha hög frekvens.
Och motsatsen gäller för superset, Om egg, coke är ovanligt så är alla combinatoer av detta ovanligt
Varför är apriori bättre än brute force?
Betydligt mindre kombinationer att räkna ut. med hjälp av support-based pruning så kan vi minska antalet markant.
Vad är fördelar med apriori?
Enkel
Kan hantera assymetric binär data
Vad är nackdelar med apriori?
Att balansera support minimum kraven
Och datormässigt dyrt för att den måste köra flera omgångar
När är FP growth bättre än apriori?
När det finns många lika återkommande itemsets.
Preprocessing text är uppdelat i två delar, vilka?
Syntactic (hur ord är ihopsatta) och semantic(Vad betyder dom?)
Vad är filtering i text mining?
– Removing poor or unusable data • Errors, such as obvious keystroke errors • Special characters • Tags • Incomplete data • Other language text • Etc.
Vad är tokenization?
Bryt ut ord i chunks eller tokens.
Ta bort punkter och stora bokstäver
Delar upp bindeord, content-based blir content och based
Varför är named-entity recognition?
Se till att ord som New York inte blir två ord
Vad gör stop word removal?
Tar bort vanligt förekommande ord som “the” och “a” som inte bär någon vikt. Detta reducerar dimensionen signifikant.
Vad är stemming?
Reducera individuella ord till dess ordstam.
Och tar vort suffixes, så som ing osv.
Detta tar bort varianter av orden så att reducerar dimensionaliteten.
Vad är lemmatization?
En form av semantisk stemming. Där man gör ordet till sin basform. Reducing blir reduce. Och poor och worse blir samma ord
Vad är bag of words?
Räkna hur många gånger ett ord dyker upp i ett dokument, detta blir multidimensionell vektor . Detta tillåter oss att jämföra dokument baserad på deras likhet hur många ord som förekommer
Vi kan sen använda metoder för att jämföra dokument, såsom jaccards etc
Vad är TF-IDF, eller Term frequency – inverse document frequency
Används för att mäta vikten av ett ord i ett corpus. Om ett ord uppkommer flera gånger i ett dokument men få gånger i corpuset så är det VIKTIGT. Detta reducerar vikten på vanligt förekommande ord