Data science - Module 2 Flashcards
Mathematically, a list of numbers is represented by an object called?
A vector
How do we map discrete data points?
By assigning numerical values, i.e. true = 1
Feature space?
Is eintlik maar observasie “leef”, so vir twee dimensies, n x en y scatter plot
Is ons beperk ten opsigte van dimensies?
Nee, grafies ja, tot drie. Maar wiskundig, baie meer. Wees maar net versigtig, want hoe meer dimensies daar is, hoe meer data gaan jy nodig he om te train
Eerste voorbeeld van hoe hulle responses map tot die feature space?
Alles sit daar, en toe het hulle die fraudulent goed omkring
Wat se issue is daar met unbalanced classes?
As jy baie baie vam die een het, en min van die ander, sal die predictor neig na waar die volume is
Klassieke boorbeeld van n class imbalance classification probleem
Om credit card fraud om te tel, omdat dit n klein handjievol uitmaak van die totale dataset
Class imbalances can lead to a accuracy paradox?
Jip, dit is een van die hoof maatstawe, maar dit reflekteer nie die wanbalans in die onderliggende datastel
Eerste boor die handliggende oplossing om class imbalances teen te werk?
Kry meer data, veral van die een waarvan jy n tekort het
Gaan nog in meer detail ingaan, maar die tweede ding wat ky kan doen om n imbalanced dataset te benader?
Verander die performance metric. So gaan nie oor absolute akkuraatheid nie
Wat beteken resampling in die konteks van class imbalances?
Jy kry over-sampling (maak duplikate van die underrepresented instances)
Jy kry ook under-sampling, waar jy van die entries delete wat over represented is
Wanneer sal j under-sampling gebruik
Wanneer jy met honderde duisende gevalle sit
Wanneer sal jy over-sampling gebruik?
Wanneer jou datastel oor die algemeen kleiner is
Soortgelyk aan over-sampling, maar jy copy nie die data nie?
Generating synthetic samples. Gebruik metodes soos SMOTE (synthetic, minority over-sampling technique)
Die byfde metode om class imbalances aan te spreek?
Probeer verskillende algoritmes. Belangrik om nie net altyd dieselfde te gebruik nie
Decision trees often perform poor on imbalanced datatsets
False
In Python, noem populere decision tree algoritmes
Scikit learn, CART
Sesde metode om class balances aan te spreek?
Penalized models - so assign n groter cost function wanneer die model die minority goed verkeerd kry
Classification accuracy is nie die enigste performance metric nie. Twee ander?
Precision and recall performance
Waarvoor staan CART?
Classification and Regression trees
Ander naam vir n confusion matrix?
Contigency table
Hoeveel selle sal n confusion matrix he, as dit n binere sisteem is, met twee responses
4 selle, en elkeen wys joeveel in elke inval
So met n confusion matrix, op die kolom sit jy model output, en op die ry die actual
Ja?
Definisie van precision?
True positives/(true positives+false positives)
Wat is die definisie van Recall
True positives/(true positives + false negatives)
A low recall indicates?
Many false negatives
In eenvoudige terme, wat is die F1 score?
Die FI score conveys the balance between precision and recall
F1 score =
(Precision+recall)/(precision*recall)
Ander naam vir precision
Positive predictive value
Ander name vir recall?
Sensitivity of die True positive rate
Recall can be thought of as the
Completeness of the classifier
Vergelyking vir akkuraatheid wat nietjie verkeerd lyk:
=(true positives+true negatives)/(positive population+negative population)
Senstivity
=(true positives)/(true positives + false negatives)
=true positives/positive population
Die omgekeerde van sensitivty
Specificity
= TN/(TN + FP)
Ability of the test to correctly rule out disease in a disease free population
Gaan weer deur daardie boorbeeld van disease en die verskil tussen senstivity en specificity
Waarvoor staan ROC?
Receiver operating curve
Hoe werk ROC curves
Nie seker, jy verander n threshold value, dan verander die klassifikasie. Bb klassifiseer alles as positief, dan vang jy al die wat actuall positief is, soos jy aanbeweeg, skakel jy dan van die flase positiefs uit. So hulle stel dit voor as n plot, met true positives op die y, en false positives op die x
Hoe lyk die ideale lyn vir die perfekte classifier?
Vang al die true positives met geen false positives. Lyn reguit op met die y, dan regs op die x
A classifier with no power?
Will sit on the diagonal. For every increase in correctly identifying true positives, the amount of false positives also increase
ROC curves kan dan gebruik word
Vir die selection van threshold value, en dit hang af van die situasie. Bv, ons sal eerder fals positiefs aanvaat om seker te maak ons vang almal wat dalk kanker het. Maar om te clear, wil ons eerder vals negatiefs he, omdat ons wil nie vir iemand se hulle is reg as hulle nie is
Wanneer ons met ROCs werk, wat is die mees algemene maatstaf asof die classifier werk?
Auc - area under the curve
Wanneer dal jy n ROC gebruik
The technique is applicable to any classifier producing a score for each case, rather than a binary decision
Predictors =
Features and lives in the feature space
Partitioning the feature space
Buzzzzz words
The feature space only contains?
Features
Hoe gebruik ons die feature space om te predict?
As jou nuwe, onbekende punt, in n area val waar die response bekend is, weet ons wat die waarskynlikheid is wat die response gaan wees
In tree based partitioning word die space gesplit in?
Reghoeke
Wat as jou feature space uit meer as twee dimensies bestaan?
No problem, net moeilik om te visualise
Waarvoor staan CART
Classification and regression tree
Basic premise of CART
Recursive binary splitting
Wat beteken recursive binary splitting
Word gebruik deur iets soos CART, ittereer deur al die dimensies, en n split word gemaak waar daar die grootste afname is in die error measurement
Greedy approach?
So met CART, partition is gebasseer op die grootse afname in fout, en werk van daar af. Dit is nie te se dat daar nie, as jy n ander roete sou volg, n beter benadering soi gewees het nie (vir die algemene fout)
So hoe stop mens cart, want hy kan, afhangende van die hoeveelheid dimensies, net aanhou split
Deur n stopping criteria in plek te he. By, die laaste leaf, partition, moet ten minste 5% van die data bevat
Hoe lees mems nie treue en false op n decision tree?
Linker branch is true
Wat stel die laaste node in n decision tree voor?
Die spesifieke gedeelte van die feature space
Ander naam vir n error measure?
Cost function
Watse cost function word gebruik vir tree based regressie?
Residual sum of squares
Drie cost functions wat gebruik word by tree based classification
Gini index
Shannon entropy
Misclassification error
So hoe werk die aanvanklik split van dimensie met CART (regressie voorbeeld)
SRR vir die gem, sit dan n split in. Soos jy oor die x as beweeg (die split waarde), verander die grootte van die fout, tot waar jy dan die grootste afname kry. So hy sal dit doen vir al die dimensies, met n aantal splits, om die beste een te kry
So vir partinioning the feature space met regressie, gebruik ons RSS, maar vir klassifikasie?
Werk ons met waarskynlikhede, so hy tel die soortgelyke responses en werk n waarskynlikheid uit. Dit kan dan in n gini index invoer, om joi n syfer te gee van hoe soortgelyk die items is
Hoe lyk die gini indeks se funskie
Waarskynlikheid van nil en een, is dit baie naby aan nil. Waarskynlikheid van 0.5, return hy ook n 0.5