Data science - Module 2 Flashcards
Mathematically, a list of numbers is represented by an object called?
A vector
How do we map discrete data points?
By assigning numerical values, i.e. true = 1
Feature space?
Is eintlik maar observasie “leef”, so vir twee dimensies, n x en y scatter plot
Is ons beperk ten opsigte van dimensies?
Nee, grafies ja, tot drie. Maar wiskundig, baie meer. Wees maar net versigtig, want hoe meer dimensies daar is, hoe meer data gaan jy nodig he om te train
Eerste voorbeeld van hoe hulle responses map tot die feature space?
Alles sit daar, en toe het hulle die fraudulent goed omkring
Wat se issue is daar met unbalanced classes?
As jy baie baie vam die een het, en min van die ander, sal die predictor neig na waar die volume is
Klassieke boorbeeld van n class imbalance classification probleem
Om credit card fraud om te tel, omdat dit n klein handjievol uitmaak van die totale dataset
Class imbalances can lead to a accuracy paradox?
Jip, dit is een van die hoof maatstawe, maar dit reflekteer nie die wanbalans in die onderliggende datastel
Eerste boor die handliggende oplossing om class imbalances teen te werk?
Kry meer data, veral van die een waarvan jy n tekort het
Gaan nog in meer detail ingaan, maar die tweede ding wat ky kan doen om n imbalanced dataset te benader?
Verander die performance metric. So gaan nie oor absolute akkuraatheid nie
Wat beteken resampling in die konteks van class imbalances?
Jy kry over-sampling (maak duplikate van die underrepresented instances)
Jy kry ook under-sampling, waar jy van die entries delete wat over represented is
Wanneer sal j under-sampling gebruik
Wanneer jy met honderde duisende gevalle sit
Wanneer sal jy over-sampling gebruik?
Wanneer jou datastel oor die algemeen kleiner is
Soortgelyk aan over-sampling, maar jy copy nie die data nie?
Generating synthetic samples. Gebruik metodes soos SMOTE (synthetic, minority over-sampling technique)
Die byfde metode om class imbalances aan te spreek?
Probeer verskillende algoritmes. Belangrik om nie net altyd dieselfde te gebruik nie
Decision trees often perform poor on imbalanced datatsets
False
In Python, noem populere decision tree algoritmes
Scikit learn, CART
Sesde metode om class balances aan te spreek?
Penalized models - so assign n groter cost function wanneer die model die minority goed verkeerd kry
Classification accuracy is nie die enigste performance metric nie. Twee ander?
Precision and recall performance
Waarvoor staan CART?
Classification and Regression trees
Ander naam vir n confusion matrix?
Contigency table
Hoeveel selle sal n confusion matrix he, as dit n binere sisteem is, met twee responses
4 selle, en elkeen wys joeveel in elke inval
So met n confusion matrix, op die kolom sit jy model output, en op die ry die actual
Ja?
Definisie van precision?
True positives/(true positives+false positives)