Data science - Module 2 Flashcards

1
Q

Mathematically, a list of numbers is represented by an object called?

A

A vector

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

How do we map discrete data points?

A

By assigning numerical values, i.e. true = 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Feature space?

A

Is eintlik maar observasie “leef”, so vir twee dimensies, n x en y scatter plot

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Is ons beperk ten opsigte van dimensies?

A

Nee, grafies ja, tot drie. Maar wiskundig, baie meer. Wees maar net versigtig, want hoe meer dimensies daar is, hoe meer data gaan jy nodig he om te train

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Eerste voorbeeld van hoe hulle responses map tot die feature space?

A

Alles sit daar, en toe het hulle die fraudulent goed omkring

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat se issue is daar met unbalanced classes?

A

As jy baie baie vam die een het, en min van die ander, sal die predictor neig na waar die volume is

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Klassieke boorbeeld van n class imbalance classification probleem

A

Om credit card fraud om te tel, omdat dit n klein handjievol uitmaak van die totale dataset

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Class imbalances can lead to a accuracy paradox?

A

Jip, dit is een van die hoof maatstawe, maar dit reflekteer nie die wanbalans in die onderliggende datastel

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Eerste boor die handliggende oplossing om class imbalances teen te werk?

A

Kry meer data, veral van die een waarvan jy n tekort het

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Gaan nog in meer detail ingaan, maar die tweede ding wat ky kan doen om n imbalanced dataset te benader?

A

Verander die performance metric. So gaan nie oor absolute akkuraatheid nie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat beteken resampling in die konteks van class imbalances?

A

Jy kry over-sampling (maak duplikate van die underrepresented instances)

Jy kry ook under-sampling, waar jy van die entries delete wat over represented is

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wanneer sal j under-sampling gebruik

A

Wanneer jy met honderde duisende gevalle sit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wanneer sal jy over-sampling gebruik?

A

Wanneer jou datastel oor die algemeen kleiner is

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Soortgelyk aan over-sampling, maar jy copy nie die data nie?

A

Generating synthetic samples. Gebruik metodes soos SMOTE (synthetic, minority over-sampling technique)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Die byfde metode om class imbalances aan te spreek?

A

Probeer verskillende algoritmes. Belangrik om nie net altyd dieselfde te gebruik nie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Decision trees often perform poor on imbalanced datatsets

A

False

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

In Python, noem populere decision tree algoritmes

A

Scikit learn, CART

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Sesde metode om class balances aan te spreek?

A

Penalized models - so assign n groter cost function wanneer die model die minority goed verkeerd kry

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Classification accuracy is nie die enigste performance metric nie. Twee ander?

A

Precision and recall performance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Waarvoor staan CART?

A

Classification and Regression trees

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Ander naam vir n confusion matrix?

A

Contigency table

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hoeveel selle sal n confusion matrix he, as dit n binere sisteem is, met twee responses

A

4 selle, en elkeen wys joeveel in elke inval

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

So met n confusion matrix, op die kolom sit jy model output, en op die ry die actual

A

Ja?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Definisie van precision?

A

True positives/(true positives+false positives)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Wat is die definisie van Recall

A

True positives/(true positives + false negatives)

26
Q

A low recall indicates?

A

Many false negatives

27
Q

In eenvoudige terme, wat is die F1 score?

A

Die FI score conveys the balance between precision and recall

28
Q

F1 score =

A

(Precision+recall)/(precision*recall)

29
Q

Ander naam vir precision

A

Positive predictive value

30
Q

Ander name vir recall?

A

Sensitivity of die True positive rate

31
Q

Recall can be thought of as the

A

Completeness of the classifier

32
Q

Vergelyking vir akkuraatheid wat nietjie verkeerd lyk:

A

=(true positives+true negatives)/(positive population+negative population)

33
Q

Senstivity

A

=(true positives)/(true positives + false negatives)
=true positives/positive population

34
Q

Die omgekeerde van sensitivty

A

Specificity
= TN/(TN + FP)
Ability of the test to correctly rule out disease in a disease free population

35
Q

Gaan weer deur daardie boorbeeld van disease en die verskil tussen senstivity en specificity

A
36
Q

Waarvoor staan ROC?

A

Receiver operating curve

37
Q

Hoe werk ROC curves

A

Nie seker, jy verander n threshold value, dan verander die klassifikasie. Bb klassifiseer alles as positief, dan vang jy al die wat actuall positief is, soos jy aanbeweeg, skakel jy dan van die flase positiefs uit. So hulle stel dit voor as n plot, met true positives op die y, en false positives op die x

38
Q

Hoe lyk die ideale lyn vir die perfekte classifier?

A

Vang al die true positives met geen false positives. Lyn reguit op met die y, dan regs op die x

39
Q

A classifier with no power?

A

Will sit on the diagonal. For every increase in correctly identifying true positives, the amount of false positives also increase

40
Q

ROC curves kan dan gebruik word

A

Vir die selection van threshold value, en dit hang af van die situasie. Bv, ons sal eerder fals positiefs aanvaat om seker te maak ons vang almal wat dalk kanker het. Maar om te clear, wil ons eerder vals negatiefs he, omdat ons wil nie vir iemand se hulle is reg as hulle nie is

41
Q

Wanneer ons met ROCs werk, wat is die mees algemene maatstaf asof die classifier werk?

A

Auc - area under the curve

42
Q

Wanneer dal jy n ROC gebruik

A

The technique is applicable to any classifier producing a score for each case, rather than a binary decision

43
Q

Predictors =

A

Features and lives in the feature space

44
Q

Partitioning the feature space

A

Buzzzzz words

45
Q

The feature space only contains?

A

Features

46
Q

Hoe gebruik ons die feature space om te predict?

A

As jou nuwe, onbekende punt, in n area val waar die response bekend is, weet ons wat die waarskynlikheid is wat die response gaan wees

47
Q

In tree based partitioning word die space gesplit in?

A

Reghoeke

48
Q

Wat as jou feature space uit meer as twee dimensies bestaan?

A

No problem, net moeilik om te visualise

49
Q

Waarvoor staan CART

A

Classification and regression tree

50
Q

Basic premise of CART

A

Recursive binary splitting

51
Q

Wat beteken recursive binary splitting

A

Word gebruik deur iets soos CART, ittereer deur al die dimensies, en n split word gemaak waar daar die grootste afname is in die error measurement

52
Q

Greedy approach?

A

So met CART, partition is gebasseer op die grootse afname in fout, en werk van daar af. Dit is nie te se dat daar nie, as jy n ander roete sou volg, n beter benadering soi gewees het nie (vir die algemene fout)

53
Q

So hoe stop mens cart, want hy kan, afhangende van die hoeveelheid dimensies, net aanhou split

A

Deur n stopping criteria in plek te he. By, die laaste leaf, partition, moet ten minste 5% van die data bevat

54
Q

Hoe lees mems nie treue en false op n decision tree?

A

Linker branch is true

55
Q

Wat stel die laaste node in n decision tree voor?

A

Die spesifieke gedeelte van die feature space

56
Q

Ander naam vir n error measure?

A

Cost function

57
Q

Watse cost function word gebruik vir tree based regressie?

A

Residual sum of squares

58
Q

Drie cost functions wat gebruik word by tree based classification

A

Gini index
Shannon entropy
Misclassification error

59
Q

So hoe werk die aanvanklik split van dimensie met CART (regressie voorbeeld)

A

SRR vir die gem, sit dan n split in. Soos jy oor die x as beweeg (die split waarde), verander die grootte van die fout, tot waar jy dan die grootste afname kry. So hy sal dit doen vir al die dimensies, met n aantal splits, om die beste een te kry

60
Q

So vir partinioning the feature space met regressie, gebruik ons RSS, maar vir klassifikasie?

A

Werk ons met waarskynlikhede, so hy tel die soortgelyke responses en werk n waarskynlikheid uit. Dit kan dan in n gini index invoer, om joi n syfer te gee van hoe soortgelyk die items is

61
Q

Hoe lyk die gini indeks se funskie

A

Waarskynlikheid van nil en een, is dit baie naby aan nil. Waarskynlikheid van 0.5, return hy ook n 0.5