Data Science - MODULE 3 CODE Flashcards by Danie Le Roux

As jy train_test_split gebruik, wat is die default split

Kwart van jou data word dan test data, driekwart om mee te train

How well did you know this?

Not at all

Perfectly

Drie imports vanaf sckikit learn wanneer jy n tree based classifier wil doen, met pruning

From sklearn.tree import DecisionTreeClassifier, plot_tree
From sklearn.model_selection import train_test_split, cross_val_score
From sklearn.metrics import accuracy_score

How well did you know this?

Not at all

Perfectly

To read a csv

Import pandas as pd

Df = pd.read_csv(‘naam.csv’, delimiter = “,”)

How well did you know this?

Not at all

Perfectly

Metode om n seker hoeveelheid rekords te sample?

Df.sample(10,random_state =0)

How well did you know this?

Not at all

Perfectly

Df.count()

Generate a text table met die colum headings en die hoeveelheid entries in elke kolom

How well did you know this?

Not at all

Perfectly

As j in een veranderlike die aantal rye soek

=len(df[:])

How well did you know this?

Not at all

Perfectly

Se maar jy wil net die rye tel, waar n seker kolomwaarde geld

Len(df[df.columnName==”yes”])

How well did you know this?

Not at all

Perfectly

Wanneer jy features en responses split hardloop altyd daarna die head() funksie

Jup, om seker te maak jynhet die regte data. Moet column headings bold

How well did you know this?

Not at all

Perfectly

As jy nou features matriks het, sowel as die responses. Hoe split jy nou die data in train en test data?

Deur gebruik te maak van die scikit livrary wat geimport was
From sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=0)

How well did you know this?

Not at all

Perfectly

Hoe selekteer train_test_split die data

Randomly, dit is nie net n cut nie. As jy bv head hardloop op altwee nuwe matrikse, sal jy sien dieselfde rye word gereference

How well did you know this?

Not at all

Perfectly

Om n instance te skep van die DecisionTreeClassifier en die fit te doen?

Classifier = DecisionTreeClassifier(random_state = 0)
Classifier.fit(X_train,y_train)

How well did you know this?

Not at all

Perfectly

Hoe format ek n float om 2 desimale te wys?

{:2.2%}.format(variable)

How well did you know this?

Not at all

Perfectly

Hoe lry ek die diepte en die aantal leaves van n decision tree?

Classifier.get_depth()
Classifier.get_n_leaves()

How well did you know this?

Not at all

Perfectly

Refresher, hoe generate ek die matriks van die samples wat ek wil toets met die cross validation

Samples = [sample for sample in range(0,50)]

How well did you know this?

Not at all

Perfectly

Hoe lyk die for dan?

For sample in samples:
(Indent)

How well did you know this?

Not at all

Perfectly

Hoe skep hy aanvanklik die plekhouer vir die classifiers, en hoe sit jy die nuwe in?

Study These Flashcards

Classifiers = []
Classifiers.append(temp_classifier)
Hy fit dit ook voor hy dit insit

So daar is n makliker manier ook om die akkuraatheid te kry?

Study These Flashcards

Jip, die classifier het ook n score method, so dit is
Classifier.score(X_test, y_test)

So na ons nou al die classifiers generate het, en die modelle opgestel jet met fit, hoe kan jy al die accuracies kry?

Study These Flashcards

Bv. Train_scores = [clf.score(X_train,y_train) for clf in classifiers]

Hoe het hy aanvanklik die figure verklaar nou met die twee accuracy lyne?

Study These Flashcards

Fig, ax = plt.subplots()

Hoe set jy die labels vir die figuur met die asse?

Study These Flashcards

ax.set_xlabel(“x as naam”)
Selfde vir y label

Hoe doen mens die titel van die figuur?

Study These Flashcards

ax.set_title(“titel”)

Hoe populate jy dan plot met een van die datastelle?

Study These Flashcards

Ax.plot(samples, train_scores, marker=’o’, label=”train”, drawstyle=”steps-post”)

As jybdie legen op n figuur wil sit?

Study These Flashcards

ax.legend()

Hoe generate ek n array van al dir leaves per classifier?

Study These Flashcards

Nr_leaves = [clf.get_n_leaves() for clf in classifiers]

Hoe generate jy die scores vir die cross validation

Classifier_temp_cross_val = DecisionTreeClassifier (random_state=1, min_samples_leaf=sample) Score = cross_val_score(estimator=classifier declared, X=X_train, y=y_train, cv=5) Validation_scores.append(score.mean())

Twee arrays, joe extract ek dan bv die hoeveelheid damples wat gepaardgaan met die maksimum score?

Samples[validation_scores.index(max(validation_scores))]

Watter ander metodes is daar om te prune?

Max_depth Max_leaf_nodes Min_impurity_decrease Min_samples_split

Waarvoor moet j versigtig wees as jy met kategoriee bv werk as input met n decision tree?

Dat daar nie onnodige waarde toegeskry word daaraan nie. Dit is net n nommer, en het nie verdere betekenis, normaal geassosieer met n nommer nie. Ons moet one hot encoding doen

You can explor the unique values within a column?

Df['kolomNaam'].unique()

Hierdie is n moeilike een, hoe skep mens die one hot encoder?

Encoder = OneHotEncoder(categories='auto') Xd = Encoder.fit_transform(df.KolomNaam.values.reshape(-1,1)).toArray() Df_ohe = pd.DataFrame(Xd, columns=["KolomNaam"+str(int(i)) for i in range (Xd.shape[1])])

Importing the one hot encoder

From sklearn.preprocessing import OneHotEncoder

Hoe convert jy n pandas index na n list to?

Df.index.tolist()

Hoe save ek n figuur?

Plt.savefig('naam.png')

Data Science - MODULE 3 CODE Flashcards

(33 cards)