Data Science - MODULE 3 CODE Flashcards
As jy train_test_split gebruik, wat is die default split
Kwart van jou data word dan test data, driekwart om mee te train
Drie imports vanaf sckikit learn wanneer jy n tree based classifier wil doen, met pruning
From sklearn.tree import DecisionTreeClassifier, plot_tree
From sklearn.model_selection import train_test_split, cross_val_score
From sklearn.metrics import accuracy_score
To read a csv
Import pandas as pd
Df = pd.read_csv(‘naam.csv’, delimiter = “,”)
Metode om n seker hoeveelheid rekords te sample?
Df.sample(10,random_state =0)
Df.count()
Generate a text table met die colum headings en die hoeveelheid entries in elke kolom
As j in een veranderlike die aantal rye soek
=len(df[:])
Se maar jy wil net die rye tel, waar n seker kolomwaarde geld
Len(df[df.columnName==”yes”])
Wanneer jy features en responses split hardloop altyd daarna die head() funksie
Jup, om seker te maak jynhet die regte data. Moet column headings bold
As jy nou features matriks het, sowel as die responses. Hoe split jy nou die data in train en test data?
Deur gebruik te maak van die scikit livrary wat geimport was
From sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=0)
Hoe selekteer train_test_split die data
Randomly, dit is nie net n cut nie. As jy bv head hardloop op altwee nuwe matrikse, sal jy sien dieselfde rye word gereference
Om n instance te skep van die DecisionTreeClassifier en die fit te doen?
Classifier = DecisionTreeClassifier(random_state = 0)
Classifier.fit(X_train,y_train)
Hoe format ek n float om 2 desimale te wys?
{:2.2%}.format(variable)
Hoe lry ek die diepte en die aantal leaves van n decision tree?
Classifier.get_depth()
Classifier.get_n_leaves()
Refresher, hoe generate ek die matriks van die samples wat ek wil toets met die cross validation
Samples = [sample for sample in range(0,50)]
Hoe lyk die for dan?
For sample in samples:
(Indent)
Hoe skep hy aanvanklik die plekhouer vir die classifiers, en hoe sit jy die nuwe in?
Classifiers = []
Classifiers.append(temp_classifier)
Hy fit dit ook voor hy dit insit
So daar is n makliker manier ook om die akkuraatheid te kry?
Jip, die classifier het ook n score method, so dit is
Classifier.score(X_test, y_test)
So na ons nou al die classifiers generate het, en die modelle opgestel jet met fit, hoe kan jy al die accuracies kry?
Bv. Train_scores = [clf.score(X_train,y_train) for clf in classifiers]
Hoe het hy aanvanklik die figure verklaar nou met die twee accuracy lyne?
Fig, ax = plt.subplots()
Hoe set jy die labels vir die figuur met die asse?
ax.set_xlabel(“x as naam”)
Selfde vir y label
Hoe doen mens die titel van die figuur?
ax.set_title(“titel”)
Hoe populate jy dan plot met een van die datastelle?
Ax.plot(samples, train_scores, marker=’o’, label=”train”, drawstyle=”steps-post”)
As jybdie legen op n figuur wil sit?
ax.legend()
Hoe generate ek n array van al dir leaves per classifier?
Nr_leaves = [clf.get_n_leaves() for clf in classifiers]
Hoe generate jy die scores vir die cross validation
Classifier_temp_cross_val = DecisionTreeClassifier (random_state=1, min_samples_leaf=sample)
Score = cross_val_score(estimator=classifier declared, X=X_train, y=y_train, cv=5)
Validation_scores.append(score.mean())
Twee arrays, joe extract ek dan bv die hoeveelheid damples wat gepaardgaan met die maksimum score?
Samples[validation_scores.index(max(validation_scores))]
Watter ander metodes is daar om te prune?
Max_depth
Max_leaf_nodes
Min_impurity_decrease
Min_samples_split
Waarvoor moet j versigtig wees as jy met kategoriee bv werk as input met n decision tree?
Dat daar nie onnodige waarde toegeskry word daaraan nie. Dit is net n nommer, en het nie verdere betekenis, normaal geassosieer met n nommer nie. Ons moet one hot encoding doen
You can explor the unique values within a column?
Df[‘kolomNaam’].unique()
Hierdie is n moeilike een, hoe skep mens die one hot encoder?
Encoder = OneHotEncoder(categories=’auto’)
Xd = Encoder.fit_transform(df.KolomNaam.values.reshape(-1,1)).toArray()
Df_ohe = pd.DataFrame(Xd, columns=[“KolomNaam”+str(int(i)) for i in range (Xd.shape[1])])
Importing the one hot encoder
From sklearn.preprocessing import OneHotEncoder
Hoe convert jy n pandas index na n list to?
Df.index.tolist()
Hoe save ek n figuur?
Plt.savefig(‘naam.png’)