Data Science - MODULE 3 CODE Flashcards
As jy train_test_split gebruik, wat is die default split
Kwart van jou data word dan test data, driekwart om mee te train
Drie imports vanaf sckikit learn wanneer jy n tree based classifier wil doen, met pruning
From sklearn.tree import DecisionTreeClassifier, plot_tree
From sklearn.model_selection import train_test_split, cross_val_score
From sklearn.metrics import accuracy_score
To read a csv
Import pandas as pd
Df = pd.read_csv(‘naam.csv’, delimiter = “,”)
Metode om n seker hoeveelheid rekords te sample?
Df.sample(10,random_state =0)
Df.count()
Generate a text table met die colum headings en die hoeveelheid entries in elke kolom
As j in een veranderlike die aantal rye soek
=len(df[:])
Se maar jy wil net die rye tel, waar n seker kolomwaarde geld
Len(df[df.columnName==”yes”])
Wanneer jy features en responses split hardloop altyd daarna die head() funksie
Jup, om seker te maak jynhet die regte data. Moet column headings bold
As jy nou features matriks het, sowel as die responses. Hoe split jy nou die data in train en test data?
Deur gebruik te maak van die scikit livrary wat geimport was
From sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=0)
Hoe selekteer train_test_split die data
Randomly, dit is nie net n cut nie. As jy bv head hardloop op altwee nuwe matrikse, sal jy sien dieselfde rye word gereference
Om n instance te skep van die DecisionTreeClassifier en die fit te doen?
Classifier = DecisionTreeClassifier(random_state = 0)
Classifier.fit(X_train,y_train)
Hoe format ek n float om 2 desimale te wys?
{:2.2%}.format(variable)
Hoe lry ek die diepte en die aantal leaves van n decision tree?
Classifier.get_depth()
Classifier.get_n_leaves()
Refresher, hoe generate ek die matriks van die samples wat ek wil toets met die cross validation
Samples = [sample for sample in range(0,50)]
Hoe lyk die for dan?
For sample in samples:
(Indent)