Data Science MODULE 2 CODE Flashcards
Wat se library bring jy in vir die decision tree regressor?
From sklearn.tree import DecisionTreeRegressor, plot_tree
Hoe bring jy die data in?
Df = pd.read_csv(‘Boston.csv’,delimiter=”,”)
Hoe sien jy die dimensies van die data stel ingebring?
Df.shape
Gee vir jou die aantal rye en kolomme. Headings word outomaties gestoor as headings, en hy gee die actual rye
Hoe sal jy die eerste paar, of laaste paar van die rekords display?
Df.head(5)
Df.tail(10)
To display the amount of null values per column?
Print(df.isnull().sum())
Hoe check ek of daar null values is in die dataframe?
Df.isnull().sum().sum()
Of df.isnull().values.any()
Eerste sal n nil return, tweede een n false
Om die median van n kolom te stoor in n veranderlike?
X = df[‘kolomNaam’].median()
Om all null waardes in n kolom te vervang met n waarde
Df[‘kolomNaam’].fillna(waarde,inplace=true)
Om die regressor te hardloop moet jy nou twee mayrikse skep vanaf die oorspronklike? Hoe doen mens dit?
Waar
X = df.loc[:,[“kolom1”,”kolom2” ens]]
Belangrik is die dubbel aanhaling
Die aanvanklike dubbelpunt se maar net al die rye
Jy kan ook die “kolomnaam” met n syfer vervang om presies te se wat jy soek
Hoe skep ek n instance van die regressor en fit die data?
Regressor = DecisionTreeRegressor(random_state=0)
Regressor= regressor.fit(x,y)
As jy hulp soek?
Help(regressor)
As jy nou die regressor gefit het, hoe plot jy die hele decision tree?
Plt.figure()
Plot_tree(regressor, feature_names=x.columns)
Plt.show()
Hoe plot jy bv net die eerste 3 layers van die decisiontree?
Plt.figure(figsize=[5,5], dpi=100)
Plot_tree(regressor, max_depth=3, feature_names=x.columns, impurity=false)
Plt.show()
Hoe sal jy die average bepaal van n kolom, maar met n filter
X_mean = df.loc[df[‘rm’]>6][‘medv’].mean()
Count met n filter
Presies dieselfde metode, net met n count
Daar is ook n len() en j prop joi mayriks in, dan heen jy die rye