3. Data exploration and cleaning Flashcards
df.shape()
Toont aantal rijen en kolommen
df.info()
Toont aantal waarden per kolom, datatype, geheugen verbruikt
df.describe()
gemiddelde, standaarddeviatie, min en max, kwartielen
.value_counts()
Hoe vaak iets voorkomt
.value_counts(normalize=true)
Aandeel/ proportie van iets
.unique()
Toont de unieke waarden
.countplot()
Toont visueel hoe vaak iets voorkomt in een staafdiagram
df[‘x’].value_counts().plot.pie
Toont visueel hoe vaak iets voorkomt in een taartdiagram
pd.crosstab(df[‘sex’], df[‘island’])
Vergelijkt gegevens in een tabel op basis van twee categorische variabelen (hier geslacht en eiland)
pd.read_csv(…)
Leest het bestand en slaat het op
df.head(10)
Toont de eerste 10 rijen van deze data frame
df.isnull().sum()
Geeft een overzicht van alle missende waarde
df = df[df.isnull().sum(axis=1) < 5]
Filtert rijen waarbij het aantal ontbrekende waarden kleiner is dan 5
.dropna(axis=1)
Verwijdert kolommen die ten minste één NaN bevatten
.SimpleImputer(strategy=mean)
Invullen van ontbrekende waarden met het gemiddelde
Truncate
Waardes boven/onder een bepaalde grens worden als outliers gezien en verwijderd
Winsorize
Waardes boven/onder een bepaalde grens worden als outliers gezien en vervangen door de grenswaarde
Multicollinaerity
Wanneer 2 onafhankelijke variabele een hoge correlatie hebben, verstoort het andere metingen
sns.heatmap(df.corr(numeric_only=true))
Nummerieke kolommen worden voorgesteld in een heatmap
ons.pairplot(df,hue=”species”,height=1,5)
Visualiseert de relatie tussen soort en lengte in een pairplot