3. Data exploration and cleaning Flashcards

Question 1

Q

df.shape()

Answer

A

Toont aantal rijen en kolommen

Question 2

Q

df.info()

Answer

A

Toont aantal waarden per kolom, datatype, geheugen verbruikt

Question 3

Q

df.describe()

Answer

A

gemiddelde, standaarddeviatie, min en max, kwartielen

Question 4

Q

.value_counts()

Answer

A

Hoe vaak iets voorkomt

Question 5

Q

.value_counts(normalize=true)

Answer

A

Aandeel/ proportie van iets

Question 6

Q

.unique()

Answer

A

Toont de unieke waarden

Question 7

Q

.countplot()

Answer

A

Toont visueel hoe vaak iets voorkomt in een staafdiagram

Question 8

Q

df[‘x’].value_counts().plot.pie

Answer

A

Toont visueel hoe vaak iets voorkomt in een taartdiagram

Question 9

Q

pd.crosstab(df[‘sex’], df[‘island’])

Answer

A

Vergelijkt gegevens in een tabel op basis van twee categorische variabelen (hier geslacht en eiland)

Question 10

Q

pd.read_csv(…)

Answer

A

Leest het bestand en slaat het op

Question 11

Q

df.head(10)

Answer

A

Toont de eerste 10 rijen van deze data frame

Question 12

Q

df.isnull().sum()

Answer

A

Geeft een overzicht van alle missende waarde

Question 13

Q

df = df[df.isnull().sum(axis=1) < 5]

Answer

A

Filtert rijen waarbij het aantal ontbrekende waarden kleiner is dan 5

Question 14

Q

.dropna(axis=1)

Answer

A

Verwijdert kolommen die ten minste één NaN bevatten

Question 15

Q

.SimpleImputer(strategy=mean)

Answer

A

Invullen van ontbrekende waarden met het gemiddelde

Question 16

Q

Truncate

Answer

A

Waardes boven/onder een bepaalde grens worden als outliers gezien en verwijderd

Question 17

Q

Winsorize

Answer

A

Waardes boven/onder een bepaalde grens worden als outliers gezien en vervangen door de grenswaarde

Question 18

Q

Multicollinaerity

Answer

A

Wanneer 2 onafhankelijke variabele een hoge correlatie hebben, verstoort het andere metingen

Question 19

Q

sns.heatmap(df.corr(numeric_only=true))

Answer

A

Nummerieke kolommen worden voorgesteld in een heatmap

Question 20

Q

ons.pairplot(df,hue=”species”,height=1,5)

Answer

A

Visualiseert de relatie tussen soort en lengte in een pairplot