3. Data exploration and cleaning Flashcards

1
Q

df.shape()

A

Toont aantal rijen en kolommen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

df.info()

A

Toont aantal waarden per kolom, datatype, geheugen verbruikt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

df.describe()

A

gemiddelde, standaarddeviatie, min en max, kwartielen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

.value_counts()

A

Hoe vaak iets voorkomt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

.value_counts(normalize=true)

A

Aandeel/ proportie van iets

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

.unique()

A

Toont de unieke waarden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

.countplot()

A

Toont visueel hoe vaak iets voorkomt in een staafdiagram

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

df[‘x’].value_counts().plot.pie

A

Toont visueel hoe vaak iets voorkomt in een taartdiagram

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

pd.crosstab(df[‘sex’], df[‘island’])

A

Vergelijkt gegevens in een tabel op basis van twee categorische variabelen (hier geslacht en eiland)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

pd.read_csv(…)

A

Leest het bestand en slaat het op

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

df.head(10)

A

Toont de eerste 10 rijen van deze data frame

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

df.isnull().sum()

A

Geeft een overzicht van alle missende waarde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

df = df[df.isnull().sum(axis=1) < 5]

A

Filtert rijen waarbij het aantal ontbrekende waarden kleiner is dan 5

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

.dropna(axis=1)

A

Verwijdert kolommen die ten minste één NaN bevatten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

.SimpleImputer(strategy=mean)

A

Invullen van ontbrekende waarden met het gemiddelde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Truncate

A

Waardes boven/onder een bepaalde grens worden als outliers gezien en verwijderd

17
Q

Winsorize

A

Waardes boven/onder een bepaalde grens worden als outliers gezien en vervangen door de grenswaarde

18
Q

Multicollinaerity

A

Wanneer 2 onafhankelijke variabele een hoge correlatie hebben, verstoort het andere metingen

19
Q

sns.heatmap(df.corr(numeric_only=true))

A

Nummerieke kolommen worden voorgesteld in een heatmap

20
Q

ons.pairplot(df,hue=”species”,height=1,5)

A

Visualiseert de relatie tussen soort en lengte in een pairplot