Færgefart Flashcards

1
Q

Forklar de to typer af data udforskning

A

Univariat analyse: man kigger på kolonne og kolonne
Bi- og multivariat analyse: man kigger på sammenhængen mellem kolonnerne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Forklar middelværdi, frekvens, outliers

A

Middelværdi: alle værdierne lagt sammen og divideret med antallet af værdierne

Frekvens: Antallet af gange en bestemt begivenhed eller hændelse forekommer inden for en specifik tidsperiode eller i en given datasæt.

Outliers: en værdi som afviger fra det resterende datasæt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Forklar de 3 typer af Missing data

A

MCAR: Missing Completely at Random
- Manglende værdier forekommer helt tilfældigt
o Fx ved en sensormåling, hvor noget af dataen/målingerne er tabt pga. tekniske fejl

MNAR: Missing Not at Random
- De manglende data er relateret til de ting, vi mangler oplysninger om, og denne sammenhæng er ikke vist i vores datasæt
o Fx respondenten ønsker ikke at svarer på et spørgsmål

MAR: Missing at Random
- De manglende data er relateret til andre ting i datasættet, men ikke til det, vi mangler oplysninger om
o Fx man mangler en kundes postnummer, fordi han er bosat i udlandet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvad er Kardinalitet

A

Visser hvor mange unikke værdier der er i ens datasæt.
- Fx man har et datasæt med 38.734 observationer. Kardinaliteten på kolonnen med unikke nøgler er 36.512.
o Der må derfor være duplikationer i datasættet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad er Granularitet

A

Hvor fint/detaljeret ens datasæt er
- Høj granularitet: en butik har data for hver varekøb med tid, dato og kundeinformation
- Lav granularitet: en butik har alt salgs data opsummeret pr måned uden detaljer om salget

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvad er Spredning

A

Spredning måler hvor homogene eller heterogene ens datasæt er
- Homogene = dataene ligger tæt på hinanden = ikke meget spredning
- Heterogene = dataene ligger langt fra hinanden = meget spredning
Man kan godt have samme gennemsnit, men forskellig spredning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Forklar Fraktiler

A

Fraktiler fortæller hvor stor en andel af dine observationer, der er større end en vis værdi.

  • Første kvartil (Q1): Deler de nederste 25% af dataene fra de øverste 75%.
  • Andet kvartil (Q2): Deler datasættet i to lige store dele. Det er medianen.
  • Tredje kvartil (Q3): Deler de nederste 75% af dataene fra de øverste 25%.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Forklar de to typer af fraktildiagrammer

A

Der findes to måder at fremstille fraktiler på: boksplot og percentilkurve
Formålet er at man nemt kan identificere outliers (boksplot) og giver en forståelse af ens data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvad er Standardafvigelsen

A

Fortæller om hvor meget et datapunkt varierer fra gennemsnittet
- Lav standardafvigelse: der er lille spredning mellem data
- Høj standardafvigelse: der er stor spredning mellem data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly