Færgefart Flashcards
Forklar de to typer af data udforskning
Univariat analyse: man kigger på kolonne og kolonne
Bi- og multivariat analyse: man kigger på sammenhængen mellem kolonnerne
Forklar middelværdi, frekvens, outliers
Middelværdi: alle værdierne lagt sammen og divideret med antallet af værdierne
Frekvens: Antallet af gange en bestemt begivenhed eller hændelse forekommer inden for en specifik tidsperiode eller i en given datasæt.
Outliers: en værdi som afviger fra det resterende datasæt
Forklar de 3 typer af Missing data
MCAR: Missing Completely at Random
- Manglende værdier forekommer helt tilfældigt
o Fx ved en sensormåling, hvor noget af dataen/målingerne er tabt pga. tekniske fejl
MNAR: Missing Not at Random
- De manglende data er relateret til de ting, vi mangler oplysninger om, og denne sammenhæng er ikke vist i vores datasæt
o Fx respondenten ønsker ikke at svarer på et spørgsmål
MAR: Missing at Random
- De manglende data er relateret til andre ting i datasættet, men ikke til det, vi mangler oplysninger om
o Fx man mangler en kundes postnummer, fordi han er bosat i udlandet
Hvad er Kardinalitet
Visser hvor mange unikke værdier der er i ens datasæt.
- Fx man har et datasæt med 38.734 observationer. Kardinaliteten på kolonnen med unikke nøgler er 36.512.
o Der må derfor være duplikationer i datasættet
Hvad er Granularitet
Hvor fint/detaljeret ens datasæt er
- Høj granularitet: en butik har data for hver varekøb med tid, dato og kundeinformation
- Lav granularitet: en butik har alt salgs data opsummeret pr måned uden detaljer om salget
Hvad er Spredning
Spredning måler hvor homogene eller heterogene ens datasæt er
- Homogene = dataene ligger tæt på hinanden = ikke meget spredning
- Heterogene = dataene ligger langt fra hinanden = meget spredning
Man kan godt have samme gennemsnit, men forskellig spredning
Forklar Fraktiler
Fraktiler fortæller hvor stor en andel af dine observationer, der er større end en vis værdi.
- Første kvartil (Q1): Deler de nederste 25% af dataene fra de øverste 75%.
- Andet kvartil (Q2): Deler datasættet i to lige store dele. Det er medianen.
- Tredje kvartil (Q3): Deler de nederste 75% af dataene fra de øverste 25%.
Forklar de to typer af fraktildiagrammer
Der findes to måder at fremstille fraktiler på: boksplot og percentilkurve
Formålet er at man nemt kan identificere outliers (boksplot) og giver en forståelse af ens data
Hvad er Standardafvigelsen
Fortæller om hvor meget et datapunkt varierer fra gennemsnittet
- Lav standardafvigelse: der er lille spredning mellem data
- Høj standardafvigelse: der er stor spredning mellem data