CPH-flights I Flashcards
Hvad er Histogrammer
Histogrammer er måde hurtigt at illustrere ens data på.
Søjlerne kaldes bin og er inddelt efter intervaller.
Forklar de 3 forskellige undergrupperinger
Venstreskæv: Buen er over i venstre side af x-aksen
- Gennemsnit og medianen er ikke den samme = outliers
- Eksempel: Alder i Afrika eller ventetiden ved kundeservice
Normal: Buen er i midten og ligner en klokke
- Gennemsnit og medianen er ca den samme = ingen eller få outliers
- Eksempel: løn
Uniform: Der er ikke nogen bue
- Eksempel: slå med en terning (chancen er lige stor for hver tal)
Hvad er Missing data og hvad gør du hvis du oplever det?
Man kan opleve at i nogle datasæt, mangler man noget data = missing data
Hvis man ikke kan finde denne data, kan man være nødt til at lave et estimat
- Det lavet ud fra domænekendskab
Hvis det ikke er muligt at lave et estimat, kan det være man er nødt til at slette en række eller se bort fra den manglende værdi
Outliers
Outliers er datapunkter der er ekstreme/ligger langt vægt fra de andre punkter
- Gennemsnittet bliver påvirket af outliers
- Median bliver som sådan ikke påvirket af outliers
- Hvis gennemsnittet og medianen ligger langt fra hinanden kan det indikere at der er outliers i datasættet
Forklar Boksplot
Boksplot er med til at gøre det nemt at identificere outliers, samt grænserne ( tegn det)