Uge 37 - Lektion 4 - Beskrivende statistik Flashcards
Forklar hvad beskrivende statistik er
Beskrivende statistik referer til metoder vi kan indsamle vores data på.
Fx. gennem histogrammer, procenter eller gennemsnit
Hvorfor fungerer statistik?
–> forklar “Central Limit Theory”
Grundlæggende siger den centrale grænsesætning, at fordelingen af summen af et meget stort antal tilfældige variable under visse hypoteser nærmer sig en normalfordeling
Da vi ved at der opstår normalfordelinger i mange forskellige kontekster, kan vi på baggrund af et mindre datasæt af information drage inferens på en større befolkning, ved at forstå denne normalfordeling.
Hvad er fundamentet for inferentiel statistik?
Fundamentet for inferentiel statistik er at vores observationer er normal fordelte.
Forklar Skew, herunder positiv og negativ skew
Fordelingen af vores data i forhold til gennemsnittet
Vores data kan enten ligge til højre eller til venstre for gennemsnittet
Hvilken retning vores data bevæger sig påvirker, hvor vores gennemsnit er, og hvordan vores data ser ud som helhed.
Vi skal således være opmærksomme på outliers, hvis skew enten er positiv eller negativ
Til venstre → en positiv skew
Til højre → en negativ skew
Forklar Kurtosis
Omhandler hvor snæver eller hvor bred vores fordeling er
Negativ kurtosis → folk har svaret meget forskelligt
Positiv kurtosis → folk har svaret meget det samme
Forklar central tendens
(og de tre almindelige mål)
Handler om hvordan vores gennemsnitlige data ligger.
Der er tre almindelige mål for central tendens:
Middelværdi (the mean)
Gennemsnitsværdien: Man lægger alle tallene sammen (summen) og dividerer med antallet af tal.
Medianen (the median)
Det talmæssige midtpunkt i dataerne
Typetallet (the mode)
Den værdi der forekommer oftest i dataerne
Hvis to tal forekommer lige mange gange, kan der være flere typetaller.
Forklar sammenhængen mellem central tendens og frekvens fordelingen (skew og kurtosis)
Den centrale tendens påvirkes af vores frekvensfordeling (skew og kurtosis)
Hvis der er symmetrisk distribution er Mean, Median og Mode det samme.
Så snart dataen begynder at have en positiv eller negativ skew, påvirker det fordelingen af vores Mean, Median og Mode.
Forklar helt overordnet varians
Handler helt overordnet hvordan vores normalfordeling ser ud.
Varians kan måle spredningen i ens datasæt. Det angiver, hvor meget de enkelte observationer i datasættet afviger fra gennemsnittet. Jo højere variansen er, desto mere spredning er der i dataene.
Hvilke tre ting kigger vi på i forbindelse med variansen?
- Rækkevidde (range)
Forskellen på den mindste og største værdi i vores datasæt - Afvigelse (deviation)
Vi kigger på forskellen mellem observation og stikprøvegennemsnittet på et individuelt niveau. Dvs. hvor ligger personen i forhold til gennemsnittet - Standardafvigelsen
Spredningen (standardafvigelsen) af observationerne i et datasæt beskriver, hvor meget observationerne i gennemsnit afviger fra gennemsnittet, dvs. hvor spredte observationerne er. Jo større spredningen er, jo mere spredt er observationerne.
Forklar hvad interkvartilområdet er
(IQR)
IQR er der hvor 50% af ens data ligger
Se noter for udregning af IQR
Forklar hvad IQR3-reglen er
Man bruger IQR3-reglen til at undersøge om der er outliers i ens datasæt.
Se noter for udregning af IQR3