Forelesning 2 Flashcards
Hva er en frekvensfordeling?
En frekvensfordeling er en ordnet statistisk oversikt over en variabels verdier og dens tilhørende frekvenser.
Hva er hovedmålene for sentral tendens? Hva er forskjellen mellom dem?
Sentraltendensen kan defineres som der hoveddelene av dataene i et datasett befinner seg. Sentraltendensen i et datasett kan beskrives i form av gjennomsnitt, medianen (midtverdien) eller mode (dataverdien med høyest frekvens).
Når det er en symmetrisk fordeling i datasettet, så vil gjennomsnittet, medianen og modusen ha samme verdi. Når det ikke er en symmetrisk fordeling, så vil gjennomsnittet, modusen og medianen ha ulike verdier.
Hva er kvartiler og kvantiler? Hvorfor er de viktige?
Kvartiler er verdier som er oppnådd ved å dele fordelingen av data inn i fire deler som inneholder like mange tilfeller. Siden vi deler datasettet inn i 4 deler, vil vi få 3 kvartilverdier (1., 2. og 3. kvartil) som definerer grensene mellom disse delene.
Den 2. kvartilen er den samme som medianen.
Kvantiler er verdier som vi oppnår ved å dele fordelingen i vilkårlig antall deler som inneholder like mange tilfeller
Hva er varians og standardavvik? Hva representerer de, hvordan kan de informere forskere om deres data?
Varians og standardavvik er begge mål for spredning. Varians kan defineres som den gjennomsnittlige avstanden fra gjennomsnittet. Når vi skal regne ut variansen, så deler vi kvadratsummen (SS) på antallet minus frihetsgrader (n - 1). Standardavvik kan defineres som kvadratroten av variansen.
Hva er Z-transformasjon? Hva kan den brukes til?
Z-score er en statistisk måling som beskriver en verdis forhold til gjennomsnittet av et datasett. Z-score måles i form av standardavvik fra gjennomsnittet. Z-scoren angir hvor mange standardavvik datapunktet er fra gjennomsnittet, og den brukes ofte til å standardisere data og sammenligne datapunkter på tvers av forskjellige datasett.
Hvis en Z-score er 0, indikerer det at datapunktets poengsum er identisk med gjennomsnittsskåren.
Hva er boksplott? Hvorfor er de en fin måte å plotte dataene dine på?
Vi bruker boxplotter for å få en grafisk representasjon av fordelingen av data i et datasett. Den gir informasjon om sentrale mål som medianen, kvartiler, og spredningen av data, inkludert eventuelle ekstreme verdier (outliers).
1.Median (andre kvartil): En linje eller boks i midten av plottet representerer medianen.
2.Første kvartil (Q1) og tredje kvartil (Q3): Boksen strekker seg fra Q1 til Q3. Q1 representerer verdien som deler de laveste 25% av dataene fra de øvre 75%, mens Q3 deler de øverste 25% av dataene fra de nederste 75%.
3.IQR (Interkvartilrekkevidde): IQR er forskjellen mellom Q3 og Q1 og gir en indikasjon på spredningen av data i midten 50% av datasettet.
4.Whiskers: Linjene som går ut fra boksen, kalles whiskers. De representerer spredningen av dataene utenfor IQR. Whiskers kan variere i lengde avhengig av hvilken metode som brukes for å bestemme potensielle outliers.
5.Outliers: Data som faller utenfor whiskers anses ofte som potensielle ekstreme verdier (outliers) og blir noen ganger indikert individuelt i plottet.