Grunnleggende (fra Anki) Flashcards
(?) har verdier som er gjensidige utelukkende (eks. blodtype, politisk parti, egennavn, fylke) og som ikke kan direkte måles opp mot hverandre.
Nominale variabler
[…] er verdien som opptrer oftest.
Modus (typetall) er verdien som opptrer oftest.
Varians skrives som […]
Varians skrives som S^2
Variansen beskriver […]. Hvordan kan vi gjøre varians (S^2) om til standardavvik?
Variansen beskriver hvor langt verdiene avviker fra sentraltendensen.
Vi kan gjøre varians om til standardavvik ved å ta kvadratroten av variansen.
Spredning kan måles med […] og […].
Spredning kan måles med standardavvik og varians.
Spredningsmål er et mål for spredningen av observasjonene i et datamateriale.
Ratio nivået for måling brukes for numeriske data som har et meningsfull nullpunkt, […] og en […]. (f.eks. vekt i kilogram, tid i sekunder, temperatur i Kelvin)
Ratio nivået for måling brukes for numeriske data som har en meningsfull nullpunkt, like enheter for måling og en sann (absolutt) nullverdi. (f.eks. vekt i kilogram, tid i sekunder, temperatur i Kelvin)
Rationivået for måling brukes for numeriske data og har like intervaller mellom verdiene, og et absolutt nullpunkt.
Plagiat er å […]
Plagiat er å fremstille andre sitt arbeid som om det var ens eget
Medianen er verdien […].
Medianen er verdien i midten.
Oddetall:
1-1-2-3-5-6-7-8-9
Partall - (gjennomsnittet av de to midterste, her 6.5):
1-1-2-3-(6-7)-7-8-9-10
[…] bruker sannsynlighetsteori for å lage prediksjoner og trekke konklusjoner, mens […] ikke involverer sannsynlighetsteori.
Inferensiell statistikk bruker sannsynlighetsteori for å lage prediksjoner og trekke konklusjoner, mens deskriptiv statistikk ikke involverer sannsynlighetsteori.
Hva er forholdet mellom statistikk og parametere?
Vi beregner statistikk fra vårt utvalg for å estimere populasjonens parametere.
Så et parameter er en fast egenskap ved en populasjon, mens en statistikk er en verdi som oppsummerer data fra et utvalg.
Eksempler:
Parameter: Gjennomsnittlig høyde på alle voksne menn i Norge.
Statistikk: Gjennomsnittlig høyde på voksne menn i et utvalg vi gjør fra Oslo.
Parameter: Variansen i høyde blant alle kvinnelige universitetsstudenter i Trondheim.
Statistikk: Variansen i høyde blant kvinnelige universitetsstudenter i en tilfeldig utvalgt klasse i Trondheim.
Parameter: Gjennomsnittlig årslønn for alle lærere i Norge.
Statistikk: Gjennomsnittlig årslønn for lærere i et utvalg fra Stavanger.
Hva er n? Hvorfor deler vi avvikskvadratene med n-1, og ikke bare n?
Ved å dele avvikskvadratene med n-1 (frihetsgrader) (i stedet for bare n), får vi et mer konservativt estimat av variansen i populasjonen.
Variabler kan ha følgende tre karaktertrekk:
*Kategorisk (øyefarge: blå, brun, grønn)
Numeriske:
*Diskrete (antall bøker i en bokhylle: 1, 2, 3, …)
*Kontinuerlig (kroppstemperatur: 36.2°C, 36.3°C, 36.4°C, …)
Utvalget er en […] […].
Utvalget er en (forhåpentligvis representativ) mindre samling av tilfeller trukket fra en populasjon.
Statistikk oppsummert med fire ord: […]!
Statistikk oppsummert med fire ord: inferens fra uperfekte data!
Skjevhet (skewness) refererer til at […] er forlenget ut mot høyre eller venstre.
Skjevhet (skewness) refererer til at halen er forlenget ut mot høyre eller venstre.
Sirklene i enden av værhårene (whiskers) på dette boksplottet indikerer […].
Sirklene i enden av værhårene (whiskers) på dette boksplottet indikerer uteliggere / ekstremverdier.
Sentraltendens måles ved hjelp av gjennomsnittet, medianen eller modusen. Disse representerer den […] for en variabel.
Sentraltendens måles ved hjelp av gjennomsnittet, medianen eller modusen. Disse representerer den “typiske” verdien for en variabel.
Sentralgrenseteoremet (central limit theorem) sier at når utvalgsstørrelsen […], er brudd på normalfordeling typisk sett ikke et stort problem.
Sentralgrenseteoremet (central limit theorem) sier at når utvalgsstørrelsen øker (100+ observasjoner), er brudd på normalfordeling typisk sett ikke et stort problem.
PS: Forskjellige kilder bruker ulike tall, men utvalg mindre enn 30 bør nesten alltid analyseres nøye og krever vanligvis ikke-parametriske metoder.
Representativte utvalg bør være:
- T[…]
- U[…] (eks. alle bør ikke være dine venner)
- I[…]
- Tilfeldig samlet
- Uavhengig (tilfellene er ikke relatert til hverandre) (eks. alle bør ikke være dine venner)
- Idéntisk fordelt (ideelt sett: utvalg med tilbakelegging)
Når det gjelder skjevhet, refererer vi til toppen eller halen som skjev mot høyre/venstre?
Halen
Hvorfor er normalfordelinger så viktig i statistikk?
Fordi dersom utvalget er normalfordelt er det mer sannsynlig at det kommer fra en normalfordelt populasjon.
Det betyr at våre statistiske estimater og konklusjoner trolig er mer presise, som vil si at man kan trekke en konklusjon om populasjonen basert på utvalget.
Hva er HARKing?
Hypothesizing after the results are known (IKKE GJØR DET!)
Positiv skjevhet betyr at halen er skjev mot […].
Positiv skjevhet betyr at halen er skjev mot høyre.
Populasjonen er […].
Populasjonen er samlingen av tilfeller vi ønsker å generalisere til.
Eks:
- Vi samler data fra en gruppe studenter på UiT, men vi prøver egentlig å trekke konklusjoner om studenter mer generelt.
Perfekte gaussiske fordelinger har […] skjevhet (skewness) og kurtose (kurtosis). Og hvordan er gjennomsnitt, median og modus fordelt?
Perfekte gaussiske fordelinger har null skjevhet (skewness) og kurtose (kurtosis).
Gjennomsnitt, median og modus er også det samme i en perfekt normalfordeling.