Pensum Flashcards
Hvilke typer af statistik findes der?
Deskriptiv:
Opsummerer og beskriver data med tal og grafiske fremstillinger. Eksempelvis kan det være en statistikers gennemsnitlige månedsløn.
Prædiktiv:
Bruger statistiske modeller til at forudsige fremtidige hændelser. Eksempel: Forudsigelse af, at statistikere vil tjene mere i fremtiden.
Kausal inferens:
Undersøger årsag-virkning sammenhænge. Eksempel: Uddannelse i statistik fører til højere løn.
Hvilke typer af data findes der?
Kategorisk:
Ordinal: Naturlig rækkefølge, fx tilfredshedsskala (utilfreds, tilfreds, meget tilfreds).
Nominal: Ingen naturlig rækkefølge, fx farver på et produkt.
Numerisk:
Diskret: Tællelig, fx antal varer solgt.
Kontinuert: Glidende skala, fx løn.
Hvad er en kontigenstabel
En tabel der viser fordelingen af to eller flere kategoriske variabler, fx køn og yndlingssport, som kan bruges til at undersøge sammenhænge.
Hvad er et scatter plot?
En grafisk repræsentation der viser sammenhængen mellem to numeriske variabler, fx arbejdstid og indkomst.
Det er godt til at vise trends, korrelationer, clusters og outliers.
Hvad er et estimat?
Estimater bruges til at lave antagelser om parametre i en population, fx at estimere den gennemsnitlige løn for ingeniører ud fra en stikprøve.
Hvad er en parametre?
Parametre er den sande værdi som vi ikke får at se. Vi prøver i stedet at lave et estimat så tæt på parametre som muligt.
Hvad er medianen?
Medianen er den midterste værdi i et datasæt. Hvis der er et lige antal observationer, er medianen gennemsnittet af de to midterste værdier.
Hvad er percentiler?
Percentiler angiver, hvor en given procentdel af data ligger under en bestemt værdi, fx er medianen den 50. percentil.
Hvad er kvartiler?
Kvartiler deler data op i fire lige store stykker (“kvarte”) ved at lave tre skæringer:
* 1. kvartil: 1/4 af data er mindre, 3/4 større
* 2. kvartil (median): 1/2 af data er mindre, 1/2 større
* 3. kvartil: 3/4 af data er mindre, 1/4 større
Anvendes til at visualisere data ved hjælp af boksplot
Hvad er et boksplot?
En grafisk repræsentation der viser fordelingen af data gennem kvartiler. Bruges til at identificere outliers og forstå datafordelingen.
Hvad er et typetal?
Typetallet er den hyppigst forekommende værdi i et datasæt.
Hvad er variationsbredden?
Variationsbredden er forskellen mellem den højeste og laveste værdi i et datasæt.
Hvad er variansen?
Variansen måler spredningen af data ved at se på gennemsnittet af de kvadrerede afvigelser fra gennemsnittet.
Hvad er standardafvigelsen?
Standardafvigelsen er kvadratroden af variansen og giver et mål for, hvor meget data varierer omkring gennemsnittet.
Hvad er en population?
En population er “hele” gruppen, vi vil sige noget om – det kan så være alt fra os i lokalet til hele verdens befolkning.
Hvad er en stikprøve?
En stikprøve er nogle udvalgte fra den population, man trækker sin stikprøve fra, så nogen udvalgt fra lokalet eller nogen udvalgt fra hele verdens befolkning.
Hvad er en tilfældig stikprøve?
En stikprøve hvor hver observation i populationen har samme sandsynlighed for at blive udvalg.
Hvad er en sandsynlighedsbaseret stikprøve?
Vi trækker elementer fra vores population baseret på sandsynligheder for at trække et givet element (dette indbefatter en tilfældig stikprøve men er mere generelt)
Hvad er en bekvemmelighedsbaseret stikprøve?
Vi trækker elementer fra vores population, der er “lette” at få fat i (deler spørgeskema på Facebook).
Hvad er en vurderingsbaseret stikprøve?
Vi trækker elementer, vi mener er “bedst” (spørger specifikt førende forskere indenfor epidemiologi fremfor tilfældige forskere ifm. vedledning vedr. lockdown)
Hvad er en stikprøve med tilbagelægning?
Det vil sige at med tilbagelægning vil der være samme sandsynlighed for at trække enten en rød eller blå bold ved hver træk.
Hvad er en stikprøve uden tilbagelægning?
Uden tilbagelægning vil sandsynligheden for at trække en blå bold falde hver gang man trækker en blå bold, da man ikke lægger den tilbage igen.
Hvad er et stikprøvegennemsnit?
Gennemsnittet af observationerne i en stikprøve, som bruges til at estimere populationens gennemsnit.
Hvad er en frekvenstabel?
En tabel der viser antallet af observationer i forskellige kategorier eller intervaller.
Hvad er en stikprøveandel?
Andelen af observationer i stikprøven, der har en bestemt egenskab.
Hvad er kovarians?
Kovarians: Fortæller om 2 variables forhold til hinanden.
Positiv kovarians: når den ene stiger, stiger den anden
Negativ kovarians: når den ene stiger, falder den anden
Hvad er korrelation?
Korrelation: Viser også styrken af relationen. Så den siger både og det er en positiv og negativ relation, men også hvor positiv eller negativ den er. Her bruges korrelationskoefficienterne -1, 0 og 1.
Hvad er Ordinary Least Squares (OLS)?
En metode til at estimere parametrene i en lineær regression ved at minimere summen af kvadrerede afvigelser mellem de observerede og forudsagte værdier. Så det vil sige:
Ordinary Least Squares (OLS) er en metode, der bruges til at finde den bedste rette linje, der passer til en række datapunkter.
OLS-estimater er forventningsrette, hvilket betyder, at de i gennemsnit rammer de sande parameterværdier.
Blandt alle lineære og forventningsrette estimater har OLS-estimater den mindste varians.
Efterhånden som stikprøvestørrelsen øges, konvergerer OLS-estimaterne til de sande parameterværdier.
Hvad er et udfaldsrum?
Udfaldsrum: Mængden af alle mulige udfald i et eksperiment. Så for et terningeslag er udfaldsrummet slagene 1-6.
Hvad er en hændelse?
Hændelse: En specifik begivenhed, der består af et eller flere udfald i udfaldsrummet. Så det kunne være at slå en 6’er.
Hvad er et komplement?
Komplementer
For hændelsen A har vi et komplement A-bar som er alle udfald der ikke er lig med A
Hvad er en fællesmængde?
Fællesmængder
For hændelsen A og B har vi en fællesmængde som er der er enten hændelsen A eller B
Eksempel:
A: slå et lige tal
B: slå en 6’er
Fællesmængden er her hændelserne at slå en 2’er, 4’er eller 6’er fordi disse værdier opfylder kravene i enten A eller B
Hvad er et tværsnit?
Tværsnit
For to hændelser A og B har vi et tværsnit A ∩ B. Der er hændelsen både A og B
Eksempel:
A: slå et lige tal
B: slå en 6’er
Tværsnittet er her hændelsen at slå en 6’er fordi denne værdi opfylder kravene i både A og B
Hvad er en diskret stokastisk variabel?
En diskret stokastisk variabel kan tage et tælleligt antal værdier, fx en terningkast.
Hvad er formlen for en diskret stokastisk variabels gennemsnit?
Summen af x * p(x*
Gennemsnittet er udregnet som summen af alle x-værdierne ganget med sandsynligheden for at deres udfald sker.
Eksempel: Terningekast
Gennemsnit = 1(1/6)+2(1/6)+ 3(1/6)+4(1/6)+ 5(1/6)+6(1/6) = 3,5
Hvad er formlen for en diskret stokastisk variabels standardafvigelse?
Standardafvigelse = Kvadratroden(Varians)
Udregnes:
Kvadratroden af variansen
Eksempel:
√(σ^2 )=√2,92=1,71