Pensum Flashcards

1
Q

Hvilke typer af statistik findes der?

A

Deskriptiv:
Opsummerer og beskriver data med tal og grafiske fremstillinger. Eksempelvis kan det være en statistikers gennemsnitlige månedsløn.

Prædiktiv:
Bruger statistiske modeller til at forudsige fremtidige hændelser. Eksempel: Forudsigelse af, at statistikere vil tjene mere i fremtiden.

Kausal inferens:
Undersøger årsag-virkning sammenhænge. Eksempel: Uddannelse i statistik fører til højere løn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvilke typer af data findes der?

A

Kategorisk:
Ordinal: Naturlig rækkefølge, fx tilfredshedsskala (utilfreds, tilfreds, meget tilfreds).
Nominal: Ingen naturlig rækkefølge, fx farver på et produkt.

Numerisk:
Diskret: Tællelig, fx antal varer solgt.
Kontinuert: Glidende skala, fx løn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad er en kontigenstabel

A

En tabel der viser fordelingen af to eller flere kategoriske variabler, fx køn og yndlingssport, som kan bruges til at undersøge sammenhænge.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvad er et scatter plot?

A

En grafisk repræsentation der viser sammenhængen mellem to numeriske variabler, fx arbejdstid og indkomst.
Det er godt til at vise trends, korrelationer, clusters og outliers.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad er et estimat?

A

Estimater bruges til at lave antagelser om parametre i en population, fx at estimere den gennemsnitlige løn for ingeniører ud fra en stikprøve.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvad er en parametre?

A

Parametre er den sande værdi som vi ikke får at se. Vi prøver i stedet at lave et estimat så tæt på parametre som muligt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvad er medianen?

A

Medianen er den midterste værdi i et datasæt. Hvis der er et lige antal observationer, er medianen gennemsnittet af de to midterste værdier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvad er percentiler?

A

Percentiler angiver, hvor en given procentdel af data ligger under en bestemt værdi, fx er medianen den 50. percentil.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvad er kvartiler?

A

Kvartiler deler data op i fire lige store stykker (“kvarte”) ved at lave tre skæringer:
* 1. kvartil: 1/4 af data er mindre, 3/4 større
* 2. kvartil (median): 1/2 af data er mindre, 1/2 større
* 3. kvartil: 3/4 af data er mindre, 1/4 større

Anvendes til at visualisere data ved hjælp af boksplot

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvad er et boksplot?

A

En grafisk repræsentation der viser fordelingen af data gennem kvartiler. Bruges til at identificere outliers og forstå datafordelingen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvad er et typetal?

A

Typetallet er den hyppigst forekommende værdi i et datasæt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad er variationsbredden?

A

Variationsbredden er forskellen mellem den højeste og laveste værdi i et datasæt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvad er variansen?

A

Variansen måler spredningen af data ved at se på gennemsnittet af de kvadrerede afvigelser fra gennemsnittet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad er standardafvigelsen?

A

Standardafvigelsen er kvadratroden af variansen og giver et mål for, hvor meget data varierer omkring gennemsnittet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvad er en population?

A

En population er “hele” gruppen, vi vil sige noget om – det kan så være alt fra os i lokalet til hele verdens befolkning.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvad er en stikprøve?

A

En stikprøve er nogle udvalgte fra den population, man trækker sin stikprøve fra, så nogen udvalgt fra lokalet eller nogen udvalgt fra hele verdens befolkning.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hvad er en tilfældig stikprøve?

A

En stikprøve hvor hver observation i populationen har samme sandsynlighed for at blive udvalg.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hvad er en sandsynlighedsbaseret stikprøve?

A

Vi trækker elementer fra vores population baseret på sandsynligheder for at trække et givet element (dette indbefatter en tilfældig stikprøve men er mere generelt)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hvad er en bekvemmelighedsbaseret stikprøve?

A

Vi trækker elementer fra vores population, der er “lette” at få fat i (deler spørgeskema på Facebook).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hvad er en vurderingsbaseret stikprøve?

A

Vi trækker elementer, vi mener er “bedst” (spørger specifikt førende forskere indenfor epidemiologi fremfor tilfældige forskere ifm. vedledning vedr. lockdown)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Hvad er en stikprøve med tilbagelægning?

A

Det vil sige at med tilbagelægning vil der være samme sandsynlighed for at trække enten en rød eller blå bold ved hver træk.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hvad er en stikprøve uden tilbagelægning?

A

Uden tilbagelægning vil sandsynligheden for at trække en blå bold falde hver gang man trækker en blå bold, da man ikke lægger den tilbage igen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Hvad er et stikprøvegennemsnit?

A

Gennemsnittet af observationerne i en stikprøve, som bruges til at estimere populationens gennemsnit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Hvad er en frekvenstabel?

A

En tabel der viser antallet af observationer i forskellige kategorier eller intervaller.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Hvad er en stikprøveandel?

A

Andelen af observationer i stikprøven, der har en bestemt egenskab.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Hvad er kovarians?

A

Kovarians: Fortæller om 2 variables forhold til hinanden.
Positiv kovarians: når den ene stiger, stiger den anden
Negativ kovarians: når den ene stiger, falder den anden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Hvad er korrelation?

A

Korrelation: Viser også styrken af relationen. Så den siger både og det er en positiv og negativ relation, men også hvor positiv eller negativ den er. Her bruges korrelationskoefficienterne -1, 0 og 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Hvad er Ordinary Least Squares (OLS)?

A

En metode til at estimere parametrene i en lineær regression ved at minimere summen af kvadrerede afvigelser mellem de observerede og forudsagte værdier. Så det vil sige:

Ordinary Least Squares (OLS) er en metode, der bruges til at finde den bedste rette linje, der passer til en række datapunkter.

OLS-estimater er forventningsrette, hvilket betyder, at de i gennemsnit rammer de sande parameterværdier.

Blandt alle lineære og forventningsrette estimater har OLS-estimater den mindste varians.

Efterhånden som stikprøvestørrelsen øges, konvergerer OLS-estimaterne til de sande parameterværdier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Hvad er et udfaldsrum?

A

Udfaldsrum: Mængden af alle mulige udfald i et eksperiment. Så for et terningeslag er udfaldsrummet slagene 1-6.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Hvad er en hændelse?

A

Hændelse: En specifik begivenhed, der består af et eller flere udfald i udfaldsrummet. Så det kunne være at slå en 6’er.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Hvad er et komplement?

A

Komplementer
For hændelsen A har vi et komplement A-bar som er alle udfald der ikke er lig med A

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Hvad er en fællesmængde?

A

Fællesmængder
For hændelsen A og B har vi en fællesmængde som er der er enten hændelsen A eller B
Eksempel:
A: slå et lige tal
B: slå en 6’er
Fællesmængden er her hændelserne at slå en 2’er, 4’er eller 6’er fordi disse værdier opfylder kravene i enten A eller B

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Hvad er et tværsnit?

A

Tværsnit
For to hændelser A og B har vi et tværsnit A ∩ B. Der er hændelsen både A og B
Eksempel:
A: slå et lige tal
B: slå en 6’er
Tværsnittet er her hændelsen at slå en 6’er fordi denne værdi opfylder kravene i både A og B

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Hvad er en diskret stokastisk variabel?

A

En diskret stokastisk variabel kan tage et tælleligt antal værdier, fx en terningkast.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Hvad er formlen for en diskret stokastisk variabels gennemsnit?

A

Summen af x * p(x*
Gennemsnittet er udregnet som summen af alle x-værdierne ganget med sandsynligheden for at deres udfald sker.
Eksempel: Terningekast
Gennemsnit = 1(1/6)+2(1/6)+ 3(1/6)+4(1/6)+ 5(1/6)+6(1/6) = 3,5

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Hvad er formlen for en diskret stokastisk variabels standardafvigelse?

A

Standardafvigelse = Kvadratroden(Varians)
Udregnes:
Kvadratroden af variansen
Eksempel:
√(σ^2 )=√2,92=1,71

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Hvad er formlen for en diskret stokastisk variabels varians?

A

Varians
Summen af (x - my^2) * p(x)
Variansen udregnes som summen af de kvadrede forskelle med x-værdierne og gennemsnittet ganget med sandsynligheden for at hændelsen sker.
Eksempel: terningekast
Varians = (1-3,5)^2(1/6)+ (2-3,5)^2(1/6)+ (3-3,5)^2(1/6)+ (4-3,5)^2(1/6)+ (5-3,5)^2(1/6)+ (6-3,5)^2(1/6) = 2.92

38
Q

Hvad er en kontinuer stokastisk variabel?

A

En stokastisk variabel der kan tage et uendeligt antal værdier inden for et interval. Sandsynlighedsfordelingen beskrives ved en tæthedsfunktion. Sandsynligheden p(x) er her ligmed 0.
Intuition: Hvad er sandsynligheden for, at en person er lige præcis 182.293896319863673143989034 cm høj?
Konsekvens: Vi ser altid på sandsynligheden for, at en værdi ligger inden for et interval:
1. Hvad er sandsynligheden for, at en person er 180-190 cm høj?
2. Hvad er sandsynligheden for, at ens aktieafkast er mellem -5% og 5%?

38
Q

Hvad er karakteristika ved en binomialfordeling?

A

Modellerer antallet af succeser i en fastsat antal forsøg med konstant sandsynlighed for succes.

39
Q

Gennemsnit, varians og standardafvigelse for en binomialfordeling?

A
  • Gennemsnit: n*p = Antal observationer x sandsynlighed for hændelse
  • Varians: np(1−p)
  • Standardafvigelse: sqrt(n*p(1−p)).
40
Q

Hvad er karakteristika for en poisson fordeling?

A

Modellerer antallet af hændelser i et givent tidsinterval. Sandsynligheden er lige stor i alle intervaller og sandsynligheden i et interval påvirkes ikke af antal hændelser i et andet interval

41
Q

Hvad er en hypergeometrisk fordeling?

A

Særtilfælde for binomialfordeling hvor det er træk uden tilbagelægning. Det vil sige at efter hvert træk ændrer sandsynligheden sig.

42
Q

Gennemsnit, Varians og Standardafvigelse for en poisson fordeling?

A

Gennemsnit: μ
Varians: Varians = μ
Standardafvigelse: σ=√μ

43
Q

Hvad er karakteristika for en normalfordeling?

A

Symmetrisk fordelt omkring gennemsnittet og klokkeformet.

44
Q

Gennemsnit, varians og standardafvigelse for en normalfordeling?

A

Gennemsnit: μ=(sum af observationer)/(antal af observationer)
Varians: σ2=(sum af kvadrerede forskel fra gennemsnit)/(antal af observationer)
Standardafvigelse: sqrt(σ2)

45
Q

Hvad er karakteristika for en uniform fordeling?

A

Der er lige stor sandsynlighed for alle udfald inden for et interval.
Den er karakteriseret ved 2 parametre: den øvre grænse c og den nedre grænse d

46
Q

Hvad er karakteristika for en standardnormalfordeling?

A

Normalfordeling med gennemsnit 0 og standardafvigelse 1.

47
Q

Hvad er karakteristika for en ekspotentiel fordeling?

A

Viser den tidsmæssige afstand mellem hændelser i en Poissonfordeling

48
Q

Gennemsnit, varians og standardafvigelse for en uniform fordeling?

A

Gennemsnit: μ=(c+d)/2=middelpunktet i intervallet
Varians: σ2=((c+d)^2)/12
Standardafvigelse: sqrt(σ2)

49
Q

Hvad er definitionen af en t-fordeling?

A

En t-fordeling er en sandsynlighedsfordeling, der bruges i hypotesetestning, især når stikprøvestørrelsen er lille, og populationens standardafvigelse er ukendt. T-fordelingen ligner normalfordelingen, men har tykkere haler, hvilket betyder, at den har større sandsynlighed for ekstreme værdier.

Forskellen på hvornår man bruger t-fordeling og hvornår man bruger normalfordeling afhænger af stikprøvens størrelse og kendskab til standardafvigelsen.

Er stikprøven lille og kender man ikke standardafvigelsen så vil man gøre brug af en t-fordeling.

Er stikprøven derimod stor og kender man standardafvigelsen gør man i stedet brug af normalfordeling

49
Q

Hvad er lambda (λ) i en eksponentiel fordeling?

A

λ er poisson fordelingens gennemsnit.
Definition: λ er hastighedsparameteren eller rateparameteren for den eksponentielle fordeling.
Betydning: λ repræsenterer den gennemsnitlige antal hændelser pr. tidsenhed.
* Hvis λ er stor, sker hændelser ofte, hvilket betyder, at den gennemsnitlige tid mellem hændelser er kort.
* Hvis λ er lille, sker hændelser sjældent, hvilket betyder, at den gennemsnitlige tid mellem hændelser er lang.

50
Q

Gennemsnit, varians og standardafvigelse for en ekspotentiel fordeling?

A
  • Gennemsnit: 1/λ
  • Varians: 1/λ^2
  • Standardafvigelse: 1/λ
51
Q

Hvad er egenskaberne ved en t-fordeling?

A
  • T-fordelingen er symmetrisk og klokkeformet, ligesom normalfordelingen.
  • Den er bredere og har tykkere haler sammenlignet med normalfordelingen, især ved små frihedsgrader.
  • Når antallet af frihedsgrader (df) øges, nærmer t-fordelingen sig normalfordelingen. Ved store frihedsgrader (typisk over 30) er forskellen mellem t-fordelingen og normalfordelingen minimal.
52
Q

Gennemsnit, varians og standardafvigelse for en t-fordeling?

A

Gennemsnit: μ=(sum af observationer)/(antal af observationer)
Varians: σ^2=(sum af kvadrerede forskel fra gennemsnit)/(antal af observationer)
Standardafvigelse: sqrt(σ^2)

53
Q

Hvad er definitionen af en F-fordeling?

A

F-fordelingen er en sandsynlighedsfordeling, som bruges hovedsageligt i variansanalyse (ANOVA) og hypotesetestning for at sammenligne variansen mellem to stikprøver. Den beskriver forholdet mellem to uafhængige chi-i-anden fordelte variable, hver divideret med deres respektive frihedsgrader.

54
Q

Hvad siger den centrale grænsesætning?

A

Centralgrænsesætningen siger at gennemsnittet for en uafhængig fordelt stokastisk variabel er normalfordelt, selv om den variable man tager gennemsnittet af, ikke er normalfordelt.

Den centrale grænsesætning siger, at hvis du tager mange uafhængige og identisk fordelte (i.i.d.) tilfældige variable og beregner gennemsnittet af dem, vil dette gennemsnit nærme sig en normalfordeling, selvom de enkelte variable ikke er normalfordelte. Dette gælder, når antallet af variable (n) er tilstrækkeligt stort.

55
Q

Hvordan udregner man en F-test for en F-fordeling?

A

Vi kan udregne vores test statistik ud fra estimater af variansen i vores to stikprøver
F=(s_1^2)/(s_2^2 ) , hvis H_a:σ_1^2>σ_2^2
F=(s_2^2)/(s_1^2 ) , hvis H_a:σ_1^2<σ_2^2
F=(største af σ^1_2,σ^2_2)/(mindste af σ^1_2 , σ^2-2 ) ,
hvis H_a:σ^2_1≠σ^2_2
Vi kan da bruge en F-fordeling til at udregne p-værdien

56
Q

Definitionen af en X^2 fordeling?

A

Chi-kvadrat fordelingen er et alsidigt værktøj til hypotesetestning og variansanalyse, især når vi arbejder med varians eller vurderer goodness-of-fit for en given fordeling. Med stigende frihedsgrader nærmer fordelingen sig normalfordelingen og bruges bredt i statistiske analyser .

57
Q

Hvad er et konfidensinterval om en estimeret andel?

A

Et interval der sandsynligvis indeholder populationens andel med en bestemt konfidensniveau.

57
Q

Hvornår skal man bruge en Z-statistic?

A

Når du har et gennemsnit med kendt standardafvigelse

58
Q

Hvornår bruger man en T-fordeling?

A

Når du har et gennemsnit med ukendt standardafvigelse

59
Q

Hvordan udregnes et konfidensinterval omkring en estimeret andel?

A

Vælg konfidensniveau p og udregn signifikansniveau α
Estimer â
Udregn variansen af â
Udregn z_α/2 Ved hjælp af Excel funktionen NORM.S.INV
Udregn konfidensintervallet

60
Q

Hvilke hypoteser opsætter man for en hypotesetest?

A

H_0 og H_A
I statistisk hypotesetestning formuleres to modstridende hypoteser: nulhypotesen (H0) og alternativhypotesen (Ha). Disse hypoteser bruges til at teste en statistisk påstand om en population på baggrund af stikprøvedata.

Nulhypotese (H0)
Nulhypotesen er en påstand, der repræsenterer status quo eller en baseline, som vi søger at finde beviser imod.

Alternativhypotese (Ha)
Alternativhypotesen er en påstand, der repræsenterer en ny opfattelse eller påstand, som vi søger beviser for.

61
Q

Hvilke 3 typer af hypotesetest findes der?

A

3 typer

1-siddet, “større end”: H_0 : mu <= mu_0 , H_A : mu => mu_0

1-siddet, “mindre end”: H_0: mu => mu_0 , H_A : mu <= mu_0

2-siddet, “ikke lig med”: H_0: mu = mu_0 , H_A: mu ≠ mu_0

61
Q

Hvad er signifikansniveau (α)?

A

Sandsynligheden for at lave en type I fejl.
Vi vælger selv signifikansniveauet for at forkaste en sand nulhypotese

62
Q

Hvilke typer fejl har vi og hvad betyder de?

A

Type I og Type II fejl

Type I fejl:
Vi forkaster nulhypotesen selvom den er sand.
Du får at vide at du ikke er gravid selvom du er gravid.

Type II fejl:
Vi forkaster ikke nulhypotesen selvom den er falsk.
Du får at vide at du er gravid selvom du ikke er det.

63
Q

Hvordan opsætter man en hyppotesetest for et gennemsnit med kendt stadnardafvigelse?

A
  1. Opsæt H0 og Ha
  2. Vælg signifikansniveau α
  3. Estimer x-bar ud fra data
  4. Udregn variansen af x-bar
  5. Udregn z
  6. Udregn p-værdien ud fra z og afvis H_0 hvis p< α

Bemærk: Måden vi udregner p-værdien afhænger af, om vores hypotese er 1- eller 2-siddet!

64
Q

Hvordan kan man sammenligne to gennemsnit?

A

Forskellen mellem gennemsnit i 2 uafhængige stikprøver udregnes som x-bar_1-x-bar_2.

her gælder:
1. x-bar_1-x-bar_2 er approksimativt normalfordelt for store stikprøver.
2. har gennemsnittet my_x-bar1-x-bar2=my1-my2
3. har standardafvigelsen: √σ_1^2/n_1+(σ_2^2/n_2)

64
Q

Hvordan opsætter man en hyppotesetest for et gennemsnit med ukendt stadnardafvigelse?

A

Opsæt H_0 ogH_a
2. Vælg signifikansniveau α
3. Estimer x-bar ud fra data
4. Estimer σ^2 ud fra data (udregn s^2)
5. Udregn variansen af x-bar
6. Udregn t
7. Udregn p-værdien ud fra t og afvis H_0 hvis p< α
Bemærk: Måden vi udregner p-værdien afhænger af, om vores hypotese er 1- eller 2-siddet!

65
Q

Hvordan opsætter man hypotesetest for forskellen mellem 2 gennemsnit?

A
  1. Opsæt H_0 og H_a
  2. Vælg signifikansniveau α
  3. Estimer x-bar_1, x-bar_2, s_1^2, og s_2^2 ud fra data
  4. Estimer den “pooled” varians
  5. Estimer standardafvigelsen af x-bar_1- x-bar_2
  6. Udregn t
  7. Udregn p-værdien ud fra t og afvis H_0 hvis p< α

Bemærk: Måden vi udregner p-værdien afhænger af, om vores hypotese er 1- eller 2-siddet!

Man kan enten antage at variansen er ens og derfor bruge formlen for pooled varians, eller man kan antage at den ikke er ens og så bruger man en anden formel og tilpasser også her frihedsgraderne.

66
Q

Hvordan undersøger man en hypotesetest omkring en parret stikprøven.

A

Vil vi undersøge en hypotese omkring en parret forskel mellem to populationsgennemsnit, opsætter vi en af nedenstående hypoteser

  1. 1-siddet,“størreend”: H0 :μd ≤D0 ogHa :μd >D0
  2. 1-siddet,“mindreend”: H0 :μd ≥D0 ogHa :μd <D0
  3. 2-siddet,“ikkeligmed”: H0 :μd =D0 ogHa :μd ̸=D0

Foruden hypotesen vælger vi et signifikansniveau (α), f.eks. α = 5%, der så er sandsynlighed for at forkaste en sand nulhypotese

Bemærk: Her skal μd forstås som det faktiske gennemsnit af forskellene

67
Q

Hvordan opsætter man hypotesetest for parrede stikprøver?

A
  1. Opsæt H_0 og H_a
  2. Vælg signifikansniveau α
  3. Udregn alle forskellene d_i
  4. Estimer d-bar og s^2_d ud fra data
  5. udregn variansen af d_bar
  6. Udregn t
  7. Udregn p-værdien ud fra t og afvis H_0 hvis p< α
68
Q

Hvordan opsætter man hypotesetest for sammenligning af andele?

A
  1. Opsæt H_0 og H_a
  2. Vælg signifikansniveau α
  3. Estimer andelen a_1-hat og a_2-hat ud fra data
  4. Estimer Standardafvigelsen af a_1-hat - a_2-hat
  5. Udregn z
  6. Udregn p-værdien ud fra z og afvis H_0 hvis p< α

Bemærk: Måden vi udregner p-værdien afhænger af, om vores hypotese er 1- eller 2-siddet!

68
Q

Hvordan undersøger man en hypotesetest omkring sammenligning med andele?

A

Vil vi undersøge en hypotese omkring sammenligning af andele, opsætter vi en af nedenstående hypoteser

  1. 1-siddet,“størreend”: H0 :a1-a2 ≤D0 og Ha :a1-a2 >D0
  2. 1-siddet,“mindreend”: H0 :a1-a2 ≥D0 og Ha :a1-a2 <D0
  3. 2-siddet,“ikkeligmed”: H0 :a1-a2 = D0 og Ha :a1-a3 ̸=D0

Foruden hypotesen vælger vi et signifikansniveau (α), f.eks. α = 5%, der så er sandsynlighed for at forkaste en sand nulhypotese

69
Q

Er der forskel på estimering af standardafvigelse hvis D0=0?

A

Ja, så bruger vi et specieltilfælde hvor standardafvigelsen estimeres ud fra en estimeret andel af de kombinerede datasæt fremfor forskellen i andel.

69
Q

Hvad er en ANOVA test?

A

ANOVA er en statistisk metode brugt til at sammenligne gennemsnit mellem flere end to grupper for at afgøre, om der er statistisk signifikante forskelle mellem dem. Metoden opdeler den totale variation i dataene i variation mellem grupperne (between-group variability) og variation indenfor grupperne (within-group variability).

Antagelser:
1. Variansen er ens i alle grupper.
2. Alle grupper er normalfordelte.
3. Observationerne er uafhængige.

70
Q

Hvad er Goodness-of-fit?

A

En Goodness-of-Fit test anvendes til at afgøre, hvor godt en observeret frekvensfordeling passer til en forventet fordeling. Denne test er ofte baseret på x^2 fordelingen.
Formålet med Goodness-of-Fit testen er at teste en hypotese om en bestemt fordeling af dataene i en population. For eksempel kan vi teste, om en datasæt følger en normalfordeling, en binomialfordeling, eller en anden specifik fordeling.

71
Q

Hvornår laver man en lineær regression?

A

Når vi gerne vil estimere parametrene Beta_0 og Beta_1

72
Q

Forklar Beta_0 og Beta_1 samt B_0 og B_1

A

Beta0: den faktiske værdi (Det er et parameter. Det kan man aldrig observere)
Beta1: den faktiske værdi (Det er et parameter. Det kan man aldrig observere)
B0: vores estimat af beta0 og er skæringen med y-aksen hvor x=0
B1: vores estimat af beta1 og er hældningskoefficienten. Når x stiger med 1 så stiger y med b1.

73
Q

Hvad er sammenhængen mellem den uafhængige og den afhængige variabel?

A

Den uafhængige variabel bruges til at forudsige værdien af den afhængige variabel.

74
Q

Forklar scatterplots og trendlinjer

A

Scatterplot: Bruges til at visualisere forholdet mellem to variabler.
Trendlinje: En linje der bedst beskriver sammenhængen i et scatterplot.

75
Q

Hvad er SSE (Sum of Squared Errors)?

A

Sum of Squared Errors (SSE): Summen af de kvadrerede afvigelser mellem observerede og forudsagte værdier.

76
Q

Hvad er et konfidensinterval i simpel lineær regression?

A

Interval der sandsynligvis indeholder den sande værdi af en regressionskoefficient.

77
Q

Hvad er OLS (Ordinary Least Squares)?

A

OLS: Metode til at minimere den kvadrede afstand mellem y og SSE for at finde de bedste estimater af B0 og B1. Det er også formlen bag trendlinjen i et scatterplot.

78
Q

Hvad er determinationskoefficienten (R^2) i simpel lineær regression?

A

Determinationskoefficienten er et mål for, hvor stor en andel af variationen i ens data, ens lineære regressionsmodel forklarer

R^2 = forklaret variation / samlet variation
Bemærk: Da dette er en andel, er værdien altid inden for intervallet [0, 1]

Uanset hvor høj ens R2 er, betyder det ikke, at der er en årsags-konsekvens sammenhæng imellem x og y .

79
Q

Hvad gør en hypotesetest i en simpel lineær regression?

A

Tester betydningen af regressionskoefficienter.

80
Q

Forklar multipel lineær regression

A

Ligner simpel lineær regression men har flere variable på højresiden nu (vi estimere flere parametre).

En multipel lineær regression med k variable skrives da som y =β0 +β1x1 +···+βkxk +ε,

hvor ε repræsenterer tilfældig støj og forklarer, hvorfor alle punkter ikke ligger helt præcist p ̊a (hyper)planet

Vi kan forstå parametrene som:

  • β0: Skæringen med y-aksen for x1 =x2 =···=xk =0, hvilket er den gennemsnitlige værdi af y, betinget af at alle x-side variable tager værdien 0
  • β1: Ændringen i y, hvis x1 stiger med ́en og alle andre variable holdes konstant
  • β2: Ændringen i y, hvis x2 stiger med ́en og alle andre variable holdes konstant
  • …osv. for x3, x4, …, xk

I og med at vi estimere flere parametre, skal vi også tage højde for flere frihedsgrader. Hvis b0,b1,b2,b3 trækker vi 4 frihedsgrader fra.

81
Q

Hvad er forskellen i R^2 i en multipel lineær regression, fra en simpel lineær regression?

A

Et “problem” ved R2 for multipel lineær regression er, at den aldrig falder, når man tilføjer en ny variabel til sin regression.
Det gør det svært at vurdere, om ens regression er blevet “bedre” af at tilføje en ekstra variabel

Den justerede determinationskoefficient (R ̄2) er et forsøg på at justere R2, s ̊a vi får et mål, der falder, hvis vi tilføjer en variabel, der ikke gavner vores regression-

hvor R2 er den normale determinationskoefficient, k antallet af x-variable, og n antallet af observationer

82
Q

Hvad er et konfidensinterval for parametre?

A

Et interval der sandsynligvis indeholder de sande værdier af regressionsparametrene.

83
Q

Hvad er en k-means klyngeanalyse?

A

K-means clustering er en populær algoritme, der anvendes til at opdele en mængde data i kkk forskellige klynger. Målet er at minimere variationen inden for hver klynge og maksimere forskellen mellem klyngerne.

84
Q

Hvad er en hierarkisk klyngeanalyse?

A

Hierarkisk klyngeanalyse er en metode til at opdele data i klynger uden på forhånd at specificere antallet af klynger. Denne metode er især nyttig, når vi ønsker at finde det optimale antal klynger, der bedst repræsenterer strukturen i dataene

85
Q

Hvad er en faktoranalyse?

A

Faktoranalyse er en statistisk metode, der anvendes til at identificere underliggende faktorer, der forklarer mønstre i data. Den bruges, når man ønsker at måle en “faktor”, som ikke kan observeres direkte, men som påvirker flere observerbare variable, kendt som “proxies”.