Pensum Flashcards

Question 1

Q

Hvilke typer af statistik findes der?

Answer

A

Deskriptiv:
Opsummerer og beskriver data med tal og grafiske fremstillinger. Eksempelvis kan det være en statistikers gennemsnitlige månedsløn.

Prædiktiv:
Bruger statistiske modeller til at forudsige fremtidige hændelser. Eksempel: Forudsigelse af, at statistikere vil tjene mere i fremtiden.

Kausal inferens:
Undersøger årsag-virkning sammenhænge. Eksempel: Uddannelse i statistik fører til højere løn.

Question 2

Q

Hvilke typer af data findes der?

Answer

A

Kategorisk:
Ordinal: Naturlig rækkefølge, fx tilfredshedsskala (utilfreds, tilfreds, meget tilfreds).
Nominal: Ingen naturlig rækkefølge, fx farver på et produkt.

Numerisk:
Diskret: Tællelig, fx antal varer solgt.
Kontinuert: Glidende skala, fx løn.

Question 3

Q

Hvad er en kontigenstabel

Answer

A

En tabel der viser fordelingen af to eller flere kategoriske variabler, fx køn og yndlingssport, som kan bruges til at undersøge sammenhænge.

Question 4

Q

Hvad er et scatter plot?

Answer

A

En grafisk repræsentation der viser sammenhængen mellem to numeriske variabler, fx arbejdstid og indkomst.
Det er godt til at vise trends, korrelationer, clusters og outliers.

Question 5

Q

Hvad er et estimat?

Answer

A

Estimater bruges til at lave antagelser om parametre i en population, fx at estimere den gennemsnitlige løn for ingeniører ud fra en stikprøve.

Question 6

Q

Hvad er en parametre?

Answer

A

Parametre er den sande værdi som vi ikke får at se. Vi prøver i stedet at lave et estimat så tæt på parametre som muligt.

Question 7

Q

Hvad er medianen?

Answer

A

Medianen er den midterste værdi i et datasæt. Hvis der er et lige antal observationer, er medianen gennemsnittet af de to midterste værdier.

Question 8

Q

Hvad er percentiler?

Answer

A

Percentiler angiver, hvor en given procentdel af data ligger under en bestemt værdi, fx er medianen den 50. percentil.

Question 9

Q

Hvad er kvartiler?

Answer

A

Kvartiler deler data op i fire lige store stykker (“kvarte”) ved at lave tre skæringer:
* 1. kvartil: 1/4 af data er mindre, 3/4 større
* 2. kvartil (median): 1/2 af data er mindre, 1/2 større
* 3. kvartil: 3/4 af data er mindre, 1/4 større

Anvendes til at visualisere data ved hjælp af boksplot

Question 10

Q

Hvad er et boksplot?

Answer

A

En grafisk repræsentation der viser fordelingen af data gennem kvartiler. Bruges til at identificere outliers og forstå datafordelingen.

Question 11

Q

Hvad er et typetal?

Answer

A

Typetallet er den hyppigst forekommende værdi i et datasæt.

Question 12

Q

Hvad er variationsbredden?

Answer

A

Variationsbredden er forskellen mellem den højeste og laveste værdi i et datasæt.

Question 13

Q

Hvad er variansen?

Answer

A

Variansen måler spredningen af data ved at se på gennemsnittet af de kvadrerede afvigelser fra gennemsnittet.

Question 14

Q

Hvad er standardafvigelsen?

Answer

A

Standardafvigelsen er kvadratroden af variansen og giver et mål for, hvor meget data varierer omkring gennemsnittet.

Question 15

Q

Hvad er en population?

Answer

A

En population er “hele” gruppen, vi vil sige noget om – det kan så være alt fra os i lokalet til hele verdens befolkning.

Question 16

Q

Hvad er en stikprøve?

Answer

A

En stikprøve er nogle udvalgte fra den population, man trækker sin stikprøve fra, så nogen udvalgt fra lokalet eller nogen udvalgt fra hele verdens befolkning.

Question 17

Q

Hvad er en tilfældig stikprøve?

Answer

A

En stikprøve hvor hver observation i populationen har samme sandsynlighed for at blive udvalg.

Question 18

Q

Hvad er en sandsynlighedsbaseret stikprøve?

Answer

A

Vi trækker elementer fra vores population baseret på sandsynligheder for at trække et givet element (dette indbefatter en tilfældig stikprøve men er mere generelt)

Question 19

Q

Hvad er en bekvemmelighedsbaseret stikprøve?

Answer

A

Vi trækker elementer fra vores population, der er “lette” at få fat i (deler spørgeskema på Facebook).

Question 20

Q

Hvad er en vurderingsbaseret stikprøve?

Answer

A

Vi trækker elementer, vi mener er “bedst” (spørger specifikt førende forskere indenfor epidemiologi fremfor tilfældige forskere ifm. vedledning vedr. lockdown)

Question 21

Q

Hvad er en stikprøve med tilbagelægning?

Answer

A

Det vil sige at med tilbagelægning vil der være samme sandsynlighed for at trække enten en rød eller blå bold ved hver træk.

Question 22

Q

Hvad er en stikprøve uden tilbagelægning?

Answer

A

Uden tilbagelægning vil sandsynligheden for at trække en blå bold falde hver gang man trækker en blå bold, da man ikke lægger den tilbage igen.

Question 23

Q

Hvad er et stikprøvegennemsnit?

Answer

A

Gennemsnittet af observationerne i en stikprøve, som bruges til at estimere populationens gennemsnit.

Question 24

Q

Hvad er en frekvenstabel?

Answer

A

En tabel der viser antallet af observationer i forskellige kategorier eller intervaller.

Question 25

Q

Hvad er en stikprøveandel?

Answer

A

Andelen af observationer i stikprøven, der har en bestemt egenskab.

Question 26

Q

Hvad er kovarians?

Answer

A

Kovarians: Fortæller om 2 variables forhold til hinanden.
Positiv kovarians: når den ene stiger, stiger den anden
Negativ kovarians: når den ene stiger, falder den anden

Question 27

Q

Hvad er korrelation?

Answer

A

Korrelation: Viser også styrken af relationen. Så den siger både og det er en positiv og negativ relation, men også hvor positiv eller negativ den er. Her bruges korrelationskoefficienterne -1, 0 og 1.

Question 28

Q

Hvad er Ordinary Least Squares (OLS)?

Answer

A

En metode til at estimere parametrene i en lineær regression ved at minimere summen af kvadrerede afvigelser mellem de observerede og forudsagte værdier. Så det vil sige:

Ordinary Least Squares (OLS) er en metode, der bruges til at finde den bedste rette linje, der passer til en række datapunkter.

OLS-estimater er forventningsrette, hvilket betyder, at de i gennemsnit rammer de sande parameterværdier.

Blandt alle lineære og forventningsrette estimater har OLS-estimater den mindste varians.

Efterhånden som stikprøvestørrelsen øges, konvergerer OLS-estimaterne til de sande parameterværdier.

Question 29

Q

Hvad er et udfaldsrum?

Answer

A

Udfaldsrum: Mængden af alle mulige udfald i et eksperiment. Så for et terningeslag er udfaldsrummet slagene 1-6.

Question 30

Q

Hvad er en hændelse?

Answer

A

Hændelse: En specifik begivenhed, der består af et eller flere udfald i udfaldsrummet. Så det kunne være at slå en 6’er.

Question 31

Q

Hvad er et komplement?

Answer

A

Komplementer
For hændelsen A har vi et komplement A-bar som er alle udfald der ikke er lig med A

Question 32

Q

Hvad er en fællesmængde?

Answer

A

Fællesmængder
For hændelsen A og B har vi en fællesmængde som er der er enten hændelsen A eller B
Eksempel:
A: slå et lige tal
B: slå en 6’er
Fællesmængden er her hændelserne at slå en 2’er, 4’er eller 6’er fordi disse værdier opfylder kravene i enten A eller B

Question 33

Q

Hvad er et tværsnit?

Answer

A

Tværsnit
For to hændelser A og B har vi et tværsnit A ∩ B. Der er hændelsen både A og B
Eksempel:
A: slå et lige tal
B: slå en 6’er
Tværsnittet er her hændelsen at slå en 6’er fordi denne værdi opfylder kravene i både A og B

Question 34

Q

Hvad er en diskret stokastisk variabel?

Answer

A

En diskret stokastisk variabel kan tage et tælleligt antal værdier, fx en terningkast.

Question 35

Q

Hvad er formlen for en diskret stokastisk variabels gennemsnit?

Answer

A

Summen af x * p(x*
Gennemsnittet er udregnet som summen af alle x-værdierne ganget med sandsynligheden for at deres udfald sker.
Eksempel: Terningekast
Gennemsnit = 1(1/6)+2(1/6)+ 3(1/6)+4(1/6)+ 5(1/6)+6(1/6) = 3,5

Question 36

Q

Hvad er formlen for en diskret stokastisk variabels standardafvigelse?

Answer

A

Standardafvigelse = Kvadratroden(Varians)
Udregnes:
Kvadratroden af variansen
Eksempel:
√(σ^2 )=√2,92=1,71

Question 37

Q

Hvad er formlen for en diskret stokastisk variabels varians?

Answer

A

Varians
Summen af (x - my^2) * p(x)
Variansen udregnes som summen af de kvadrede forskelle med x-værdierne og gennemsnittet ganget med sandsynligheden for at hændelsen sker.
Eksempel: terningekast
Varians = (1-3,5)^2(1/6)+ (2-3,5)^2(1/6)+ (3-3,5)^2(1/6)+ (4-3,5)^2(1/6)+ (5-3,5)^2(1/6)+ (6-3,5)^2(1/6) = 2.92

Question 38

Q

Hvad er en kontinuer stokastisk variabel?

Answer

A

En stokastisk variabel der kan tage et uendeligt antal værdier inden for et interval. Sandsynlighedsfordelingen beskrives ved en tæthedsfunktion. Sandsynligheden p(x) er her ligmed 0.
Intuition: Hvad er sandsynligheden for, at en person er lige præcis 182.293896319863673143989034 cm høj?
Konsekvens: Vi ser altid på sandsynligheden for, at en værdi ligger inden for et interval:
1. Hvad er sandsynligheden for, at en person er 180-190 cm høj?
2. Hvad er sandsynligheden for, at ens aktieafkast er mellem -5% og 5%?

Question 39

Q

Hvad er karakteristika ved en binomialfordeling?

Answer

A

Modellerer antallet af succeser i en fastsat antal forsøg med konstant sandsynlighed for succes.

Question 40

Q

Gennemsnit, varians og standardafvigelse for en binomialfordeling?

Answer

A

Gennemsnit: n*p = Antal observationer x sandsynlighed for hændelse
Varians: np(1−p)
Standardafvigelse: sqrt(n*p(1−p)).

Question 41

Q

Hvad er karakteristika for en poisson fordeling?

Answer

A

Modellerer antallet af hændelser i et givent tidsinterval. Sandsynligheden er lige stor i alle intervaller og sandsynligheden i et interval påvirkes ikke af antal hændelser i et andet interval

Question 42

Q

Hvad er en hypergeometrisk fordeling?

Answer

A

Særtilfælde for binomialfordeling hvor det er træk uden tilbagelægning. Det vil sige at efter hvert træk ændrer sandsynligheden sig.

Question 43

Q

Gennemsnit, Varians og Standardafvigelse for en poisson fordeling?

Answer

A

Gennemsnit: μ
Varians: Varians = μ
Standardafvigelse: σ=√μ

Question 44

Q

Hvad er karakteristika for en normalfordeling?

Answer

A

Symmetrisk fordelt omkring gennemsnittet og klokkeformet.

Question 45

Q

Gennemsnit, varians og standardafvigelse for en normalfordeling?

Answer

A

Gennemsnit: μ=(sum af observationer)/(antal af observationer)
Varians: σ2=(sum af kvadrerede forskel fra gennemsnit)/(antal af observationer)
Standardafvigelse: sqrt(σ2)

Question 46

Q

Hvad er karakteristika for en uniform fordeling?

Answer

A

Der er lige stor sandsynlighed for alle udfald inden for et interval.
Den er karakteriseret ved 2 parametre: den øvre grænse c og den nedre grænse d

Question 47

Q

Hvad er karakteristika for en standardnormalfordeling?

Answer

A

Normalfordeling med gennemsnit 0 og standardafvigelse 1.

Question 48

Q

Hvad er karakteristika for en ekspotentiel fordeling?

Answer

A

Viser den tidsmæssige afstand mellem hændelser i en Poissonfordeling

Question 49

Q

Gennemsnit, varians og standardafvigelse for en uniform fordeling?

Answer

A

Gennemsnit: μ=(c+d)/2=middelpunktet i intervallet
Varians: σ2=((c+d)^2)/12
Standardafvigelse: sqrt(σ2)

Question 50

Q

Hvad er definitionen af en t-fordeling?

Answer

A

En t-fordeling er en sandsynlighedsfordeling, der bruges i hypotesetestning, især når stikprøvestørrelsen er lille, og populationens standardafvigelse er ukendt. T-fordelingen ligner normalfordelingen, men har tykkere haler, hvilket betyder, at den har større sandsynlighed for ekstreme værdier.

Forskellen på hvornår man bruger t-fordeling og hvornår man bruger normalfordeling afhænger af stikprøvens størrelse og kendskab til standardafvigelsen.

Er stikprøven lille og kender man ikke standardafvigelsen så vil man gøre brug af en t-fordeling.

Er stikprøven derimod stor og kender man standardafvigelsen gør man i stedet brug af normalfordeling

Question 51

Q

Hvad er lambda (λ) i en eksponentiel fordeling?

Answer

A

λ er poisson fordelingens gennemsnit.
Definition: λ er hastighedsparameteren eller rateparameteren for den eksponentielle fordeling.
Betydning: λ repræsenterer den gennemsnitlige antal hændelser pr. tidsenhed.
* Hvis λ er stor, sker hændelser ofte, hvilket betyder, at den gennemsnitlige tid mellem hændelser er kort.
* Hvis λ er lille, sker hændelser sjældent, hvilket betyder, at den gennemsnitlige tid mellem hændelser er lang.

Question 52

Q

Gennemsnit, varians og standardafvigelse for en ekspotentiel fordeling?

Answer

A

Gennemsnit: 1/λ
Varians: 1/λ^2
Standardafvigelse: 1/λ

Question 53

Q

Hvad er egenskaberne ved en t-fordeling?

Answer

A

T-fordelingen er symmetrisk og klokkeformet, ligesom normalfordelingen.
Den er bredere og har tykkere haler sammenlignet med normalfordelingen, især ved små frihedsgrader.
Når antallet af frihedsgrader (df) øges, nærmer t-fordelingen sig normalfordelingen. Ved store frihedsgrader (typisk over 30) er forskellen mellem t-fordelingen og normalfordelingen minimal.

Question 54

Q

Gennemsnit, varians og standardafvigelse for en t-fordeling?

Answer

A

Gennemsnit: μ=(sum af observationer)/(antal af observationer)
Varians: σ^2=(sum af kvadrerede forskel fra gennemsnit)/(antal af observationer)
Standardafvigelse: sqrt(σ^2)

Question 55

Q

Hvad er definitionen af en F-fordeling?

Answer

A

F-fordelingen er en sandsynlighedsfordeling, som bruges hovedsageligt i variansanalyse (ANOVA) og hypotesetestning for at sammenligne variansen mellem to stikprøver. Den beskriver forholdet mellem to uafhængige chi-i-anden fordelte variable, hver divideret med deres respektive frihedsgrader.

Question 56

Q

Hvad siger den centrale grænsesætning?

Answer

A

Centralgrænsesætningen siger at gennemsnittet for en uafhængig fordelt stokastisk variabel er normalfordelt, selv om den variable man tager gennemsnittet af, ikke er normalfordelt.

Den centrale grænsesætning siger, at hvis du tager mange uafhængige og identisk fordelte (i.i.d.) tilfældige variable og beregner gennemsnittet af dem, vil dette gennemsnit nærme sig en normalfordeling, selvom de enkelte variable ikke er normalfordelte. Dette gælder, når antallet af variable (n) er tilstrækkeligt stort.

Question 57

Q

Hvordan udregner man en F-test for en F-fordeling?

Answer

A

Vi kan udregne vores test statistik ud fra estimater af variansen i vores to stikprøver
F=(s_1^2)/(s_2^2 ) , hvis H_a:σ_1^2>σ_2^2
F=(s_2^2)/(s_1^2 ) , hvis H_a:σ_1^2<σ_2^2
F=(største af σ^1_2,σ^2_2)/(mindste af σ^1_2 , σ^2-2 ) ,
hvis H_a:σ^2_1≠σ^2_2
Vi kan da bruge en F-fordeling til at udregne p-værdien

Question 58

Q

Definitionen af en X^2 fordeling?

Answer

A

Chi-kvadrat fordelingen er et alsidigt værktøj til hypotesetestning og variansanalyse, især når vi arbejder med varians eller vurderer goodness-of-fit for en given fordeling. Med stigende frihedsgrader nærmer fordelingen sig normalfordelingen og bruges bredt i statistiske analyser .

Question 59

Q

Hvad er et konfidensinterval om en estimeret andel?

Answer

A

Et interval der sandsynligvis indeholder populationens andel med en bestemt konfidensniveau.

Question 60

Q

Hvornår skal man bruge en Z-statistic?

Answer

A

Når du har et gennemsnit med kendt standardafvigelse

Question 61

Q

Hvornår bruger man en T-fordeling?

Answer

A

Når du har et gennemsnit med ukendt standardafvigelse

Question 62

Q

Hvordan udregnes et konfidensinterval omkring en estimeret andel?

Answer

A

Vælg konfidensniveau p og udregn signifikansniveau α
Estimer â
Udregn variansen af â
Udregn z_α/2 Ved hjælp af Excel funktionen NORM.S.INV
Udregn konfidensintervallet

Question 63

Q

Hvilke hypoteser opsætter man for en hypotesetest?

Answer

A

H_0 og H_A
I statistisk hypotesetestning formuleres to modstridende hypoteser: nulhypotesen (H0) og alternativhypotesen (Ha). Disse hypoteser bruges til at teste en statistisk påstand om en population på baggrund af stikprøvedata.

Nulhypotese (H0)
Nulhypotesen er en påstand, der repræsenterer status quo eller en baseline, som vi søger at finde beviser imod.

Alternativhypotese (Ha)
Alternativhypotesen er en påstand, der repræsenterer en ny opfattelse eller påstand, som vi søger beviser for.

Question 64

Q

Hvilke 3 typer af hypotesetest findes der?

Answer

A

3 typer

1-siddet, “større end”: H_0 : mu <= mu_0 , H_A : mu => mu_0

1-siddet, “mindre end”: H_0: mu => mu_0 , H_A : mu <= mu_0

2-siddet, “ikke lig med”: H_0: mu = mu_0 , H_A: mu ≠ mu_0

Answer 65

A

Sandsynligheden for at lave en type I fejl.
Vi vælger selv signifikansniveauet for at forkaste en sand nulhypotese

Answer 66

A

Type I og Type II fejl

Type I fejl:
Vi forkaster nulhypotesen selvom den er sand.
Du får at vide at du ikke er gravid selvom du er gravid.

Type II fejl:
Vi forkaster ikke nulhypotesen selvom den er falsk.
Du får at vide at du er gravid selvom du ikke er det.

Answer 67

A

Opsæt H0 og Ha
Vælg signifikansniveau α
Estimer x-bar ud fra data
Udregn variansen af x-bar
Udregn z
Udregn p-værdien ud fra z og afvis H_0 hvis p< α

Bemærk: Måden vi udregner p-værdien afhænger af, om vores hypotese er 1- eller 2-siddet!

Answer 68

A

Forskellen mellem gennemsnit i 2 uafhængige stikprøver udregnes som x-bar_1-x-bar_2.

her gælder:
1. x-bar_1-x-bar_2 er approksimativt normalfordelt for store stikprøver.
2. har gennemsnittet my_x-bar1-x-bar2=my1-my2
3. har standardafvigelsen: √σ_1^2/n_1+(σ_2^2/n_2)

Answer 69

A

Opsæt H_0 ogH_a
2. Vælg signifikansniveau α
3. Estimer x-bar ud fra data
4. Estimer σ^2 ud fra data (udregn s^2)
5. Udregn variansen af x-bar
6. Udregn t
7. Udregn p-værdien ud fra t og afvis H_0 hvis p< α
Bemærk: Måden vi udregner p-værdien afhænger af, om vores hypotese er 1- eller 2-siddet!

Answer 70

A

Opsæt H_0 og H_a
Vælg signifikansniveau α
Estimer x-bar_1, x-bar_2, s_1^2, og s_2^2 ud fra data
Estimer den “pooled” varians
Estimer standardafvigelsen af x-bar_1- x-bar_2
Udregn t
Udregn p-værdien ud fra t og afvis H_0 hvis p< α

Bemærk: Måden vi udregner p-værdien afhænger af, om vores hypotese er 1- eller 2-siddet!

Man kan enten antage at variansen er ens og derfor bruge formlen for pooled varians, eller man kan antage at den ikke er ens og så bruger man en anden formel og tilpasser også her frihedsgraderne.

Answer 71

A

Vil vi undersøge en hypotese omkring en parret forskel mellem to populationsgennemsnit, opsætter vi en af nedenstående hypoteser

1-siddet,“størreend”: H0 :μd ≤D0 ogHa :μd >D0
1-siddet,“mindreend”: H0 :μd ≥D0 ogHa :μd <D0
2-siddet,“ikkeligmed”: H0 :μd =D0 ogHa :μd ̸=D0

Foruden hypotesen vælger vi et signifikansniveau (α), f.eks. α = 5%, der så er sandsynlighed for at forkaste en sand nulhypotese

Bemærk: Her skal μd forstås som det faktiske gennemsnit af forskellene

Answer 72

A

Opsæt H_0 og H_a
Vælg signifikansniveau α
Udregn alle forskellene d_i
Estimer d-bar og s^2_d ud fra data
udregn variansen af d_bar
Udregn t
Udregn p-værdien ud fra t og afvis H_0 hvis p< α

Answer 73

A

Opsæt H_0 og H_a
Vælg signifikansniveau α
Estimer andelen a_1-hat og a_2-hat ud fra data
Estimer Standardafvigelsen af a_1-hat - a_2-hat
Udregn z
Udregn p-værdien ud fra z og afvis H_0 hvis p< α

Bemærk: Måden vi udregner p-værdien afhænger af, om vores hypotese er 1- eller 2-siddet!

Answer 74

A

Vil vi undersøge en hypotese omkring sammenligning af andele, opsætter vi en af nedenstående hypoteser

1-siddet,“størreend”: H0 :a1-a2 ≤D0 og Ha :a1-a2 >D0
1-siddet,“mindreend”: H0 :a1-a2 ≥D0 og Ha :a1-a2 <D0
2-siddet,“ikkeligmed”: H0 :a1-a2 = D0 og Ha :a1-a3 ̸=D0

Foruden hypotesen vælger vi et signifikansniveau (α), f.eks. α = 5%, der så er sandsynlighed for at forkaste en sand nulhypotese

Answer 75

A

Ja, så bruger vi et specieltilfælde hvor standardafvigelsen estimeres ud fra en estimeret andel af de kombinerede datasæt fremfor forskellen i andel.

Answer 76

A

ANOVA er en statistisk metode brugt til at sammenligne gennemsnit mellem flere end to grupper for at afgøre, om der er statistisk signifikante forskelle mellem dem. Metoden opdeler den totale variation i dataene i variation mellem grupperne (between-group variability) og variation indenfor grupperne (within-group variability).

Antagelser:
1. Variansen er ens i alle grupper.
2. Alle grupper er normalfordelte.
3. Observationerne er uafhængige.

Answer 77

A

En Goodness-of-Fit test anvendes til at afgøre, hvor godt en observeret frekvensfordeling passer til en forventet fordeling. Denne test er ofte baseret på x^2 fordelingen.
Formålet med Goodness-of-Fit testen er at teste en hypotese om en bestemt fordeling af dataene i en population. For eksempel kan vi teste, om en datasæt følger en normalfordeling, en binomialfordeling, eller en anden specifik fordeling.

Answer 78

A

Når vi gerne vil estimere parametrene Beta_0 og Beta_1

Answer 79

A

Beta0: den faktiske værdi (Det er et parameter. Det kan man aldrig observere)
Beta1: den faktiske værdi (Det er et parameter. Det kan man aldrig observere)
B0: vores estimat af beta0 og er skæringen med y-aksen hvor x=0
B1: vores estimat af beta1 og er hældningskoefficienten. Når x stiger med 1 så stiger y med b1.

Answer 80

A

Den uafhængige variabel bruges til at forudsige værdien af den afhængige variabel.

Answer 81

A

Scatterplot: Bruges til at visualisere forholdet mellem to variabler.
Trendlinje: En linje der bedst beskriver sammenhængen i et scatterplot.

Answer 82

A

Sum of Squared Errors (SSE): Summen af de kvadrerede afvigelser mellem observerede og forudsagte værdier.

Answer 83

A

Interval der sandsynligvis indeholder den sande værdi af en regressionskoefficient.

Answer 84

A

OLS: Metode til at minimere den kvadrede afstand mellem y og SSE for at finde de bedste estimater af B0 og B1. Det er også formlen bag trendlinjen i et scatterplot.

Answer 85

A

Determinationskoefficienten er et mål for, hvor stor en andel af variationen i ens data, ens lineære regressionsmodel forklarer

R^2 = forklaret variation / samlet variation
Bemærk: Da dette er en andel, er værdien altid inden for intervallet [0, 1]

Uanset hvor høj ens R2 er, betyder det ikke, at der er en årsags-konsekvens sammenhæng imellem x og y .

Answer 86

A

Tester betydningen af regressionskoefficienter.

Answer 87

A

Ligner simpel lineær regression men har flere variable på højresiden nu (vi estimere flere parametre).

En multipel lineær regression med k variable skrives da som y =β0 +β1x1 +···+βkxk +ε,

hvor ε repræsenterer tilfældig støj og forklarer, hvorfor alle punkter ikke ligger helt præcist p ̊a (hyper)planet

Vi kan forstå parametrene som:

β0: Skæringen med y-aksen for x1 =x2 =···=xk =0, hvilket er den gennemsnitlige værdi af y, betinget af at alle x-side variable tager værdien 0
β1: Ændringen i y, hvis x1 stiger med ́en og alle andre variable holdes konstant
β2: Ændringen i y, hvis x2 stiger med ́en og alle andre variable holdes konstant
…osv. for x3, x4, …, xk

I og med at vi estimere flere parametre, skal vi også tage højde for flere frihedsgrader. Hvis b0,b1,b2,b3 trækker vi 4 frihedsgrader fra.

Answer 88

A

Et “problem” ved R2 for multipel lineær regression er, at den aldrig falder, når man tilføjer en ny variabel til sin regression.
Det gør det svært at vurdere, om ens regression er blevet “bedre” af at tilføje en ekstra variabel

Den justerede determinationskoefficient (R ̄2) er et forsøg på at justere R2, s ̊a vi får et mål, der falder, hvis vi tilføjer en variabel, der ikke gavner vores regression-

hvor R2 er den normale determinationskoefficient, k antallet af x-variable, og n antallet af observationer

Answer 89

A

Et interval der sandsynligvis indeholder de sande værdier af regressionsparametrene.

Answer 90

A

K-means clustering er en populær algoritme, der anvendes til at opdele en mængde data i kkk forskellige klynger. Målet er at minimere variationen inden for hver klynge og maksimere forskellen mellem klyngerne.

Answer 91

A

Hierarkisk klyngeanalyse er en metode til at opdele data i klynger uden på forhånd at specificere antallet af klynger. Denne metode er især nyttig, når vi ønsker at finde det optimale antal klynger, der bedst repræsenterer strukturen i dataene

Answer 92

A

Faktoranalyse er en statistisk metode, der anvendes til at identificere underliggende faktorer, der forklarer mønstre i data. Den bruges, når man ønsker at måle en “faktor”, som ikke kan observeres direkte, men som påvirker flere observerbare variable, kendt som “proxies”.