Begreber Flashcards

Question 1

Q

What is Median

Hvad er median

Answer

A

Middle value of a sorted dataset
Middelværdi af et sorteret datasæt

Altså den midterste værdi. Er der et ulige antal er observationer, er det den midterste observation. Er der derimod et lige antal observationer, skal man tage de to midterste værdier og lægge sammen, og derefter dividerer med 2, denne værdi vil så være medianen.

Question 2

Q

What is quartiles

Hvad er kvartiler

Answer

A

Kvartiler/quartiles er de observationer, som når datasættet er sorteret, deler datasættet i 4 lige store mængder (25%).
Q1 er de første 25%
Q2 er de næste 25% (50% af observationerne er mindre end Q2)
Q3 er de næste 25% (75% af observationerne er mindre end Q3)

Question 3

Q

Mean vs median

Gennemsnit vs. Median

Answer

A

Mean (gennemsnit) er fundet ved at lægge alle observationer sammen og dividerer med antallet af værdier (ofte kaldet “n”)

Median er den midterste værdi af et sorteret datasæt. (Er der et lige antal værdier, skal de to midterste værdier lægges sammen og divideres med 2, så har man medianen)

Question 4

Q

What is Q1, Q2 and Q3

Hvad er Q1, Q2 og Q3

Answer

A

Første kvartil, andet kvartil og tredje kvartil.

Andet kvartil er = median

25% af observationerne er mindre end første kvartil.

50% af observationerne er mindre end andet kvartil. (medianen)

75% af observationerne er mindre end tredje kvartil.

Question 5

Q

Hvad er prøvekvantiler

Question 6

Q

What is Outlier

Answer

A

En outlier er en værdi der ligger langt fra resten af datasættet. Den afviger fra de andre værdier.

Question 7

Q

What is percentile/Percentil

Answer

A

Percentil fortæller om hvor mange procent der er under de givende datapunkter.
Dermed vil Q1 (første kvartil) være 25 percentil.
Eksempel: Et datasæt med 10 værdier:
8.9, 9.4, 9.6, 9.7, 9.8, 9.9, 10.1, 10.3, 10.4, 10,7
Her vil 8.9 have en percentil på 5 (0.05), i og med at det er et lille datasæt, men hvis det bliver større vil dette tal også blive mindre.
Formel:
p = (k-0.5)/n
k er hvad plads hver værdi har i rækkefælgen, så 8.9 har 1, og 9.9 er 6
n er værdierne i alt, dermed 10

Question 8

Q

What is interquartile range (IQR)

Hvad er interkvartilområdet (IQR)

Answer

A

Det er et mål for statistisk spredning af den midterste halvdel af ens fordeling, og findes ved at trække Q1 fra Q3.
IQR=Q3-Q1

IQR bruges til at finde outliers. Man ganger IQR med 1,5. Værdien man får, skal trækkes fra Q1 og lægges til Q3, dette giver et interval. Har man værdier der ligger uden for intervallet, er disse outliers.
Outlier1= Q1 - (IQR * 1.5)
Outlier2= (IQR * 1.5) + Q3

Question 9

Q

Værdier når man snakker om percentiles/percentiler.
dx
dp
dx_(12)
dp_(12)

Answer

A

dx = afstanden mellem værdierne for den ønskede percentil og en værdien for en kendt percentil.
dp = Afstand mellem den ønskede percentil og en kendt percentil
dx_(12) = Afstand mellem de udvalgte værdier
dp_(12) = afstand mellem de udvalgte percentiler

Question 10

Q

What is a boxplot and what does it show

Hvad er et boksplot og hvad viser det

Answer

A

Det er en grafisk repræsentation, der viser fordelingen af et datasæt ved hjælp af fem nøglemålinger:
- Minimum - der ikke er en outlier
- Første kvartil (Q1)
- Median (anden kvartil, Q2)
- Tredje kvartil (Q3)
- Maksimum - der ikke er en outlier
Den viser også eventuelle outlier (som punkter, hvis de er længere væk end IQR*1,5, fra Q1 eller Q3)

Question 11

Q

Hvad er sum

What is sum

Answer

A

Summen af værdier, er alle værdierne lagt sammen

Question 12

Q

Hvordan udregnes variansen

Answer

A

Varians udregnes ved at trække gennemsnittet fra summen af de kvadrerede afstande

For Befolkning:
σ² = (x_1- μ)² +…+ (x_N - μ)²) / N

For en prøve:
s² = ((x_1-m)² +…+ (x_n-m)²) / (n-1)

Variance is calculated by subtracting the mean from the sum of the squared distances

Question 13

Q

What is squared differences

Hvad er kvadrerede afstande

Answer

A

Skalerede kvadrerede forskelle, er en metode til at sammenligne forskelle mellem observerede værdier (O) og forventede værdier (E) ved at tage højde for variationen i data. Disse forskelle skaleres ved at dividere med de forventede frekvenser for at tage højde for størrelsen af de forventede værdier.
Den kan bruges i en chi-square test
X²=(O_i-E_i )²/E_i

Question 14

Q

Hvordan udregnes varians for et datasæt

Answer

A

Varians for et datasæt findes ved at trække gennemsnittet fra de kvadrerede afstande

Question 15

Q

Hvad er s² (σ²)

Answer

A

Varians (Variance)
σ² er varians for en befolkning (population)
s² er varians for en prøve (sample)

Question 16

Q

Hvad er s (𝜎)

Answer

A

standardafvigelsen (standard deviation)
𝜎 er standardafvigelsen for en befolkning (population)
s er standardafvigelsen for en prøve (sample)

Question 17

Q

Hvad fortæller variansen

Answer

A

Varians er hvor spredt et sæt datapunkter er fra gennemsnitsværdien.

En lav varians indikerer, at datapunkterne har en tendens til at være tæt på gennemsnittet. En høj varians tyder på, at datapunkterne er mere spredte.

Question 18

Q

Hvad fortæller standardafvigelse?

What does the Standard deviation tell?

Answer

A

Standardafvigelse kvantificerer mængden af variation eller spredning i et sæt værdier. Det viser hvor spredt værdierne i et datasæt er fra gennemsnitsværdien. En lav standardafvigelse indikerer, at datapunkterne har en tendens til at være tæt på gennemsnitsværdien, mens en høj standardafvigelse antyder, at datapunkterne er spredt ud over et større område af værdier.

Question 19

Q

Hvad er z-score

Answer

A

Standard score
En z-score er et mål for, hvor mange standardafvigelser en observation eller datapunkt ligger fra gennemsnittet (middelværdien) af datasættet.
Det er et mål for, hvor langt dine værdier går fra mu (gennemsnit)
Formel:
z = (x-μ) / σ
Så hvis det giver z=-2, det betyder, at det er to standardafvigelser under gennemsnittet

Question 20

Q

Skewness
Skævhed

Answer

A

Skævhed er et mål for asymmetrien i en fordeling af data. Det fortæller os, om dataene er symmetrisk fordelt eller har en tendens til at fordele sig mere mod den ene side af middelværdien.
Kan give indsigt i, hvorvidt dataene afviger fra normalfordelingen.
Skævhed = 0: Dataene er symmetriske.
Skævhed > 0: Dataene er positivt skæve (hale mod højre)
Skævhed < 0: Dataene er negativ skæve (hale mod venstre

Question 21

Q

Standard score

Answer

A

Er z-score
Det er et mål for, hvor mange standardafvigelser en observation eller datapunkt ligger fra gennemsnittet (middelværdien) af datasættet.
Det er et mål for, hvor langt dine værdier går fra mu (gennemsnit)
Formel:
z = (x-μ) / σ
Så hvis det giver z=-2, det betyder, at det er to standardafvigelser under gennemsnittet

Question 22

Q

Stripchart

Answer

A

Et strip plot, er en grafisk repræsentation, der viser individuelle data punkter langs en akse. Det bruges ofte til at vise fordelingen af et lille sæt af kvantitative data (altså flere data’er).

Question 23

Q

Gennemsnittet (m) er…

Answer

A

Gennemsnittet af en stikprøve er summen af alle observationerne divideret med antallet af observationer. Det giver en central værdi for dataene,

Question 24

Q

Standardafvigelse ((s),(σ)) er…

Answer

A

Et mål for mængden af variation eller spredningen af observationerner i en stikprøve. Det angiver, hvor meget observationerne afviger fra gennemsnittet.
En lav standardafvigelse indikerer, at værdierne har en tendens til at være tæt på middelværdien.

Question 25

Q

Konfidensintervallet (CI) er…
(Confidence interval)

Answer

A

Et interval, der med en bestemt sandsynlighed (f.eks. 95% eller 99%) indeholder den sande populationsparameter, f.eks. gennemsnittet -> En 95 % CI betyder, at vi er 95 % sikre på, at intervallet indeholder det sande gennemsnit.

μ = m ± t · s / √n

Question 26

Q

t- fordeling er…
(t-distribution)

Answer

A

En type sandsynlighedsfordeling, der er symmetrisk og klokkeformet, men har tungere haler end normalfordelingen
Bruges til at beregne konficensintervallet og teste hypoteser, især når stikprøvestørrelsen er lille og populationsstandardafvigelsen er ukendt.

Afhænger af:
- Hvor stort intervallet er i form af sandsynligheder og %
-Degress of freedom (df) (n-1)

Question 27

Q

Fejlmargin (em) er…
(margin of error)

Answer

A

Fejlmarginen angiver, hvor meget et stikprøveestimat kan forventes at variere fra den sande populationsparameter.
Produktet af SE og t-værdien. Bruges til at beregne CI.

em = t · s / √n

Question 28

Q

Hypotesetest er…

Answer

A

En procedure for at teste en påstand om en populationsparameter. Det involverer en nulhypotese (H0) og en alternativ hypotese (Ha).

Question 29

Q

P-værdi er…

Answer

A

Sandsynligheden for at opnå et testresultat, der er lige så ekstremt som eller mere ekstremt end det observerede resultat, under antagelsen om, at nulhypotesen er sand.
En lav p-værdi (< 0,05) indikerer, at nulhypotesen kan forkastes.

Bruges til at bestemme resultaternes signifikans ved hypotesetest.

Question 30

Q

Standardfejl (SE) er…
(Standard error)

Answer

A

Standardfejlen, SE, giver en indikation af, hvor meget en stikprøvemiddelværdi (eller en anden parameter) kan forventes at variere fra populationens sande parameter.
Standardafvigelsen (s) af stikprøvegennemsnitten. Det bruges til at beregne konfidensintervaller og teste hypoteser.

SE = s / √n

Question 31

Q

Chi-square fordeling (χ²) er…

Answer

A

En fordeling, der burges til at beregne konfidensintervaller for varians (σ²) og standardfvigelse (s).

Question 32

Q

Type I fejl er…

Answer

A

Afvisning af en sand nulhypotese. Også kendt som en falsk positiv.

Er vigtigt at overveje, når man fastsætter signifikansniveauet for hypotesetests.

Question 33

Q

Typpe II fejl er …

Answer

A

Accept af en falsk nulhypotese. Også kendt som en falsk negativ.

Overvejes, når man diskuterer testens styrke og sandsynligheden for ikke at opdage en sand effekt.

Question 34

Q

Styrke (power) af en test er …

Answer

A

Sandsynligheden for korrekt at afvise en falsk nulhypotese.

Question 35

Q

I rapporten 2 - Anvendelse af Konfidensintervallet (CI):

Answer

A

Bruges til at estimere den gennemsnitlige sukkerindhold i æbler med 95% konfidens.

Question 36

Q

I rapporten 2 - Anvendelse af Standardafvigelsen (s):

Answer

A

Beregnes for at forstå variationen i sukkerindholdet i æbler.

Question 37

Q

I rapporten 2 - Anvedelse af Standardfejl (SE):

Answer

A

Bruges til at beregne CI for det gennemsnitlige sukkerindhold.

Question 38

Q

I rapporten 2 - Anvedelse af t-distribution:

Answer

A

Bruges til at tilnærme fordelingen af stikprøvegennemsnittet (s), når populations standardafvigelsen er ukendt.

Question 39

Q

I rapporten 2 - Anvedelse af Nulhypotese (H0)

Answer

A

Bruges til at teste, om det gennemsnitlige sukkerindhold er 10% eller mere.

Question 40

Q

Nulhypotese (H0) er …

Answer

A

En påstand om, at der ikke er nogen effekt eller forskel, og det er hypotesen, som forskere typisk forsøger at modbevise.

Question 41

Q

Hvad er betydningen af konfidensintervallet (CI), og hvordan fortolker man det i praksis?

Answer

A

CI angiver et interval, inden for hvilket den sande populationsparameter sandsynlighvis ligger med en bestemt sandsynlighed (f.eks. 95%). I praksis betyder det, at hvis man gentager eksperimentet mange gange, vil 95% af de beregnede CI indeholde sande parameter.

Question 42

Q

Hvordan beregner man standajfejlen (SE), og hvorfor er den vigtig i statistiske analyser?

Answer

A

SE beregnes ved at dividere satandardafvigelsen (s) af stikprøven med kvadratroden af stikprøvestørrelsen (n):
SE = s/√n.
Den er vigtig, fordi den bruges til at stimere, hvor præcist stikprøvegennemsnittet repræsenterer populationsgennemsnittet, og den anvender i beregningen af konfidensintervaller og hypotesetests.

Question 43

Q

Hvad er forskellen mellem en t-test og en z-test, og hvonår bruger man hvilken?

Answer

A

En t-test anvendes, når stikprøvestørrelsen (n) er lille (typisk n < 30), og populationsstandardafvigelsen er ukendt.
En z-test bruges, når (n) er stor, eller populationsstandardafvigelsen er kendt.
T-testen bruger t-distribution, mens z-testen bruger normarfordeling.

Question 44

Q

Hvordan finder man t-værdien fra t-distributionstabellen, og hvordan påvirker de vores beregninger?

Answer

A

T-værdierne findes ved at slå op i en t-distributionstabel, hvor man bruger frihedsgrader (n-1) og det ønskede signifikansniveau.
T-værdierne bruges til at beregne konfidensintervaller og kritiske værdier for hypotesetest.

Question 45

Q

Hvordan påvirker valg af signifikansniveau (0,05 vs. 0,01) vores testresultater og konklusioner?

Answer

A

Et lavere signifikansniveau (f.eks. 0,01) gør testen mere stringent, hvilket betyder, at der er mindre risiko for en type I fejl (forkert afvisning af nulhypotesen), men større risiko for en type II fejl (ikke at afvise en falsk nulhypotese).

Et højere signifikansniveau (f.eks. 0,05) øger risikoen for en type fejl I, men mindsker risikoen for en type II fejl.

Question 46

Q

Hvad er p-værdien, og hvordan bruger man den til at træffe beslutninger i hypotesetestning?

Answer

A

P-værdien er sandsynligheden for at observere en teststatistik lige så ekstrem som, eller mere ekstrem end, det observerede resultat, under antagelse af at nulhypotesen er sand.

Hvis p-værdien < end den valgte signifikansniveaue (f.eks. 0,05), afviser vi nulhypotesen.

Hvis p-værdien ≥ signifikansniveauet (f.eks. 0,05), afviser vi ikke nulhypotesen (vi siger, at vi ikke har tilstrækkelig evidens til at afvise den).

Dette betyder, at vi forholder os afventende eller neutral med hensyn til nulhypotesens sandhed, snarere end aktivt at acceptere den.

Question 47

Q

Hvordan beregner man konfidensintervallet (CI) for varians (σ²) og standardafvigelsen (s) vha. chi-square (χ²) -fordelingen?

Answer

A

For at beregne (CI) for (σ²) og (s), anvendes X²-fordelingen. Intervallene beregnes ved at bruge kritiske værdier fra X²-fordelingstabellen og observerede variansdata.

Man bruger følgende trin:
i. Identificer stikprøvevariansen (s²) og stikprøvestørrelsen (n).
ii. Vælg konfidensniveauet (f.eks.95%).
iii. Find kritiske værdier fra X²-fordellingstabellen for de tilsvarende frihedsgrader (n-1) og konfidensniveauet.

Question 48

Q

Hvordan finder man de kritiske værdier fra χ²-fordelingstabellen?

Answer

A

Vi skal kende antallet af frihedsgrader (degrees of freedom, df) og det valgte signifikansniveau (α).

Trin til at finde de kristiske værdier:
1. Bestem antallet af frihedsgrader (df):
(df) = (n-1), hvor n er stikprøvestørrelsen.

Vælg signifikansniveau (α):
(α) = (1 - konfidensniveau). F.eks. for et 95% konfidensinterval, er α=0,05.
Find kritiske værdier fra χ²-fordelingstabellen:
Fordelingen er asymetrisk, så vi skal finde både den nedre og den øvre kritiske værdi for α/2 og 1-α/2

Eksempel:
Lad os antage en stikprøve på 20 observationer (n = 20) og et 95% konfidensinterval:

Antal frihedsgrader (df):
df = n - 1 = 20 - 1 = 19

Signifikansniveau (α):
For et 95% konfidensinterval: α = 0,05
α/2 = 0,025 og 1-α/2 = 0,975

Opslå de kritiske værdier i χ²-fordelingstabellen:
For df = 19:
χ²-værdien for α/2 = 0,025 (den øvre kritiske værdi) er ca. 32.852

χ²-værdien for 1-α/2 = 0,975 (den nedre kritiske værdi) er ca. 8.907

De nøjagtige værdier kan findes i en χ²-fordelingstabel eller ved hjælp af en statistisk software.

Question 49

Q

Hvad er en typpe I og type II fejl, og hvilke konsekvenser har de i praktiske situationer?

Answer

A

En type I fejl opstår, når vi forkert afviser en sand nulhypotese (falsk positiv).
En type II fejl sker, når vi undlader at afvise en falsk nulhypotese (falsk negativ).
Konsekvenserne afhænger af konteksten.
F.eks. i medicinsk forskning kan en type I fejl føre til brug af ineffektive behandlinger, mens en type II fejl kan betyde, at den effektiv behandling ikke anvendes.

Question 50

Q

Hvordan udfører man en styrkeanalyse, og hvad kan man gøre for at øge styrken af en test?

Answer

A

En styrkeanalyse beregner sandsynligheden for korrekt at afvise en falsk nulhypotese (type I fejl). For at øge styrken kan man øge stiksprøvestørrelsen, vælge en større effekstørrelse, eller øge signifikansniveauet.

Question 51

Q

Hvad er fordelene og ulemperne ved at bruge forskellige konfidensniveauer i vores analyser?

Answer

A

Højere konfidensniveauer (f.eks. 99%) giver bedre konfidensintervaller, hvilket betyder større sikkerhed, men mindre præcision.
Lavere konfodensniveauer (f.eks. 90%) giver smallere intervaller og mere præcision, men mindre sikkerhed.

Question 52

Q

Hvad er SS_(xx), SS_(yy) og SS_(xy)

Answer

A

De er kvadrerede summer, af forskellige værdier
SS_(xx) er summen af kvadrerede afvigelser for afstanden af x og dens gennemsnit
SS_(xy) er summen af kvadrerede afvigelser mellem x og y
Matematisk udtryk: SS_xy=∑_(i=1)^n(x_i-m_x)(y_i-m_y)

Question 53

Q

Hvad er kovarians?

Answer

A

Den måler den sammenhængende variation mellem to variabler
Kovariansen kan være positiv, negativ eller nul, og dette angiver henholdsvis en positiv lineær sammenhæng, en negativ lineær sammenhæng eller manglende lineær sammenhæng mellem variablerne.
En positiv kovarians indikerer, at når værdierne af X stiger, stiger værdierne af Y også (og omvendt)
En negativ kovarians indikerer, at når værdierne af X stiger, falder værdierne af Y (og omvendt). Hvis kovariansen er tæt på nul, er der ingen linære sammenhæng mellem variablerne.

Question 54

Q

Hvad er korrelations koefficient?

Answer

A

Den angiver styrken og retningen af den lineære sammenhæng mellem to variabler.
Den bruges til at vurdere, hvor god variablerne bevæger sig sammen.
En høj korrelations koefficient indikerer en stærk lineær sammenhæng, mens en lav korrelationskoefficient indikerer en svag eller ingen lineær sammenhæng.
Den mest almindelige type korrelations koefficient er Pearson’s

Question 55

Q

Hvad er Pearson’s korrelations koefficient

Answer

A

Den måler den lineære sammenhæng mellem to variabler, normalt betegnet som X og Y.
Den er også kendt som betegnelsen r
Peatson’s ligger mellem -1 og 1, hvor:
o r=1: perfekt positiv lineær sammenhæng (når X stiger, stiger Y)
o r=-1: perfekt negativ lineær sammenhæng (når X stiger, falder Y)
o r=0: Ingen lineær sammenhæng mellem X og Y

Question 56

Q

Hvad er standard sigma (σ), for henholdsvis 68,3% 95% 95,5% og 99,7% hvor alle værdierne ligger rund om mu (μ) og sigma

Answer

A

68,3% = 1 σ
95% = 1,96 σ
95,5% = 2 σ
99,7% = 3 σ

Question 57

Q

Hvor mange procent af værdierne vil ligge inde for mu (μ) og en sigma (σ) på 1 1,96 2 3

Answer

A

1σ = 68,3%
1,96 σ = 95%
2 σ = 95,5%
3 σ = 99,7

Question 58

Q

Hvad er Fisher transformation:

Answer

A

Også kendt som Fisher’s z-transformation
Det er en metode anvendt til at normalisere fordelingen af korrelationskoefficienter. Denne transformation konverterer korrelationskoefficienter, som er begrænset til intervallet [-1,1], til en næsten normalfordelt variabel, hvilket gør det lettere at udføre statistiske test og sammenligne korrelationer.
Givet ved formlen z=1/2 ln⁡((1+r)/(1-r))

Question 59

Q

Hvad er ”residuals” (residualer)

Answer

A

Residualer refererer til forskellene mellem de observerede værdier og de værdier, der er forudsagt af en statistisk model.
Definition: Residualet e_i for en ovservation i er givet ved formlen:
e_i=y_i-(y_i ) ̂ (dette er y hat)
hvor: y_i er den observerede værdi. (y_i ) ̂ er den forudsagte værdi fra modellen

Question 60

Q

Hvad er Kvadreret residualer

Answer

A

Er e², og beskriver noget om hvor høje residualerne er.
Høj sum af kvadreret residualer -> modellen ligger ikke tæt på de reelle målingerne.
Lav sum af kvadreret residualer -> modellen ligger tæt på de reelle målinger.

Question 61

Q

Hvad er Koefficienten for determination R²
(Coefficient of determination)

Answer

A

Koefficienten for determination, eller determinationskoefficienten (kendt i vores som forklaringsgrad). Den bruges til at vurdere, hvor godt en statistisk model passer til dataene, og hvor store en andel af variationen i den afhængige variabel, der kan forklares af de uafhængige variabler i modellen.
En R² værdi tæt på 1 indikerer, at modellen er god (passer til dataene) og forklarer variationen
En R² værdi tæt på 0 indikerer, at modellen ikke er god (ikke passer til dataene) og forklarer kun en lille del af variationen.

Question 62

Q

Hvad er F-værdi (F)
(F-value)

Answer

A

Den bruges til at afgøre, om der er en signifikant forskel mellem grupper eller om en model passer bedre til dataene end en anden.
F-værdien er forholdet mellem to variansestimater. I ANOVA er F-værdien forholdet mellem den mellemgruppes varians (varians mellem gruppemidlerne) og den indengruppe varians (varians inden for grupperne).
F=(Varians mellem grupper)/(Varians inden for grupper)

Question 63

Q

Hvad er F-test

Answer

A

Den bruges til at sammenligne to varianser for at se, om de er signifikant forskellige fra hinanden. Bruges ofte i ANOVA.
Den beregner F-værdien

Question 64

Q

Frihedsgrader (df)
(Degrees of freedom)

Answer

A

Frihedsgrader, refererer til antallet af uafhængige værdier, der kan variere i en beregning uden at en given begrænsning overtrædes.
df=n-1
Eksempel: Hvis vi har en stikprøve på 10 observationer, er antallet af frihedsgrader df=10-1=9

Answer 64

A

T-værdi er en standardiseret værdi, der angiver, hvor mange standardfejl en stikprøvemiddelværdi er fra populationens middelværdi under nulhypotesen.
Bruges når stikprøvestørrelsen er lille og/eller populationens standardafvigelse er ukendt.

Answer 65

A

Estimerede værdier er en værdi, der er beregnet fra stikprøvedata for at give et bedre gæt eller vurdering af en populationsparameter.

Answer 66

A

Bruges til at se om en given datasæt kommer fra en normalfordeling. Et eksempel på en test kan være Shapiro-Wilk test.

Answer 67

A

Anvendes til at vurdere, om et datasæt kommer fra en normalfordeling
Shapiro-Wilk testen beregner en W-statistik, som måler, hvor godt dataene passer til en normalfordeling.
En høj W-værdi: Indikerer, at dataene er tæt på at være normalfordelt
En lav W-værdi: Indikerer, at dataene sandsynligvis ikke er normalfordelt

Answer 68

A

Et kontur plot er en grafisk repræsentation, der bruges til at vise tredimensionale data på en todimensionel flade ved at forbinde punkter med samme værdi

Answer 69

A

En Multiple Linear Regression (MLR) model er en udvidelse af simpel lineær regression, hvor man modellerer forholdet mellem en afhængig variabel og flere uafhængige variabler. Den anvendes til at forudsige værdien af en afhængig variabel baseret på værdierne af flere uafhængige variabler.
Formel:
Y=β_0+β_1 X_1+β_2 X_2+⋯β_p X_p+ϵ
Y er den afhængige variabel.
β er konstanten
β_1,β_2,…β_p er koefficienterne for de uafhængige variabler X_1,X_2,…X_p
ϵ er fejlleddet

Answer 70

A

Den beskriver, hvordan data fordeler sig symmetrisk omkring en middelværdi (μ) og er karakteriseret ved sin klokkeformede kurve.
Normalfordelingen er symmetrisk omkring middelværdien, hvilket betyder, at halvdelen af dataene ligger til højre for middelværdien, og halvdelen ligger til venstre.
Empirisk Regel (68,3-95,5-99,7)
68,3% af observationerne ligger inden for 1 standardafvigelse (σ) fra middelværdien
95,5% af observationerne ligger inde for 2 standardafvigelser (σ) fra middelværdien
99,7% af observationerne ligger inden for tre standardafvigelser (σ) fra middelværdien.

Answer 71

A

Observede frekvenser (O) refererer til antallet af gange, en bestemt hændelse forekommer i et datasæt.
Eksempel: hvis man ser på hvor mange mænd og kvinder der drikker mørk eller lys øl. De data, vil være observede frekvens.

Answer 72

A

Proportion beskriver en del af et hele, udtrykt som en brøkdel eller procentdel. Proportioner bruges ofte til at beskrive relative frekvenser i kategoriske data og kan være nyttige til at forstå fordelingen af data inden for forskellige kategorier.
Proportion=(Antal observationer i kategorien)/(Total antal observationer)

Answer 73

A

Forventet frekvens, er frekvens af kombinationen af to variabler, hvor vi forventer at der ikke er en sammenhæng. Så det er de værdier, vi forventer at observere i hver kategori af en kontingenstabel, hvis nulhypotesen er sand.
For en enkelt variabel med flere kategorier beregnes de forventede frekvenser som følger:
E_i=n·p_i
E_i er den forventede frekvens for kategori i
n er det totale antal observationer.
p_i er den forventede sandsynlighed for at kategori i
For en kontingenstabel med to kategoriske variabler beregnes de forventede frekvenser for hver celle som:
E_ij=(Row Total_i·Column Total_j)/(Grand Total)
E_ij er den forventede frekvens for cellen i række i og kolonne j
Row Totali er summen af observationer i række i
Column Totalj er summen af observationer I kolonne j
Grand Total er det totale antal observationer I hele tabellen.

Answer 74

A

Skalerede kvadrerede forskelle, er en metode til at sammenligne forskelle mellem observerede værdier (O) og forventede værdier (E) ved at tage højde for variationen i data. Disse forskelle skaleres ved at dividere med de forventede frekvenser for at tage højde for størrelsen af de forventede værdier.
Den kan bruges i en chi-square test
χ^2=(O_i-E_i )^2/E_i

Answer 75

A

Standardiserede residualer, hjælper med at identificere outliers og vurdere modellens passendehed.
Standardiserede residualer er residualer, der er blevet skaleret ved deres forventede standardafvigelse. Denne standardisering gør det muligt at sammenligne residualer på tværs af observationer og identificere observationer, der afviger markant fra modellens forventninger.
Formel:
r_i=e_i/σ_(e_i )
e_i er residualen (dvs. forskellen mellem den observerede værdi og den forudsagte værdi)
σ_(e_i ) er den estimerede standardafvigelse af residualen.

Answer 76

A

Relativ risiko, den bruges til at sammenligne risikoen for en begivenhed mellem to grupper. Den bruges især til at vurdere effekten af en eksponering (f.eks. en risikofaktor eller behandling) på udfaldet af interesse (f.eks. sygdom eller helbredstilstand).
Relativ risiko (RR) er forholdet mellem risikoen for en begivenhed i den eksponerede gruppe og risikoen for den samme begivenhed i den ueksponerede gruppe.
Formel:
RR=R_E/R_U
R_E er risikoen for begivenheden i den eksponerede gruppe
R_U er risikoen for begivenheden i den ueksponerede gruppe.
Risikoen for en begivenhed i en given gruppe beregnes som:
R=(Antal begivenheder i gruppen)/(Totale antal individer i gruppen)

Answer 77

A

Deskriptive statistikker, beskæftiger sig med at opsummere og beskrive hovedtræk ved et datasæt. Dette er i modsætning til inferentiel statistik, som forsøger at drage konklusioner om en population baseret på en stikprøve. Deskriptiv statistik giver grundlæggende værktøjer til at forstå og kommunikere information om data på en klar og meningsfuld måde.
Der er to hovedtyper af deskriptiv statistik: målinger af central tendens og målinger af spredning.
o Målinger af central tendens beskriver det centrale punkt i et datasæt. De mest almindelige målinger inkluderer: Gennemsnit (Mean), Median, Typetal (Mode)
o Målinger af spredning beskriver, hvor meget data varierer eller spreder sig. De vigtigste målinger inkluderer: Varians (variance), Standardafvigelse (Standard Deviation), Range

Answer 78

A

Parametrisk metoder: gør specifikke antagelser om dataenes fordeling, ofte, at de følger en normalfordeling (eller anden kendt foordeling).
Eksempler: t-test, ANOVA, Lineær regression, Pearson’s korrelation
Ikke-Parametrisk metoder: Kræver ikke antagelser om dataenes fordeling. De er mere fleksible og kan anvendes på data, der ikke opfylder forudsætningerne for parametriske metoder, såsom små stikprøver eller ikke-normalfordelt data.
Eksempler: Mann-Whitney U test, Wilcoxon signed-rank test
Valg af metode:
o Hvis dataene er normalfordelt og opfylder de nødvendige forudsætninger, er parametrisk metoder typisk mere kraftfulde.
o Hvis dataene ikke er normalfordelte, har mange outliers, eller er på en ordinær skala, er ikke-parametriske metoder et bedre valg.

Answer 79

A

Bonferroni korrektion er en metode, der anvendes til at justere signifikansniveauer i multiple hypotesetestning. Når man udfører flere tests på samme datasæt, øger man risikoen for at lave type I-fjel (forkastelse af nulhypotesen, når den er sand). Bonferroni-korrektionen reducerer denne risiko ved at justere det individuelle signifikansniveau for hvert test for at kompensere for det samlede antal tests.
Eksempel: Hvis man udfører 5 hypoteseteste med et ønsket signifikansniveau på α=0,05, vil Bonferroni-korrektionen resultere i et justeret signifikansniveau på α_korrektion=0,05/5=0,01

Answer 80

A

ANOVA står for Analysis of Variance (Variansanalyse), den anvendes til at analysere forskelle i middelværdierne mellem tre eller flere grupper. ANOVA sammenligner varianserne mellem grupperne med variansen inden for grupperne for at afgøre, om der er statistisk signifikante forskelle mellem middelværdierne af grupperne.
Der er flere typer af ANOVA, og valget af typer afhænger af antallet og arten af de uafhængige variabler:
o En-vejs ANOVA (one-way): Bruges, når der kun er én uafhængig variabel (faktor)
o To-vejs ANOVA (Two-way): Bruges, når der er to uafhængige variabler (faktorer), og man ønsker at undersøge deres individuelle og samlede effekter.

Answer 81

A

Den bruges til at sammenligne middelværdierne af flere grupper i en ANOVA-analyse.
Formålet med Tukey’s test er at identificere specifikke par af grupper, der adskiller sig signifikant fra hinanden, når der er fundet en samlet signifikant forskel i middelværdierne ved ANOVA
Når en en-vejs ANOVA viser en signifikant forskel mellem mindst to grupper, kan Tukey’s test bruges til at afgøre, hvilke specifikke grupper der adskiller sig fra hinanden. Metoden sammenligner de gennemsnitlige forskelle mellem alle mulige par af grupper og justerer for det samlede antal sammenligninger for at kontrollere for type I-fejl.

Answer 82

A

Kaldes også en Wilcoxon Rank-sum test, er en ikke-parametrisk statistisk test, der bruges til at sammenligne middelværdierne mellem to uafhængige grupper, når dataene ikke opfylder kravene til parametriske test som f.eks. t-testen, såsom normalfordeling og homogen varians. Den er velegnet til at analysere ordinal- eller intervaldata, hvor rangordenen af observationerne er vigtigere end de faktiske målinger.

Answer 83

A

Det refererer til alternativhypotesen som inkluderer muligheden for at det observerede resultat kan afvige i begge retninger fra nulhypotesen.
Two-tailed tests anvendes typisk, når forskerne ikke har en specifik forventning om retningen af forskellen mellem grupperne eller variablerne, og ønsker at teste både for positiv og negativ forskel.
Eksempel: t-test (kan dog også være en one-tailed), Z-test (Kan dog også være en one-tailed), Chi-square test for uafhængighed.

Answer 84

A

Den tager udgangspunkt i en nulhypotese som siger at alle medianer er det samme for et datasæt.
Det er en ikke-parametrisk test, der anvendes til at bestemme, om der er en signifikant forskel i medianerne for tre eller flere uafhængige grupper.
Kurskal-Wallis testen antager ikke normalfordeling af data og derfor velegnet til brug med ikke-normalfordelte data.

Answer 85

A

Bruges til at estimere usikkerheden omkring en statistisk måling eller estimering ved at genbruge de tilgængelige data. Det er især nyttigt, når der ikke er en analytisk løsning til rådighed eller når de klassiske parametriske metoder ikke kan anvendes på grund af manglende overholdelse af forudsætninger som f.eks. normalfordeling af data.

Answer 86

A

Bjælken med den højeste frekvens (altså er højest (der kan være flere i en måling)) kalder vi tilstand (mode)

Answer 87

A

Objekter er det objekt der bliver undersøgt og variabler er det der bliver målt i objektet.

eksempel:
Hvor meget sukker er der i et æbel?

Æbel vil her være objekt, og sukker er variablen.

Bonus: objekter er de forskellige individer i prøven

Answer 88

A

Objekter/individer skal være rækker, og variablerne er i hver deres kolonne

Answer 89

A

In the middle of the sample set, so if we should find the 90% most common values, it would be the values between the 5th percentile and the 95th percentile.

Answer 90

A

Afstandede kvadreret. Altså afstanden ganget med sig selv. Altså sat i anden.

Findes ved at sige (x_i - m)^2

Brainscape's Knowledge GenomeTM

Begreber Flashcards

Brainscape's Knowledge Genome^TM