Begreber Flashcards

1
Q

What is Median

Hvad er median

A

Middle value of a sorted dataset
Middelværdi af et sorteret datasæt

Altså den midterste værdi. Er der et ulige antal er observationer, er det den midterste observation. Er der derimod et lige antal observationer, skal man tage de to midterste værdier og lægge sammen, og derefter dividerer med 2, denne værdi vil så være medianen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

What is quartiles

Hvad er kvartiler

A

Kvartiler/quartiles er de observationer, som når datasættet er sorteret, deler datasættet i 4 lige store mængder (25%).
Q1 er de første 25%
Q2 er de næste 25% (50% af observationerne er mindre end Q2)
Q3 er de næste 25% (75% af observationerne er mindre end Q3)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Mean vs median

Gennemsnit vs. Median

A

Mean (gennemsnit) er fundet ved at lægge alle observationer sammen og dividerer med antallet af værdier (ofte kaldet “n”)

Median er den midterste værdi af et sorteret datasæt. (Er der et lige antal værdier, skal de to midterste værdier lægges sammen og divideres med 2, så har man medianen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

What is Q1, Q2 and Q3

Hvad er Q1, Q2 og Q3

A

Første kvartil, andet kvartil og tredje kvartil.

Andet kvartil er = median

25% af observationerne er mindre end første kvartil.

50% af observationerne er mindre end andet kvartil. (medianen)

75% af observationerne er mindre end tredje kvartil.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad er prøvekvantiler

A

procent

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

What is Outlier

A

En outlier er en værdi der ligger langt fra resten af datasættet. Den afviger fra de andre værdier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

What is percentile/Percentil

A
  • Percentil fortæller om hvor mange procent der er under de givende datapunkter.
  • Dermed vil Q1 (første kvartil) være 25 percentil.
  • Eksempel: Et datasæt med 10 værdier:
    8.9, 9.4, 9.6, 9.7, 9.8, 9.9, 10.1, 10.3, 10.4, 10,7
    Her vil 8.9 have en percentil på 5 (0.05), i og med at det er et lille datasæt, men hvis det bliver større vil dette tal også blive mindre.
    Formel:
    p = (k-0.5)/n
    k er hvad plads hver værdi har i rækkefælgen, så 8.9 har 1, og 9.9 er 6
    n er værdierne i alt, dermed 10
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

What is interquartile range (IQR)

Hvad er interkvartilområdet (IQR)

A

Det er et mål for statistisk spredning af den midterste halvdel af ens fordeling, og findes ved at trække Q1 fra Q3.
IQR=Q3-Q1

IQR bruges til at finde outliers. Man ganger IQR med 1,5. Værdien man får, skal trækkes fra Q1 og lægges til Q3, dette giver et interval. Har man værdier der ligger uden for intervallet, er disse outliers.
Outlier1= Q1 - (IQR * 1.5)
Outlier2= (IQR * 1.5) + Q3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Værdier når man snakker om percentiles/percentiler.
dx
dp
dx_(12)
dp_(12)

A

dx = afstanden mellem værdierne for den ønskede percentil og en værdien for en kendt percentil.
dp = Afstand mellem den ønskede percentil og en kendt percentil
dx_(12) = Afstand mellem de udvalgte værdier
dp_(12) = afstand mellem de udvalgte percentiler

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

What is a boxplot and what does it show

Hvad er et boksplot og hvad viser det

A

Det er en grafisk repræsentation, der viser fordelingen af et datasæt ved hjælp af fem nøglemålinger:
- Minimum - der ikke er en outlier
- Første kvartil (Q1)
- Median (anden kvartil, Q2)
- Tredje kvartil (Q3)
- Maksimum - der ikke er en outlier
Den viser også eventuelle outlier (som punkter, hvis de er længere væk end IQR*1,5, fra Q1 eller Q3)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvad er sum

What is sum

A

Summen af værdier, er alle værdierne lagt sammen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvordan udregnes variansen

A

Varians udregnes ved at trække gennemsnittet fra summen af de kvadrerede afstande

For Befolkning:
σ² = (x_1- μ)² +…+ (x_N - μ)²) / N

For en prøve:
s² = ((x_1-m)² +…+ (x_n-m)²) / (n-1)

Variance is calculated by subtracting the mean from the sum of the squared distances

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

What is squared differences

Hvad er kvadrerede afstande

A
  • Skalerede kvadrerede forskelle, er en metode til at sammenligne forskelle mellem observerede værdier (O) og forventede værdier (E) ved at tage højde for variationen i data. Disse forskelle skaleres ved at dividere med de forventede frekvenser for at tage højde for størrelsen af de forventede værdier.
  • Den kan bruges i en chi-square test
    X²=(O_i-E_i )²/E_i
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvordan udregnes varians for et datasæt

A

Varians for et datasæt findes ved at trække gennemsnittet fra de kvadrerede afstande

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvad er s² (σ²)

A

Varians (Variance)
σ² er varians for en befolkning (population)
s² er varians for en prøve (sample)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvad er s (𝜎)

A

standardafvigelsen (standard deviation)
𝜎 er standardafvigelsen for en befolkning (population)
s er standardafvigelsen for en prøve (sample)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hvad fortæller variansen

A

Varians er hvor spredt et sæt datapunkter er fra gennemsnitsværdien.

En lav varians indikerer, at datapunkterne har en tendens til at være tæt på gennemsnittet. En høj varians tyder på, at datapunkterne er mere spredte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hvad fortæller standardafvigelse?

What does the Standard deviation tell?

A

Standardafvigelse kvantificerer mængden af variation eller spredning i et sæt værdier. Det viser hvor spredt værdierne i et datasæt er fra gennemsnitsværdien. En lav standardafvigelse indikerer, at datapunkterne har en tendens til at være tæt på gennemsnitsværdien, mens en høj standardafvigelse antyder, at datapunkterne er spredt ud over et større område af værdier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hvad er z-score

A
  • Standard score
  • En z-score er et mål for, hvor mange standardafvigelser en observation eller datapunkt ligger fra gennemsnittet (middelværdien) af datasættet.
  • Det er et mål for, hvor langt dine værdier går fra mu (gennemsnit)
  • Formel:
    z = (x-μ) / σ
    Så hvis det giver z=-2, det betyder, at det er to standardafvigelser under gennemsnittet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Skewness
Skævhed

A
  • Skævhed er et mål for asymmetrien i en fordeling af data. Det fortæller os, om dataene er symmetrisk fordelt eller har en tendens til at fordele sig mere mod den ene side af middelværdien.
  • Kan give indsigt i, hvorvidt dataene afviger fra normalfordelingen.
  • Skævhed = 0: Dataene er symmetriske.
  • Skævhed > 0: Dataene er positivt skæve (hale mod højre)
  • Skævhed < 0: Dataene er negativ skæve (hale mod venstre
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Standard score

A
  • Er z-score
  • Det er et mål for, hvor mange standardafvigelser en observation eller datapunkt ligger fra gennemsnittet (middelværdien) af datasættet.
  • Det er et mål for, hvor langt dine værdier går fra mu (gennemsnit)
  • Formel:
    z = (x-μ) / σ
    Så hvis det giver z=-2, det betyder, at det er to standardafvigelser under gennemsnittet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Stripchart

A

Et strip plot, er en grafisk repræsentation, der viser individuelle data punkter langs en akse. Det bruges ofte til at vise fordelingen af et lille sæt af kvantitative data (altså flere data’er).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Gennemsnittet (m) er…

A

Gennemsnittet af en stikprøve er summen af alle observationerne divideret med antallet af observationer. Det giver en central værdi for dataene,

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Standardafvigelse ((s),(σ)) er…

A

Et mål for mængden af variation eller spredningen af observationerner i en stikprøve. Det angiver, hvor meget observationerne afviger fra gennemsnittet.
En lav standardafvigelse indikerer, at værdierne har en tendens til at være tæt på middelværdien.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Konfidensintervallet (CI) er…
(Confidence interval)

A

Et interval, der med en bestemt sandsynlighed (f.eks. 95% eller 99%) indeholder den sande populationsparameter, f.eks. gennemsnittet -> En 95 % CI betyder, at vi er 95 % sikre på, at intervallet indeholder det sande gennemsnit.

μ = m ± t · s / √n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

t- fordeling er…
(t-distribution)

A

En type sandsynlighedsfordeling, der er symmetrisk og klokkeformet, men har tungere haler end normalfordelingen
Bruges til at beregne konficensintervallet og teste hypoteser, især når stikprøvestørrelsen er lille og populationsstandardafvigelsen er ukendt.

Afhænger af:
- Hvor stort intervallet er i form af sandsynligheder og %
-Degress of freedom (df) (n-1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Fejlmargin (em) er…
(margin of error)

A
  • Fejlmarginen angiver, hvor meget et stikprøveestimat kan forventes at variere fra den sande populationsparameter.
  • Produktet af SE og t-værdien. Bruges til at beregne CI.

em = t · s / √n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Hypotesetest er…

A

En procedure for at teste en påstand om en populationsparameter. Det involverer en nulhypotese (H0) og en alternativ hypotese (Ha).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

P-værdi er…

A

Sandsynligheden for at opnå et testresultat, der er lige så ekstremt som eller mere ekstremt end det observerede resultat, under antagelsen om, at nulhypotesen er sand.
En lav p-værdi (< 0,05) indikerer, at nulhypotesen kan forkastes.

Bruges til at bestemme resultaternes signifikans ved hypotesetest.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Standardfejl (SE) er…
(Standard error)

A
  • Standardfejlen, SE, giver en indikation af, hvor meget en stikprøvemiddelværdi (eller en anden parameter) kan forventes at variere fra populationens sande parameter.
  • Standardafvigelsen (s) af stikprøvegennemsnitten. Det bruges til at beregne konfidensintervaller og teste hypoteser.

SE = s / √n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Chi-square fordeling (χ²) er…

A

En fordeling, der burges til at beregne konfidensintervaller for varians (σ²) og standardfvigelse (s).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Type I fejl er…

A

Afvisning af en sand nulhypotese. Også kendt som en falsk positiv.

Er vigtigt at overveje, når man fastsætter signifikansniveauet for hypotesetests.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Typpe II fejl er …

A

Accept af en falsk nulhypotese. Også kendt som en falsk negativ.

Overvejes, når man diskuterer testens styrke og sandsynligheden for ikke at opdage en sand effekt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Styrke (power) af en test er …

A

Sandsynligheden for korrekt at afvise en falsk nulhypotese.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

I rapporten 2 - Anvendelse af Konfidensintervallet (CI):

A

Bruges til at estimere den gennemsnitlige sukkerindhold i æbler med 95% konfidens.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

I rapporten 2 - Anvendelse af Standardafvigelsen (s):

A

Beregnes for at forstå variationen i sukkerindholdet i æbler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

I rapporten 2 - Anvedelse af Standardfejl (SE):

A

Bruges til at beregne CI for det gennemsnitlige sukkerindhold.

38
Q

I rapporten 2 - Anvedelse af t-distribution:

A

Bruges til at tilnærme fordelingen af stikprøvegennemsnittet (s), når populations standardafvigelsen er ukendt.

39
Q

I rapporten 2 - Anvedelse af Nulhypotese (H0)

A

Bruges til at teste, om det gennemsnitlige sukkerindhold er 10% eller mere.

40
Q

Nulhypotese (H0) er …

A

En påstand om, at der ikke er nogen effekt eller forskel, og det er hypotesen, som forskere typisk forsøger at modbevise.

41
Q

Hvad er betydningen af konfidensintervallet (CI), og hvordan fortolker man det i praksis?

A

CI angiver et interval, inden for hvilket den sande populationsparameter sandsynlighvis ligger med en bestemt sandsynlighed (f.eks. 95%). I praksis betyder det, at hvis man gentager eksperimentet mange gange, vil 95% af de beregnede CI indeholde sande parameter.

42
Q

Hvordan beregner man standajfejlen (SE), og hvorfor er den vigtig i statistiske analyser?

A

SE beregnes ved at dividere satandardafvigelsen (s) af stikprøven med kvadratroden af stikprøvestørrelsen (n):
SE = s/√n.
Den er vigtig, fordi den bruges til at stimere, hvor præcist stikprøvegennemsnittet repræsenterer populationsgennemsnittet, og den anvender i beregningen af konfidensintervaller og hypotesetests.

43
Q

Hvad er forskellen mellem en t-test og en z-test, og hvonår bruger man hvilken?

A

En t-test anvendes, når stikprøvestørrelsen (n) er lille (typisk n < 30), og populationsstandardafvigelsen er ukendt.
En z-test bruges, når (n) er stor, eller populationsstandardafvigelsen er kendt.
T-testen bruger t-distribution, mens z-testen bruger normarfordeling.

44
Q

Hvordan finder man t-værdien fra t-distributionstabellen, og hvordan påvirker de vores beregninger?

A

T-værdierne findes ved at slå op i en t-distributionstabel, hvor man bruger frihedsgrader (n-1) og det ønskede signifikansniveau.
T-værdierne bruges til at beregne konfidensintervaller og kritiske værdier for hypotesetest.

45
Q

Hvordan påvirker valg af signifikansniveau (0,05 vs. 0,01) vores testresultater og konklusioner?

A

Et lavere signifikansniveau (f.eks. 0,01) gør testen mere stringent, hvilket betyder, at der er mindre risiko for en type I fejl (forkert afvisning af nulhypotesen), men større risiko for en type II fejl (ikke at afvise en falsk nulhypotese).

Et højere signifikansniveau (f.eks. 0,05) øger risikoen for en type fejl I, men mindsker risikoen for en type II fejl.

46
Q

Hvad er p-værdien, og hvordan bruger man den til at træffe beslutninger i hypotesetestning?

A

P-værdien er sandsynligheden for at observere en teststatistik lige så ekstrem som, eller mere ekstrem end, det observerede resultat, under antagelse af at nulhypotesen er sand.

Hvis p-værdien < end den valgte signifikansniveaue (f.eks. 0,05), afviser vi nulhypotesen.

Hvis p-værdien ≥ signifikansniveauet (f.eks. 0,05), afviser vi ikke nulhypotesen (vi siger, at vi ikke har tilstrækkelig evidens til at afvise den).

Dette betyder, at vi forholder os afventende eller neutral med hensyn til nulhypotesens sandhed, snarere end aktivt at acceptere den.

47
Q

Hvordan beregner man konfidensintervallet (CI) for varians (σ²) og standardafvigelsen (s) vha. chi-square (χ²) -fordelingen?

A

For at beregne (CI) for (σ²) og (s), anvendes X²-fordelingen. Intervallene beregnes ved at bruge kritiske værdier fra X²-fordelingstabellen og observerede variansdata.

Man bruger følgende trin:
i. Identificer stikprøvevariansen (s²) og stikprøvestørrelsen (n).
ii. Vælg konfidensniveauet (f.eks.95%).
iii. Find kritiske værdier fra X²-fordellingstabellen for de tilsvarende frihedsgrader (n-1) og konfidensniveauet.

48
Q

Hvordan finder man de kritiske værdier fra χ²-fordelingstabellen?

A

Vi skal kende antallet af frihedsgrader (degrees of freedom, df) og det valgte signifikansniveau (α).

Trin til at finde de kristiske værdier:
1. Bestem antallet af frihedsgrader (df):
(df) = (n-1), hvor n er stikprøvestørrelsen.

  1. Vælg signifikansniveau (α):
    (α) = (1 - konfidensniveau). F.eks. for et 95% konfidensinterval, er α=0,05.
  2. Find kritiske værdier fra χ²-fordelingstabellen:
    Fordelingen er asymetrisk, så vi skal finde både den nedre og den øvre kritiske værdi for α/2 og 1-α/2

Eksempel:
Lad os antage en stikprøve på 20 observationer (n = 20) og et 95% konfidensinterval:

Antal frihedsgrader (df):
df = n - 1 = 20 - 1 = 19

Signifikansniveau (α):
For et 95% konfidensinterval: α = 0,05
α/2 = 0,025 og 1-α/2 = 0,975

Opslå de kritiske værdier i χ²-fordelingstabellen:
For df = 19:
χ²-værdien for α/2 = 0,025 (den øvre kritiske værdi) er ca. 32.852

χ²-værdien for 1-α/2 = 0,975 (den nedre kritiske værdi) er ca. 8.907

De nøjagtige værdier kan findes i en χ²-fordelingstabel eller ved hjælp af en statistisk software.

49
Q

Hvad er en typpe I og type II fejl, og hvilke konsekvenser har de i praktiske situationer?

A

En type I fejl opstår, når vi forkert afviser en sand nulhypotese (falsk positiv).
En type II fejl sker, når vi undlader at afvise en falsk nulhypotese (falsk negativ).
Konsekvenserne afhænger af konteksten.
F.eks. i medicinsk forskning kan en type I fejl føre til brug af ineffektive behandlinger, mens en type II fejl kan betyde, at den effektiv behandling ikke anvendes.

50
Q

Hvordan udfører man en styrkeanalyse, og hvad kan man gøre for at øge styrken af en test?

A

En styrkeanalyse beregner sandsynligheden for korrekt at afvise en falsk nulhypotese (type I fejl). For at øge styrken kan man øge stiksprøvestørrelsen, vælge en større effekstørrelse, eller øge signifikansniveauet.

51
Q

Hvad er fordelene og ulemperne ved at bruge forskellige konfidensniveauer i vores analyser?

A

Højere konfidensniveauer (f.eks. 99%) giver bedre konfidensintervaller, hvilket betyder større sikkerhed, men mindre præcision.
Lavere konfodensniveauer (f.eks. 90%) giver smallere intervaller og mere præcision, men mindre sikkerhed.

52
Q

Hvad er SS_(xx), SS_(yy) og SS_(xy)

A
  • De er kvadrerede summer, af forskellige værdier
  • SS_(xx) er summen af kvadrerede afvigelser for afstanden af x og dens gennemsnit
  • SS_(xy) er summen af kvadrerede afvigelser mellem x og y
  • Matematisk udtryk: SS_xy=∑_(i=1)^n(x_i-m_x)(y_i-m_y)
53
Q

Hvad er kovarians?

A
  • Den måler den sammenhængende variation mellem to variabler
  • Kovariansen kan være positiv, negativ eller nul, og dette angiver henholdsvis en positiv lineær sammenhæng, en negativ lineær sammenhæng eller manglende lineær sammenhæng mellem variablerne.
  • En positiv kovarians indikerer, at når værdierne af X stiger, stiger værdierne af Y også (og omvendt)
  • En negativ kovarians indikerer, at når værdierne af X stiger, falder værdierne af Y (og omvendt). Hvis kovariansen er tæt på nul, er der ingen linære sammenhæng mellem variablerne.
54
Q

Hvad er korrelations koefficient?

A
  • Den angiver styrken og retningen af den lineære sammenhæng mellem to variabler.
  • Den bruges til at vurdere, hvor god variablerne bevæger sig sammen.
  • En høj korrelations koefficient indikerer en stærk lineær sammenhæng, mens en lav korrelationskoefficient indikerer en svag eller ingen lineær sammenhæng.
  • Den mest almindelige type korrelations koefficient er Pearson’s
55
Q

Hvad er Pearson’s korrelations koefficient

A
  • Den måler den lineære sammenhæng mellem to variabler, normalt betegnet som X og Y.
  • Den er også kendt som betegnelsen r
  • Peatson’s ligger mellem -1 og 1, hvor:
    o r=1: perfekt positiv lineær sammenhæng (når X stiger, stiger Y)
    o r=-1: perfekt negativ lineær sammenhæng (når X stiger, falder Y)
    o r=0: Ingen lineær sammenhæng mellem X og Y
56
Q

Hvad er standard sigma (σ), for henholdsvis 68,3% 95% 95,5% og 99,7% hvor alle værdierne ligger rund om mu (μ) og sigma

A

68,3% = 1 σ
95% = 1,96 σ
95,5% = 2 σ
99,7% = 3 σ

57
Q

Hvor mange procent af værdierne vil ligge inde for mu (μ) og en sigma (σ) på 1 1,96 2 3

A

1σ = 68,3%
1,96 σ = 95%
2 σ = 95,5%
3 σ = 99,7

58
Q

Hvad er Fisher transformation:

A
  • Også kendt som Fisher’s z-transformation
  • Det er en metode anvendt til at normalisere fordelingen af korrelationskoefficienter. Denne transformation konverterer korrelationskoefficienter, som er begrænset til intervallet [-1,1], til en næsten normalfordelt variabel, hvilket gør det lettere at udføre statistiske test og sammenligne korrelationer.
  • Givet ved formlen z=1/2 ln⁡((1+r)/(1-r))
59
Q

Hvad er ”residuals” (residualer)

A
  • Residualer refererer til forskellene mellem de observerede værdier og de værdier, der er forudsagt af en statistisk model.
  • Definition: Residualet e_i for en ovservation i er givet ved formlen:
    e_i=y_i-(y_i ) ̂ (dette er y hat)
    hvor: y_i er den observerede værdi. (y_i ) ̂ er den forudsagte værdi fra modellen
60
Q

Hvad er Kvadreret residualer

A
  • Er e², og beskriver noget om hvor høje residualerne er.
  • Høj sum af kvadreret residualer -> modellen ligger ikke tæt på de reelle målingerne.
  • Lav sum af kvadreret residualer -> modellen ligger tæt på de reelle målinger.
61
Q

Hvad er Koefficienten for determination R²
(Coefficient of determination)

A
  • Koefficienten for determination, eller determinationskoefficienten (kendt i vores som forklaringsgrad). Den bruges til at vurdere, hvor godt en statistisk model passer til dataene, og hvor store en andel af variationen i den afhængige variabel, der kan forklares af de uafhængige variabler i modellen.
  • En R² værdi tæt på 1 indikerer, at modellen er god (passer til dataene) og forklarer variationen
  • En R² værdi tæt på 0 indikerer, at modellen ikke er god (ikke passer til dataene) og forklarer kun en lille del af variationen.
62
Q

Hvad er F-værdi (F)
(F-value)

A
  • Den bruges til at afgøre, om der er en signifikant forskel mellem grupper eller om en model passer bedre til dataene end en anden.
  • F-værdien er forholdet mellem to variansestimater. I ANOVA er F-værdien forholdet mellem den mellemgruppes varians (varians mellem gruppemidlerne) og den indengruppe varians (varians inden for grupperne).
    F=(Varians mellem grupper)/(Varians inden for grupper)
63
Q

Hvad er F-test

A
  • Den bruges til at sammenligne to varianser for at se, om de er signifikant forskellige fra hinanden. Bruges ofte i ANOVA.
  • Den beregner F-værdien
64
Q

Frihedsgrader (df)
(Degrees of freedom)

A
  • Frihedsgrader, refererer til antallet af uafhængige værdier, der kan variere i en beregning uden at en given begrænsning overtrædes.
    df=n-1
    Eksempel: Hvis vi har en stikprøve på 10 observationer, er antallet af frihedsgrader df=10-1=9
65
Q

Hvad er t-værdi

A
  • T-værdi er en standardiseret værdi, der angiver, hvor mange standardfejl en stikprøvemiddelværdi er fra populationens middelværdi under nulhypotesen.
  • Bruges når stikprøvestørrelsen er lille og/eller populationens standardafvigelse er ukendt.
66
Q

Estimerede værdier
(estimated value)

A
  • Estimerede værdier er en værdi, der er beregnet fra stikprøvedata for at give et bedre gæt eller vurdering af en populationsparameter.
67
Q

Hvad er Normality test

A
  • Bruges til at se om en given datasæt kommer fra en normalfordeling. Et eksempel på en test kan være Shapiro-Wilk test.
68
Q

Hvad er Shapiro-Wilk normalitets test

A
  • Anvendes til at vurdere, om et datasæt kommer fra en normalfordeling
  • Shapiro-Wilk testen beregner en W-statistik, som måler, hvor godt dataene passer til en normalfordeling.
  • En høj W-værdi: Indikerer, at dataene er tæt på at være normalfordelt
  • En lav W-værdi: Indikerer, at dataene sandsynligvis ikke er normalfordelt
69
Q

Hvad er Kontur plot

A
  • Et kontur plot er en grafisk repræsentation, der bruges til at vise tredimensionale data på en todimensionel flade ved at forbinde punkter med samme værdi
70
Q

Hvad er MLR model

A
  • En Multiple Linear Regression (MLR) model er en udvidelse af simpel lineær regression, hvor man modellerer forholdet mellem en afhængig variabel og flere uafhængige variabler. Den anvendes til at forudsige værdien af en afhængig variabel baseret på værdierne af flere uafhængige variabler.
  • Formel:
    Y=β_0+β_1 X_1+β_2 X_2+⋯β_p X_p+ϵ
    Y er den afhængige variabel.
    β er konstanten
    β_1,β_2,…β_p er koefficienterne for de uafhængige variabler X_1,X_2,…X_p
    ϵ er fejlleddet
71
Q

Hvad er Normalfordeling (Normal distribution)

A
  • Den beskriver, hvordan data fordeler sig symmetrisk omkring en middelværdi (μ) og er karakteriseret ved sin klokkeformede kurve.
  • Normalfordelingen er symmetrisk omkring middelværdien, hvilket betyder, at halvdelen af dataene ligger til højre for middelværdien, og halvdelen ligger til venstre.
  • Empirisk Regel (68,3-95,5-99,7)
    68,3% af observationerne ligger inden for 1 standardafvigelse (σ) fra middelværdien
    95,5% af observationerne ligger inde for 2 standardafvigelser (σ) fra middelværdien
    99,7% af observationerne ligger inden for tre standardafvigelser (σ) fra middelværdien.
72
Q

Hvad er Observede frekvenser (O)
(Observed frequencies)

A
  • Observede frekvenser (O) refererer til antallet af gange, en bestemt hændelse forekommer i et datasæt.
  • Eksempel: hvis man ser på hvor mange mænd og kvinder der drikker mørk eller lys øl. De data, vil være observede frekvens.
73
Q

Hvad er Proportion
(Proportion)

A
  • Proportion beskriver en del af et hele, udtrykt som en brøkdel eller procentdel. Proportioner bruges ofte til at beskrive relative frekvenser i kategoriske data og kan være nyttige til at forstå fordelingen af data inden for forskellige kategorier.
    Proportion=(Antal observationer i kategorien)/(Total antal observationer)
74
Q

Hvad er Forventet frekvens (E)
(Expected frequencies)

A
  • Forventet frekvens, er frekvens af kombinationen af to variabler, hvor vi forventer at der ikke er en sammenhæng. Så det er de værdier, vi forventer at observere i hver kategori af en kontingenstabel, hvis nulhypotesen er sand.
  • For en enkelt variabel med flere kategorier beregnes de forventede frekvenser som følger:
    E_i=n·p_i
    E_i er den forventede frekvens for kategori i
    n er det totale antal observationer.
    p_i er den forventede sandsynlighed for at kategori i
  • For en kontingenstabel med to kategoriske variabler beregnes de forventede frekvenser for hver celle som:
    E_ij=(Row Total_i·Column Total_j)/(Grand Total)
    E_ij er den forventede frekvens for cellen i række i og kolonne j
    Row Totali er summen af observationer i række i
    Column Totalj er summen af observationer I kolonne j
    Grand Total er det totale antal observationer I hele tabellen.
75
Q

Hvad er Skalerede kvadrerede forskelle (((O-E)^2/E))
(Scaled squared differences)

A
  • Skalerede kvadrerede forskelle, er en metode til at sammenligne forskelle mellem observerede værdier (O) og forventede værdier (E) ved at tage højde for variationen i data. Disse forskelle skaleres ved at dividere med de forventede frekvenser for at tage højde for størrelsen af de forventede værdier.
  • Den kan bruges i en chi-square test
    χ^2=(O_i-E_i )^2/E_i
76
Q

Hvad er Standardiserede residualer
(Standardized residuals)

A
  • Standardiserede residualer, hjælper med at identificere outliers og vurdere modellens passendehed.
  • Standardiserede residualer er residualer, der er blevet skaleret ved deres forventede standardafvigelse. Denne standardisering gør det muligt at sammenligne residualer på tværs af observationer og identificere observationer, der afviger markant fra modellens forventninger.
  • Formel:
    r_i=e_i/σ_(e_i )
    e_i er residualen (dvs. forskellen mellem den observerede værdi og den forudsagte værdi)
    σ_(e_i ) er den estimerede standardafvigelse af residualen.
77
Q

Hvad er Relativ risiko (RR)
Relative risk

A
  • Relativ risiko, den bruges til at sammenligne risikoen for en begivenhed mellem to grupper. Den bruges især til at vurdere effekten af en eksponering (f.eks. en risikofaktor eller behandling) på udfaldet af interesse (f.eks. sygdom eller helbredstilstand).
  • Relativ risiko (RR) er forholdet mellem risikoen for en begivenhed i den eksponerede gruppe og risikoen for den samme begivenhed i den ueksponerede gruppe.
  • Formel:
    RR=R_E/R_U
    R_E er risikoen for begivenheden i den eksponerede gruppe
    R_U er risikoen for begivenheden i den ueksponerede gruppe.
  • Risikoen for en begivenhed i en given gruppe beregnes som:
    R=(Antal begivenheder i gruppen)/(Totale antal individer i gruppen)
78
Q

Hvad er Deskriptive statistikker
(Descriptive statistics)

A
  • Deskriptive statistikker, beskæftiger sig med at opsummere og beskrive hovedtræk ved et datasæt. Dette er i modsætning til inferentiel statistik, som forsøger at drage konklusioner om en population baseret på en stikprøve. Deskriptiv statistik giver grundlæggende værktøjer til at forstå og kommunikere information om data på en klar og meningsfuld måde.
  • Der er to hovedtyper af deskriptiv statistik: målinger af central tendens og målinger af spredning.
    o Målinger af central tendens beskriver det centrale punkt i et datasæt. De mest almindelige målinger inkluderer: Gennemsnit (Mean), Median, Typetal (Mode)
    o Målinger af spredning beskriver, hvor meget data varierer eller spreder sig. De vigtigste målinger inkluderer: Varians (variance), Standardafvigelse (Standard Deviation), Range
79
Q

Hvad er Parametrisk og ikke-Parametrisk metoder

A
  • Parametrisk metoder: gør specifikke antagelser om dataenes fordeling, ofte, at de følger en normalfordeling (eller anden kendt foordeling).
    Eksempler: t-test, ANOVA, Lineær regression, Pearson’s korrelation
  • Ikke-Parametrisk metoder: Kræver ikke antagelser om dataenes fordeling. De er mere fleksible og kan anvendes på data, der ikke opfylder forudsætningerne for parametriske metoder, såsom små stikprøver eller ikke-normalfordelt data.
    Eksempler: Mann-Whitney U test, Wilcoxon signed-rank test
  • Valg af metode:
    o Hvis dataene er normalfordelt og opfylder de nødvendige forudsætninger, er parametrisk metoder typisk mere kraftfulde.
    o Hvis dataene ikke er normalfordelte, har mange outliers, eller er på en ordinær skala, er ikke-parametriske metoder et bedre valg.
80
Q

Hvad er Bonferroni korrektion
(Bonferroni correction)

A
  • Bonferroni korrektion er en metode, der anvendes til at justere signifikansniveauer i multiple hypotesetestning. Når man udfører flere tests på samme datasæt, øger man risikoen for at lave type I-fjel (forkastelse af nulhypotesen, når den er sand). Bonferroni-korrektionen reducerer denne risiko ved at justere det individuelle signifikansniveau for hvert test for at kompensere for det samlede antal tests.
  • Eksempel: Hvis man udfører 5 hypoteseteste med et ønsket signifikansniveau på α=0,05, vil Bonferroni-korrektionen resultere i et justeret signifikansniveau på α_korrektion=0,05/5=0,01
81
Q

ANOVA

A
  • ANOVA står for Analysis of Variance (Variansanalyse), den anvendes til at analysere forskelle i middelværdierne mellem tre eller flere grupper. ANOVA sammenligner varianserne mellem grupperne med variansen inden for grupperne for at afgøre, om der er statistisk signifikante forskelle mellem middelværdierne af grupperne.
  • Der er flere typer af ANOVA, og valget af typer afhænger af antallet og arten af de uafhængige variabler:
    o En-vejs ANOVA (one-way): Bruges, når der kun er én uafhængig variabel (faktor)
    o To-vejs ANOVA (Two-way): Bruges, når der er to uafhængige variabler (faktorer), og man ønsker at undersøge deres individuelle og samlede effekter.
82
Q

Hvad er Tukey’s test

A
  • Den bruges til at sammenligne middelværdierne af flere grupper i en ANOVA-analyse.
  • Formålet med Tukey’s test er at identificere specifikke par af grupper, der adskiller sig signifikant fra hinanden, når der er fundet en samlet signifikant forskel i middelværdierne ved ANOVA
  • Når en en-vejs ANOVA viser en signifikant forskel mellem mindst to grupper, kan Tukey’s test bruges til at afgøre, hvilke specifikke grupper der adskiller sig fra hinanden. Metoden sammenligner de gennemsnitlige forskelle mellem alle mulige par af grupper og justerer for det samlede antal sammenligninger for at kontrollere for type I-fejl.
83
Q

Hvad er Mann-Whitney U-test

A
  • Kaldes også en Wilcoxon Rank-sum test, er en ikke-parametrisk statistisk test, der bruges til at sammenligne middelværdierne mellem to uafhængige grupper, når dataene ikke opfylder kravene til parametriske test som f.eks. t-testen, såsom normalfordeling og homogen varians. Den er velegnet til at analysere ordinal- eller intervaldata, hvor rangordenen af observationerne er vigtigere end de faktiske målinger.
84
Q

Hvad er Two-tailed - test

A
  • Det refererer til alternativhypotesen som inkluderer muligheden for at det observerede resultat kan afvige i begge retninger fra nulhypotesen.
  • Two-tailed tests anvendes typisk, når forskerne ikke har en specifik forventning om retningen af forskellen mellem grupperne eller variablerne, og ønsker at teste både for positiv og negativ forskel.
  • Eksempel: t-test (kan dog også være en one-tailed), Z-test (Kan dog også være en one-tailed), Chi-square test for uafhængighed.
85
Q

Hvad er Kurskal-Wallis test

A
  • Den tager udgangspunkt i en nulhypotese som siger at alle medianer er det samme for et datasæt.
  • Det er en ikke-parametrisk test, der anvendes til at bestemme, om der er en signifikant forskel i medianerne for tre eller flere uafhængige grupper.
  • Kurskal-Wallis testen antager ikke normalfordeling af data og derfor velegnet til brug med ikke-normalfordelte data.
86
Q

Bootstrapping

A
  • Bruges til at estimere usikkerheden omkring en statistisk måling eller estimering ved at genbruge de tilgængelige data. Det er især nyttigt, når der ikke er en analytisk løsning til rådighed eller når de klassiske parametriske metoder ikke kan anvendes på grund af manglende overholdelse af forudsætninger som f.eks. normalfordeling af data.
87
Q

Mode

A

Bjælken med den højeste frekvens (altså er højest (der kan være flere i en måling)) kalder vi tilstand (mode)

88
Q

Objects vs variables

objekt vs variabler

A

Objekter er det objekt der bliver undersøgt og variabler er det der bliver målt i objektet.

eksempel:
Hvor meget sukker er der i et æbel?

Æbel vil her være objekt, og sukker er variablen.

Bonus: objekter er de forskellige individer i prøven

89
Q

Hvad skal være rækker og hvad skal være kolonner når man laver en tabel med sine målinger af forskellige variabler i forskellige individer?

A

Objekter/individer skal være rækker, og variablerne er i hver deres kolonne

90
Q

Most common values, where are they located?

A

In the middle of the sample set, so if we should find the 90% most common values, it would be the values between the 5th percentile and the 95th percentile.

91
Q

What is squared differences

Hvad er kvadrerede afstande

A

Afstandede kvadreret. Altså afstanden ganget med sig selv. Altså sat i anden.

Findes ved at sige (x_i - m)^2

92
Q
A