Viktigste repetisjon! Flashcards

1
Q

Variansen beskriver […]. Hvordan kan vi gjøre varians (S2) om til standardavvik?

A

Variansen beskriver hvor langt verdiene avviker fra sentraltendensen.
Vi kan gjøre varians om til standardavvik ved å ta kvadratroten av variansen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

[…] bruker sannsynlighetsteori for å lage prediksjoner og trekke konklusjoner, mens […] ikke involverer sannsynlighetsteori.

A

Inferensiell statistikk bruker sannsynlighetsteori for å lage prediksjoner og trekke konklusjoner, mens deskriptiv statistikk ikke involverer sannsynlighetsteori.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva er forholdet mellom statistikk og parametere?

A

Vi beregner statistikk fra vårt utvalg for å estimere populasjonens parametere.

Så et parameter er en fast egenskap ved en populasjon, mens en statistikk er en verdi som oppsummerer data fra et utvalg.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Målet med […] er å avgjøre om de observerte dataene gir tilstrekkelig bevis for å forkaste nullhypotesen.

A

Målet med nullhypotesetesting (NHST) er å avgjøre om de observerte dataene gir tilstrekkelig bevis for å forkaste nullhypotesen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Kurtose er en måling som forteller oss noe om […].

A

Kurtose er en måling som forteller oss noe om hvordan verdiene er fordelt i forhold til gjennomsnittet.

Tommelfingerreglene for hva som er “akseptabelt” varierer.
Tommelfingerregel (fra Gabors pp) sier at kurtose over eller under -2 indikerer et problem.

En mer presis estimering: del kurtoseskåren med dens standradfeil (SE) (det gir oss en z-skår). I dette tilfellet er kurtose problematisk hvis z-skåren er enten over 1.96 eller under -1.96.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva er uavhengig variabel?

A

Den variablen du manipulerer/endrer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hva er avhengig variabel?

A

Det som måles i et eksperiment. Variabelen som påvirkes av uavhengig variabel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva er statistikks hovedelementer?

A

Hovedelementene i statistikk er å beskrive, ta avgjørelser, predikere og rapportere.
* Beskrive verden på en forenklet måte (uten å miste relevant informasjon)
* Beslutte ting basert på data i møte med usikkerhet
* Forutsi fremtidige hendelser ved å bruke kunnskap fra tidligere situasjoner
* Rapportere resultater

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hva er hovedmålet til statistikk generelt?

A

Hovedmålet til statistikk er å forstå den komplekse virkeligheten gjennom enkle begreper som fanger de essensielle aspektene.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hva er deskriptiv statistikk?

A
  • Deskriptiv statistikk har som mål å beskrive mønster i data, som betyr at den oppsummerer og beskriver de viktigste egenskapene til et datasett.
  • Bruker variabler.
  • Oppsummerer data med spesielle mål, for eksempel gjennomsnitt.
  • Lager grafer for å visualisere data.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hva er slutningsstatistikk?

A

Inferensiell statistikk/slutingsstatistikk har som mål å forklare og predikere fenomener.
* Tester hypoteser med statistiske modeller.
* Trekker konklusjonerom “generelle prinsipper” i populasjonen, basert på utvalg.
* Lager prediksjoner for fremtidige hendelser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva er nominal-skala?

A

Nominal-skala er det mest grunnleggende målenivået. Variabelen kan klassifiseres i gjensidige utelukkende kategorier. Her differensierer vi. Eksempel kan være bosted, blodtype, politisk parti og fylke

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hva er ordinal-skala?

A

Ordinal-skala har egenskapen med at variabler kan organiseres ut ifra kategorier, og kategoriene kan rangeres, men det er ikke lik avstand mellom kategoriene. Eksempel kan være likert-skala, “uenig- litt uenig-nøytral- litt enig-enig” eller stadier av kreft.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hva er intervall-skala?

A

Intervall-skala har egenskapen ved at det er like intervaller mellom verdiene, i tillegg til at de kan kategoriseres og rangeres.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hva er ratio-skala?

A

Ratio-skala er det samme som intervall-skala, men de har også et absolutt nullpunkt. Eksempel kan være høydemål eller inntekt målt i kroner.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hva er kvartiler og kvantiler? Hvorfor er de viktige?

A

Kvartiler og kvantiler er spredningsmål, og er viktige fordi det sier noe om variasjonen i et datasett.

Kvartiler er verdier vi oppnår ved å dele fordelingen i fire deler som inneholder like mange tilfeller. Fordi vi deler datasettet i 4 deler, vil vi få 3 kvartilverdier (1., 2. og 3. kvartil) som definerer grensene mellom disse delene.

Den første kvatilen representerer skillet mellom de første 25% og de resterende 75%. Andre kvartil tilsvarer medianen og deler datasettet i to med 50% av datasettet på hver side av medianen. Den tredje kvartilen skiller de første 75% av dataene og de siste 25% av datene

Kvantiler tilsvarer kvartiler bare at her velger man et vilkårlig antall kvantiler som deler distribusjonen inn i like store deler. Der hver del inneholder like mange tilfeller. Dette velges ut ifra hva som er hensiktsmessig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hva er varians og standardavvik? Hva representerer de?

A

Variansen og standardavvik sier noe om gjennomsnittlig avvik fra gjennomsnittet, men de gjør dette i ulike enheter.
Variansen er gjennomsnittlig avvik fra gjennomsnittet, men svaret er kvadrert. Problemet med varians er at det representerer kvadratiske enheter (eksempel: kopp * kopp), og derfor er det nyttig å konvertere det til enheten for det opprinnelige målet, som vi gjør ved å regne ut standardavviket.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hva er Z-transformasjon? Hva kan det bli brukt til?

A

Z-transformasjon gir standardiserte variabler (z-skår) som reflekterer hvor langt hver verdi i utvalget er fra utvalgets gjennomsnitt, i enheter for standardavvik. Z-transformasjon gir z-skårer.

(“Med hvor mange standardavvik er en poengsum under eller over gjennomsnittet?”)
Z-transformasjon gjør det mulig å sammenligne to eller flere skårer målt i ulike måleskalaer. For eksempel så kan du sammenligne en skår på humør fra 0-20, og en skår på søvn fra 0-50, for å si hvem av de som er mest avvikende fra andre pasienter med depresjon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hva er sannsynlighet? Hva er viktige egenskaper?

A

Sannsynlighet er en del av matematikken som omhandler hendelser eller utfall som involverer et element av usikkerhet.
Sannsynlighet kan uttrykkes som et tall som beskriver sjansen for forekomsten av en bestemt hendelse ut av alle hendelser i utfallsrom (“sample space”). Utfallsrommet er en samling av alle mulige utfall.

Sannsynligheten for et utfall skal alltid være mellom (og inkludert) 0 og 1.
Sannsynligheten for alle utfall innenfor utfallsrommet skal totalt bli 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hva er forskjellen mellom en frekvensfordeling og sannsynlighetsfordeling?

A

En frekvensfordeling viser hvor hyppig hver av verdiene våre er i vårt utvalg. Mens en sannsynlighetsfordeling viser sannsynligheten for at hvert utfall vil inntreffe. Men en frekvensfordeling og en sannsynlighetsfordeling fra samme datasett vil være proporsjonal og se lik ut, men verdiene på y-aksen endrer fra frekvens til sannsynlighet, mens x-aksen forblir lik.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Hva er en gausskurve/normalfordeling?

A

Hos mennesker vil man ofte få en normalfordeling av data når man har et stort nok utvalg.

En normalfordelingskurve kjennetegnes ved at den er unimodal (en topp), symmetrisk, asymptotisk (det vil si at halene på normalfordelingskurven aldri kommer helt ned 0 på y-aksen, halene vil i fortsette å nærme seg 0 i det uendelige, men aldri nå det) og fordelingen er klokkeformet (“bell curve”).

Normalfordelingskurven er definert av to parametere: gjennomsnitt (μ) og standardavvik (σ). Gjennomsnittet vil være verdien som tilsvarer toppen av kurven, og standardavviket påvirker bredden på kurven.
I en normalfordeling vil verdiene fordele seg slik: (68-95-99.7-regelen)
* 68,3 % av verdiene vil være innenfor +/- 1 standardavvik fra gjennomsnittet
* 95,4 % av verdiene vil være innenfor +/- 2 standardavvik fra gjennomsnittet
* 99,7 % av verdiene vil være innenfor +/- 3 standardavvik fra gjennomsnittet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Regelen for fordeling av verdier i en normalfordeling

A

I en normalfordeling vil verdiene fordele seg slik: (68-95-99.7-regelen)
* 68,3 % av verdiene vil være innenfor +/- 1 standardavvik fra gjennomsnittet
* 95,4 % av verdiene vil være innenfor +/- 2 standardavvik fra gjennomsnittet
* 99,7 % av verdiene vil være innenfor +/- 3 standardavvik fra gjennomsnittet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Hvorfor er normalfordeling viktig?

A

Fordi dersom utvalget er normalfordelt er det mer sannsynlig at det kommer fra en normalfordelt populasjon.
Det betyr at våre statistiske estimater og konklusjoner trolig er mer presise, som vil si at man kan trekke en konklusjon om populasjonen basert på utvalget.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Hva kan man bruke en standardisert normalfordeling til?

A

Siden vi ofte jobber med et signifikansnivå på 5 % og et utvalg som er normalfordelt , er det nyttig å kjenne Z-skårene som tilsvarer 5 % av “ekstremdata” (data veldig langt fra gjennomsnittet av 0).

Når vi har tatt en z-transformasjon vil gjennomsnittet være på 0 og standardavviket er på 1.
I en standardisert normalfordeling faller 95 % av dataene mellom -1,96 og 1,96.
Dermed er det 5 % sannsynlighet for at en verdi enten er over 1,96 eller under -1,96 (2,5 % sannsynlighet at enhver tilfeldig valgt verdi er under -1,96, og 2,5 % sannsynlighet for over 1,96)
Med andre ord: for standard normalfordeling er -1,96 og 1,96 de kritiske verdiene for 5 % av “ekstrem” data.
Dette er viktig for signifikanstesting på 5 % signifikansnivå, hvis vi har å gjøre med en standardisert normalfordeling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Hvordan kan vi teste om vår data er normalfordelt? (nevne de ulike)

A

Det er flere måter vi kan teste om våre data er normalfordelt. Vi kan teste om vår data er normalfordelt blant annet ved å se på skjevhet, kurtose, bruke en Shapiro-Wilks test, plotte inn data i et histogram og se på det visuelt eller evaluere q-q-plots.

26
Q

Hvilke kategorier kan kurtose deles inn i?

A

Kurtose kan generelt deles inn i fire hovedkategorier: leptokurtisk, mesokurtisk, platykurtisk og ekstremt platykurtisk.

Leptokurtisk: + kurtose (positiv)
Mesokurtisk: 0 kurtose (ingen)
Platykurtisk - kurtose (negativ)
Extremt platykurtisk: - kurtose (ekstrem negativ)

27
Q

Hvordan kan man bruke en Shapiro Wilks test for å teste om vår data er normalfordelt?

A

Shapiro-Wilk-testen er en statistisk test som brukes til å vurdere om en gitt datasett følger en normalfordeling. Den testen tar nullhypotesen om at dataene er normalfordelt, og alternativhypotesen om at dataene ikke er normalfordelt. Dersom testen ikke er signifikant «P = >.05», beholdes nullhypotesen og en kan gå ut ifra at dataene normalfordelt.

28
Q

Hva er kriteriene for å få et representativt utvalg (sampling)? Hvorfor er det viktig?

A

Kriteriene for å få et representativt utvalg er at det er tilfeldig hvem som blir valgt ut (randomisering), det betyr at alle må ha lik sannsynlighet for å bli valgt ut.

De som blir valgt er uavhengig av hverandre, det betyr at det ikke er relasjoner mellom deltakerne.

Når vi skal velge deltakere til utvalg fra en populasjon så bør vi helst etter hver utvelgelse “legge deltakeren tilbake” før vi velger en annen. Dette er for at sannsynligheten for å bli med i utvalget forblir konstant. Dette skjer imidlertid nesten aldri, fordi man ofte vil unngå at en deltaker blir testet eller målt flere ganger.

Dette er viktig for at statistikkene vi måler i utvalget er mest mulig likt parameterne i populasjonen. Dette er det større sannsynlighet for når utvalget er representativt.

29
Q

Hva er prosessen til NHTS?

A
  • Formulere et forskningsspørsmål
  • Spesifisere nullhypotesen og den alternative hypotesen
  • Samle inn data
  • Kalkulere teststatistikken
  • Forutsatt at H0 er sann, kalkuler p-verdien for test-statistikken
  • Konkluder om du skal beholde eller forkaste H0
30
Q

Hva er en utvalgsfordeling? (sampling distribution)

A

En utvalgsfordeling referer til fordelingen av et statistisk måleparameter (for eksempel gjennomsnitt) beregnet fra flere forskjellige utvalg hentet fra samme populasjon. Utvalgsfordelingen gir derfor informasjon om hvordan verdien av måleparameteren varierer når du trekker flere utvalg fra den samme populasjonen.
Hvis utvalgene er mange og store nok vil man oppnå en fordeling som likner en normalfordeling i henhold til sentralgrenseteoremet. Dette er uavhengig av hvordan frekvens distribusjonen til de ulike utvalgene så ut. Gjennomsnittet til utvalgsfordelingen vil sammenfalle med populasjonens parameter.

31
Q

Hva sier central limit theorem (CLT)? Hvorfor er dette viktig?

A

Teorien sier at dersom utvalgsstørrelsen er stor nok (tommelfingerregel: n = >30) vil distribusjonen av statistikken, f.eks fordeling av gjennomsnittet, nærme seg en normalfordelingskurve. CLT innebærer at enhver statistikk (f.eks. utvalgsgjennomsnitt, t-score, korrelasjonskoeffisient, etc.) beregnet fra et tilstrekkelig stort utvalg ikke vil avvike kraftig fra populasjonsparametren.
Dette gjør det mulig for oss å gjøre slutninger om en populasjon basert på utvalgsstatistikk.

32
Q

Hva er standardfeil? Hvordan kan den beregnes?

A

Standardfeil sier noe om sjansen vår for å presist estimere populasjonsparameteret basert på teststatistikken vår.

Så med andre ord så er det en måling som gir en ide om hvor nøyaktig eller unøyaktig et statistisk estimat er, som for eksempel gjennomsnittet, når det er basert på et utvalg fra en større populasjon.

Jo lavere denne verdien er, jo mer sannsynlig er det at teststatistikken vår er veldig nær den sanne populasjonsparameteren.

Vi kan bare bestemme verdien av SE nøyaktig hvis vi kjenner populasjonen SD (σ) og størrelsen (N). Man deler σ på kvadratroten av populasjonsstørrelsen.
Imidlertid vet vi vanligvis ikke populasjonens SD, så derfor estimerer vi SE, ved å ta utvalgets SD (s) og dele den på utvalgsstørrelsen (n) i stedet.

33
Q

Hvordan kan standardfeilen reduseres?

A

Formelen for standardfeil innebærer at ved økt utvalgsstørrelse, så vil standardfeil reduseres, og vårt estimat av populasjonsparameteret vil være mer presist.

Så med større utvalg er det mindre usikkerhet rundt det å estimere populasjons parameteret via teststatistikken. SE utrykkes ved å dele SD på kvadratroten av utvalgsstørrelsen.

34
Q

Hva er forskjellen mellom standardfeil og standardavvik?

A

Standardavvik forteller oss om spredningen i vårt utvalg, mens standardfeil sier noe om sjansen vår for å presist estimere populasjonsparameteret basert på teststatistikken vår.

35
Q

Hva er 95% konfidensintervall?

A

95% konfidensintervall er intervallet som vil inneholde populasjonens sanne parameter 95% av tiden. Det vil da i lengden være 5% sannsynlighet for at et gitt utvalgs statistikk ikke inneholder populasjonens sanne parameter. Så med andre ord, det representerer et intervallestimat som er inneholder populasjonens sanne parameter i 95% av alle hypotetiske eksperiment. Enkelt forklart tyder et lite konfidensintervall på at estimatene er sikre, mens et stort konfidensintervall tyder på at estimatene er mer usikre.

Det er ikke det samme som om at si at det 95% sjanse for at dette eksperimentet vil inneholde populasjonens parameter, men at dersom vi gjennomførte det samme eksperimentet et uendelig antall ganger ville 95% av alle disse konfidensintervallene favne om populasjonens parameter.

36
Q

Hva er bredden på konfidensintervallet avhengig av?

A

Bredden på konfidensintervallet er avhengig av karakteristikkene til utvalgsfordelingen og konfidensnivået (vanligvis satt til 95%). Forholdet mellom bredden på et konfidensintervall og utvalgsstørrelsen er omvendt proporsjonalt, det vil si at når utvalgsstørrelsen øker, vil bredden på konfidensintervallet vanligvis bli mindre, og når utvalgsstørrelsen reduseres, vil bredden på konfidensintervallet vanligvis øke. Det er fordi standardfeilen (SE) reduseres når utvalgsstørrelsen øker, og standardfeil er en del av formelen vi bruker for å regne ut konfidensintervallet.

37
Q

Hva er forskjellen mellom standardfeil og det 95% konfidensintervallet?

A

Standardfeil og 95% konfidensintervall representerer konseptuelt sett det samme, nemlig hvor nøyaktig vi kan estimere populasjonens parameter (for eksempel gjennomsnitt) ved å beregne teststatistikken.

Dette er fordi SE og 95 % konfidensintervall begge bestemmes av bredden på utvalgsfordelingen, og jo bredere utvalgsfordelingen (sampling distribution) er, jo større sjanse har vi for at statistikken vår faller langt fra det sanne populasjonsparameteret (som er dårlig for oss).

Hovedforskjellen er at ved å plotte standardfeil estimerer du den sanne populasjonsparameteren med mindre sikkerhet, mens du med 95 % konfidensintervall estimerer den sanne populasjonsparameteren med mer sikkerhet.

MEN: mer tillit til å fange populasjonsparameteret kommer til prisen av mer usikkerhet om parameterens verdi (95 % CI er bredere enn 2 x SE).

38
Q

Hva representerer p-verdien? Og når regner man resultatet som statsistisk signifkant?

A

P-verdien representerer sannsynligheten for å oppnå en verdi som er minst like ekstrem som vår teststatistikk, gitt at nullhypotesen er sann.
P-verdien kan variere mellom 0 og 1, og jo lavere p-verdien er, desto mindre sannsynlig er det å at vi vil få de samme resultatene hvis nullhypotesen er sann. Man kan si at P-verdien hjelper oss å se på i hvor stor grad vi kan stole på nullhypotesen og at statistikken vi står ovenfor ikke bare skyldes tilfeldigheter.

Det er vanlig å bruke et alfanivå på 0.05. Får men en på p-verdi mindre enn 0.05, forkaster man nullhypotesen, og den alternative hypotesen aksepteres. Da regner man resultatet som statistisk signifikant.

39
Q

Hva er en t-test?

A

En t-test er en statistisk analyse som hjelper oss å undersøke om det er en statistisk signifikant forskjell mellom gjennomsnittet fra to ulike målinger.

40
Q

Hva er de tre typene t-tester? Hvordan er de forskjellige?

A

De tre typene t-test er independent t-test, paired-samples t-test og one-sample t-test.

I en «independent t-test» så kommer de to målene fra ulike grupper. For eksempel gutter og jenter, eller eksperiment- og kontrollgruppe.

I en «paired samples t-test” så kommer de to målene fra samme gruppe. For eksempel ved fødsel og ved 1-år, eller før og etter behandling hos samme pasient.

I «one-sample t-test” så sammenligner man data fra en gruppe mot en forhåndsdefinert verdi. For eksempel «Er korrelasjonen mellom to variabler forskjellig fra 0?».

41
Q

Hva er Student’s t-distribusjoner? og hvordan er forskjellig?

A

Students t-distribusjon er en utvalgsfordeling av t-tester. Den representerer sannsynligheten for t-verdier fra mange hypotetiske eksperiment der vi vet at det ikke er noe gruppeforskjell, altså at nullhypotesen er sann. Dette vil gjøre at alle t-distribusjoner vil være sentrert rundt null, fordi hvis det ikke er forskjell i gruppegjennomsnittene, vil telleren være lik 0, og dermed vil også t-skåren bli null.

42
Q

Hva representerer en t-skår?

A

T-tester krever beregning av en teststatistikk, som er t-skåren.

T-skåren representerer forskjellen i gjennomsnittet av to målinger (teller), standardisert av den estimerte standardfeilen for denne forskjellen (nevneren).

T-skåren kan betraktes som et “signal-til-støy-forhold”, der “signal” er telleren, og “støy” er nevneren. Støy handler i denne sammenhengen hvor nøyaktig kan vi estimere signalet. Altså sier t-skåren noe om forholdet mellom forskjellen mellom gruppene og variasjon innad i hver gruppe.

43
Q

Hvordan kan 95% konfidensintervall bli brukt til hypotesetesting? 2 måter:

A
  • Se på om konfidensintervallene overlapper med hverandre
  • Se om konfidensintervallet for gjennomsnittlig forskjell inneholder 0.
44
Q

Hvordan kan 95% konfidensintervall bli brukt til hypotesetesting: se på om konfidensintervallet overlapper med 0

A

En annen måte man kan vurdere signifikans ved konfidensintervall mer preisist, er å se på om det 95% konfidensintervall for gjennomsnittlig forskjell mellom målingene (Mdiff) overlapper med 0. Hvis de ikke overlapper med 0, er det 95% sjanse for at den sanne parameteren er utenfor null, noe som betyr at gjennomsnittene faktisk er signifikant forskjellige.
Og derfor, hvis vi gjør denne konklusjonen, altså forkaster H0, er det en 5% sjanse for at vi gjør en feil konklusjon. Og dette er det samme som å si at for vår teststatistikk er p < 0,05.

45
Q

Hva er effektstørrelse? Hvorfor er effektstørrelse viktig i nullhypotesetesting?

A

Effektstørrelse er standardisert mål som hjelper oss å forstå hvor stor den observerte forskjellen er.

Selv om en effekt er statistisk signifikant, kan effekten være ubetydelig i det virkelige liv. Vi trenger ikke bare å vite om den observerte effekten er signifikant, men også om denne effekten er stor nok til at den er av praktisk interesse i det virkelige liv.

Det finnes flere mål for effektstørrelse, blant annet Cohens D og Pearsons R.

46
Q

Hva er Cohen´s D? Hvordan tolkes det?

A

Cohens D er et standardisert mål som uttrykker størrelsen på forskjellen mellom målinger, når det gjelder variasjon i dataene.

Tommelfinger regel for å tolke Cohens d er at verdier:
– En verdi rundt 0.2 indikerer en svak/liten effekt
– En verdi rundt 0.5 indikerer en moderat effekt
– En verdi rundt eller høyere enn 0.8 indikerer stor effekt.

47
Q

Beskriv hovedmålene med korrelasjonsanalyse. Hvordan kan vi kvantifisere en korrelasjon?

A

En korrelasjonsanalyse har som mål å kvantifisere statistiske forholdet mellom to variabler. Statiske forhold beskriver hvordan endring i en variabel er relatert til endring i en annen variabel, og korrelasjonsanalysen hjelper oss å kvantifisere denne samvariasjonen/korrelasjonen. Korrelasjon oppgis gjerne i Persons r som er en kvantifisering av det statiske forholdet. Jo tydeligere forholdet er, jo sterkere er korrelasjonen. Korrelasjon uttrykkes gjerne som et tall mellom -1 og 1.

48
Q

Hva er kovarians? Hvordan er det forskjellig fra varians?

A

Varians forteller oss hvor mye hver verdi avviker fra gjennomsnittet. Men kovarians noe om forholdet mellom avvikene fra sine respektive gjennomsnitt to variabler har.

49
Q

Hva representerer Persons produkt-moment korrelasjonskoeffisient?

A

Fordi verdien til kovarians blir i stor grad påvirket av måleenheten, så har man kommet fram til et standardisert mål for kovarians, og dette målet er Persons korrelasjonskoeffisient r. Pearsons r reflekterer det lineære forholdet mellom to variabler, og det blir ikke påvirket av måleskalaene. Det regnes ut ved å dele kovarians på produktet av standardavvikene for de to variablene.

Pearsons r kan variere fra -1 og 1, der 0 indikerer ingen korrelasjon, og 1 og -1 reflekterer perfekt positiv og negativ korrelasjon. Persons r representerer også effektstørrelse og tommelfingerregelen her er at r rundt 0.1 reflekterer en svak effekt, r på 0.3 reflekterer en moderat effekt og r på 0.5 eller høyere reflekterer en stor effekt.

50
Q

Hvordan kan vi teste signifikansen til en korrelasjon?

A

Vi kan teste signifikansen til en korrelasjon ved å gjøre Pearsons r om til en t-skår ved å bruke en spesiell formel. Da kan vi teste om t-skåren er signifikant forskjellig fra 0, og hvis vi får en p-verdi mindre en .05, så forkaster vi nullhypotesen, og vi konkluderer med at korrelasjonen er signifikant.

51
Q

Hva kan partiell (delvis) korrelasjon bli brukt for?

A

Når man gjennomfører en partiell korrelasjonsanalyse undersøker man korrelasjonen mellom to variabler etter å ha fjernet effekten av en tredje eller flere variabler. Dette gjøres ved å holde den tredje, forstyrrende variabelen konstant. På denne måten kan man kontrollere for om samvariasjonen av de to opprinnelige variablene faktisk kan tilskrives hverandre, eller om de eventuelt må tilskrives en tredje variabel. Et eksempel på dette kan være at noen sier at barn med store stortær have bedre språkferdigheter. Og at en studie fant en sterk korrelasjon mellom språkferdigheter og størrelsen på stortåen i et utvalg av barn. Men dette burde ikke vært en overraskelse hvis du blir fortalt at barna som ble testet varierte i alder fra 12 måneder til 12 år, så alder kan være en forstyrrende variabler her. Ved å utføre en partiell korrelasjon mellom tåstørrelse og språkferdigheter fikk man ikke lenger en korrelasjon mellom variablene.

Så kort fortalt kan partiell korrelasjon mellom to variabler bli brukt for å fjerne den forstyrrende effekten av en tredje eller flere variabler på de andre variablene.

52
Q

Hva handler forskningsetikk om, om hvorfor er det viktig?

A

Forskningsetikk omhandler de moralske spørsmålene og problemstillingene som oppstår underveis, og som resultat av forskningsaktivitet. Forskningen innenfor helsefagene er regulert av Nürnbergkodeksen, som ble nedtegnet etter andreverdenskrig, og Helsinkideklarasjonen som er retningslinjene til World Medical Association. Når man skal forske i Norge må man søke om lov til å gjennomføre forskningsprosjekter av De regionale etiske forskningskomiteene (REK). Disse jobber etter etiske prinsipper i henholdt til Helsinkideklarasjonen. Det er viktig at vi har etiske prinsipper og komiteer, og dette er fordi det er viktig at deltakernes rettigheter og velferd blir ivaretatt, det sikrer integriteten og påliteligheten til forskere og forskningen. Innenfor forskningsetikken har vi flere prinsipper.

53
Q

Hva er hovedtrinnene i den vitenskapelige metoden?

A

Vi kan se på vitenskapelig metode som en evig sirkulær prosess som ser slik ut:
1. Lage og spesifisere en hypotese
2. Designe en studie
3. Gjennomføre studie og samle inn data
4. Analysere data og teste hypotesen
5. Tolke resultatene
6. Publisere og/eller gjennomføre nytt eksperiment

54
Q

Hva er forskjellen mellom Type I- og Type II-feil? Gi et eksempel for begge (annet
enn de fra forelesningen).

A
  • Type 1-feil (Falsk positiv)
    o Å feilaktig tro vi har funnet en effekt, og at vi dermed feilaktig forkaster nullhypotesen
    o Et eksempel på dette kan være at du får en positiv covid-test, men du er egentlig frisk.
    o Annet eksempel: Anta at du utfører en medisinsk studie for å teste effekten av en ny medisin. Nullhypotesen er at medisinen ikke har noen effekt. Hvis du ved en feil konkluderer med at medisinen fungerer (når den faktisk ikke gjør det), har du begått en Type 1-feil.
  • Type 2-feil (Falsk negativ):
    o Å feilaktig tro at vi ikke har funnet en effekt, og dermed feilaktig beholder nullhypotesen
    o Et eksempel på dett er at du får en negativ covid-test, men du har egentlig viruset.
    o Anta at du utfører en medisinsk studie for å teste effekten av en ny medisin. Nullhypotesen er at medisinen ikke har noen effekt. Hvis du ikke oppdager at den nye medisinen faktisk er effektiv (når den faktisk er det), og beholder nullhypotesen har du begått en Type 2-feil.
55
Q

Hva er statistisk styrke?

A

Statistisk styrke (1-beta) refererer til sannsynligheten for at en test vil oppdage en faktisk effekt eller hvis den eksisterer i populasjonen. Så med andre ord så er det sannsynligheten for å IKKE gjøre en type 2 feil.

56
Q

Hvilke andre mål påvirker statistikken styrke?

A

Statistisk styrke avhenger av:
* Utvalgsstørrelse: Jo større utvalg man har, jo større statistisk styrke. Dette henger sammen med at det er lettere å oppdage selv små effekter i større utvalg, samtidig som SE blir mindre når utvalget blir større. Fordi SE bestemmer bredden på utvalgsdistribusjonen, vil utvalgs distribusjonene til H0 og H1 bli smalere dersom utvalgsstørrelsen øker. På denne måten får man mindre overlapp mellom distribusjonene, og sannsynligheten for å gjøre type II-feil reduseres.

  • Effektstørrelse: Større effektstørrelse gir høyere statisk styrke. Dette handler om at større effekter er lettere å oppdage. Effektstørrelsen bestemmer avstanden mellom distribusjonene, og jo mer avstand/effektstørrelse, jo mindre overlapp vil det være. Dermed minker sannsynligheten for type II-feil.
  • Alfanivået – feilrate for type I-feil: Jo mindre alfanivået er, jo mindre styrke vil studien ha. Dette er fordi at når vi minker alfanivået, gjør vi det vanskeligere å forkaste nullhypotesen, øker vi sannsynligheten for type II-feil.
  • Betanivået – feilrate for type II-feil: Betanivået henger tett sammen med statistisk styrke. Jo høyere betanivå, jo lavere statistisk styrke. Dette kan vi forstå ved å se på formelen for statistisk styrke som er 1-Beta.
57
Q

Hvorfor er statistisk styrke viktig?

A

Studier med lav styrke gir ureliable resultater, og de kan ikke reliabelt oppdage en potensiell effekt. Hvis statistisk styrke er lav, betyr det at du har en høy risiko for å gå glipp av viktige effekter eller forskjeller, selv om de eksisterer i populasjonen, og da vil forskningen i bunn og grunn være meningsløs å bruke ressurser og tid på
I tillegg så viser det seg at eventuelle positive funn som kommer fra en studie med lav styrke, er mer sannsynlig å være feilaktige sammenlignet med en studie med høy styrke.

58
Q

Hva skjer hvis statistisk styrke er for lav?

A
  • De er nesten like stor sjanse for å finne en effekt i motsatt retning
  • Det er større sjanser for å finne en null-effekt
  • Effektstørrelsen har større sannsynlighet for å bli overvurdert, altså at den rapporterte effektstørrelsen kan vær mye større en den faktisk er.
59
Q

Hva er plagiat?

A

Plagiat er handlingen der man presenterer andres arbeid som sitt eget. Dette inkluderer blant annet tekster, bilder, data og ideer. Plagiat er uetisk og anses som fusk og tyveri av andres arbeid.

60
Q

Hvor mange desimaler skal tall ha?

A

Tall større enn hundre skal ikke ha desimaler (f.eks. 347)
Tall mellom ti og hundre skal ha en desimal (f.eks. 34.7)
Tall mindre enn 10 skal ha to desimaler (f.eks. 3.47)

61
Q

Hvordan rapporterer man kvantitative variabler?

A

Den vanligste måten å beskrive en kvantitativ variabel på, er å opplyse om gjennomsnitt, standardavvik og skjevhet, dvs. avvik fra normalfordelingen.
Slik som dette:
Variabelen hadde et gjennomsnitt på X (SD = X), og hadde en negativ/positiv skjevhet på X (SE = X).

62
Q

Hvordan rapporterer man slutningsstatistikk, slik som t-tester og korrelasjoner?

A

Statistikk(df) = X, p = X