Statistikk 1 Flashcards

1
Q

Hva er hovedmålene til statistikk generelt, og hva er dens hovedelementer?

A

Hovedmålet til statistikk er å forstå den komplekse virkeligheten gjennom enkle begreper som fanger de essensielle aspektene.

Hovedelementene i statistikk er å beskrive, ta avgjørelser og rapportere:
- Beskrive verden på en forenklet måte, uten å miste relevant informasjon
- Vi må ofte ta beslutninger basert på data, vanligvis i møte med usikkerhet.
- Vi rapporterer resultatene.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva er forskjellen mellom deskriptiv og inferensiell statistikk/slutningsstatistikk?

A

Deskriptiv statistikk har som mål å beskrive mønster i data
- Bruker variabler.
- Oppsummerer data med spesielle mål, for eksempel gjennomsnitt.
- Lager grafer for å visualisere data.

Inferensiell statistikk/slutingsstatistikk har som mål å forklare/predikere fenomener
- Tester hypoteser med statistiske modeller.
- Trekker konklusjoner om “generelle prinsipper” i populasjonen, basert på utvalg.
- Lager prediksjoner for fremtidige hendelser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva er numeriske variabler

A

Numerisk er kvantitative variabler, altså tall, mens kategorisk er kvalitative variabler. Numeriske variabler er verdier som representerer forskjellige størrelser med like intervaller mellom. Vi deler numeriske variabler inn i to typer:
- Kontinuerlige variabler er variabler som kan ha hvilken som helst verdi innenfor et område. De kan ha uendelig med desimaltall. Eksempel er høyde i cm.
- Diskrete variabler er hele verdier, altså de kan ikke ha desimaltall. Eksempel kan være antall søsken i en familie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva er kategoriske variabler

A

Kategoriske variabler representerer ulike kategorier. Kategoriske variabler kan deles inn:

  • Binære eller dikotome variabler har kun gjensidig ekskluderende kategorier. Et eksempel på dette kan være “JA og NEI” eller “sant og usant”.
  • Nominale variabler er variabler som har to eller flere kategorier som ikke er rangert. Eksempler er “norsk, spansk og engelsk”.
  • Ordinale variabler er verdier som kan rangeres basert på styrke. Eksempel på dette kan være “ingen - lite - medium - mye” eller antall stjerner til en film. Det er en rangering, men det er ikke like intervaller mellom verdiene.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvordan kan variabler bli klassifisert basert på deres målenivå (nivå av informasjon)?

A

Vi har fire ulike målenivåer

  • Nominal-skala er det mest grunnleggende målenivået. Enheter i variabelen er klassifisert i gjensidige utelukkende kategorier. Her differensierer vi. Eksempel kan være bosted.
  • Ordinal-skala har egenskapen med at kategoriene kan rangeres. Eksempel kan være likert-skala, “uenig- litt uenig-nøytral- litt enig-enig”
  • Intervall-skala har egenskapen ved at det er like intervaller mellom verdiene.
  • Ratio-skala er det samme som intervall-skala, men de har også et absolutt nullpunkt. Eksempel kan være høydemål.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvordan kan variabler bli klassifisert basert på deres rolle i statistisk analyse? Gi et eksempel.

A

Avhengig variabel
- Vi endrer den aldri, men vi måler den. Den er avhengig av en annen variabel. Endring i den avhengige variabelen er avhengig av endring i den uavhengige variabelen

Uavhengig variabel
- Den variabelen vi manipulerer. Et eksempel på disse er i studier av om en ny pille forårsaker søvnighet. Søvnighet er den avhengige variabelen, mens hvorvidt man får pillen eller ikke er den uavhengige variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hva er hovedmålene på sentraltendensen? Hva er forskjellen mellom dem?

A

Vi har tre mål for sentraltendens:
- Gjennomsnittet svarer på hva den “gjennomsnittlige” verdien i datasettet ville vært.

  • Medianen svarer på hvilken verdi som har like mange verdier under og over seg.
  • Modus svarer på hvilken verdi som ble observert oftest.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva er kvartiler og kvantiler? Hvorfor er de viktige?

A

Kvartiler og kvantiler er spredningsmål, og er viktige fordi det sier noe om variasjonen i et tallmateriale.

Kvartiler er verdier oppnådd ved å dele fordelingen i fire deler som inneholder like mange tilfeller. Fordi vi deler datasettet i 4 deler, vil vi få 3 kvartilverdier (1., 2. og 3. kvartil) som definerer grensene mellom disse delene. Den 2. kvartilen er den samme som medianen.

Kvantiler er verdier oppnådd ved å dele fordelingen i vilkårlig antall deler som inneholder like mange tilfeller

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hva er varians

A

Variansen er gjennomsnittlig avvik rundt gjennomsnittet, men svaret er kvadrert.

Variansen for en populasjon er summen av kvadrerte avvik delt på antall observasjoner - 1.

For å finne variasjonen så tar man først og trekker fra gjennomsnittet på hver enkelte skår. Så kvadrerer man hver avvikskår. Deretter summerer man disse og man får en kvadratsum. Deretter deler man kvadratsummen på antall observasjoner minus 1. Slik finner man variansen (s^2).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hva er standardavvik?

A

Standardavvik er gjennomsnittlig avstand fra gjennomsnittet. Man kommer fram til standardavviket ved å ta kvadratroten av variansen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hva er varians og standardavvik? Hva representerer de og hvordan kan de informere forskere om deres data?

A

Variansen og standardavvik representerer gjennomsnittlig avvik fra gjennomsnittet.

Variansen er gjennomsnittlig avvik rundt gjennomsnittet, men svaret er kvadrert.

Standardavvik er gjennomsnittlig avstand fra gjennomsnittet. Man kommer fram til standardavviket ved å ta kvadratroten av variansen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva er Z-transformasjon? Hva kan det bli brukt til?

A

Z-transformasjon gir standardiserte variabler (z-skår) som reflekterer hvor langt hver verdi i utvalget er fra utvalgets gjennomsnitt, i enheter for standardavvik.

Z-transformasjon gir z-skårer.
(“Med hvor mange standardavvik er en poengsum under eller over gjennomsnittet?”)

Z-transformasjon gjør det mulig å sammenligne to eller flere skårer målt i ulike måleskalaer. For eksempel så kan du sammenligne en skår på humør fra 0-20, og en skår på søvn fra 0-50, for å si hvem av de som er mest avvikende fra andre pasienter med depresjon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hva er box plots? Hvorfor er det en god måte å plotte dataene dine på?

A

En boxplot gir både mye og oversiktlig informasjon om data i sin fremstilling.
- Den gir både informasjon om sentraltendens og spredning.

  • En box plot viser medianen ved streken i boksen.
  • I tillegg viser den spredningen som bredden på boksen, som er basert på et mål som kalles interkvartilområdet. En smal boks betyr at det ikke er særlig stor spredning mellom 1. og 3. kvartil (interquartile range), og en bred boks viser at det er større variasjon mellom 1. og 3. kvartil. En boxplot viser også hva som er 1. og 3.kvartilverdi.
  • Bjelkene viser hva som er minimum- og maksimumsverdi, når disse er innenfor 1,5 IQR under Q1 og 1,5 IQR over Q3. Hvis dette ikke er tilfelle så settes streken ved 1,5 IQR under Q1 og 1,5 IQR over Q3, og verdiene utenfor dette blir da outliers markert med punkter.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hva er sannsynlighet? Hva er viktige egenskaper?

A

Sannsynlighet er en del av matematikken som omhandler hendelser eller utfall som involverer et element av usikkerhet.

Sannsynlighet kan uttrykkes som et tall som beskriver sjansen for forekomsten av en bestemt hendelse ut av alle hendelser i utfallsrom (“sample space”). Utfallsrommet er en samling av alle mulige utfall.
Sannsynligheten for et utfall skal alltid være mellom (og inkludert) 0 og 1.

Sannsynligheten for alle utfall innenfor utfallsrommet skal totalt bli 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hva kjennetegner en gausskurve/normalfordeling?

A

Hos mennesker vil man ofte få en normalfordeling av data når man har et stort nok utvalg.

En normalfordelingskurve kjennetegnes ved at den er:
unimodal (en topp)

symmetrisk

asymptotisk (det vil si at halene på normalfordelingskurven aldri kommer helt ned til x-aksen, den nærmer seg bare asymptotisk)

fordelingen er klokkeformet (“bell curve”).

Når vi har tatt en z-transformasjon vil gjennomsnittet være på 0 og standardavviket er på 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvilke to parametere er en normalfordeling definert av?

A

Normalfordelingskurven er definert av to parametere: gjennomsnitt (μ) og standardavvik (σ).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hvordan vil verdiene i en normalfordeling fordele seg (REGEL) og hvordan kan dette knyttes til signifikans nivå?

A

I en normalfordeling vil verdiene fordele seg slik: (68-95-99.7-regelen)
* 68,3 % av verdiene vil være innenfor +/- 1 standardavvik fra gjennomsnittet
* 95,4 % av verdiene vil være innenfor +/- 2 standardavvik fra gjennomsnittet
* 99,7 % av verdiene vil være innenfor +/- 3 standardavvik fra gjennomsnittet

I en standardisert normalfordeling (z-transformasjon) faller 95 % av dataene mellom -1,96 og 1,96. Dermed er det 5 % sannsynlighet for at en verdi enten er over 1,96 eller under -1,96 Med andre ord: for standard normalfordeling er -1,96 og 1,96 de kritiske verdiene for 5 % av “ekstrem” data.

Siden vi ofte jobber med et signifikansnivå på 5 % og et utvalg som er normalfordelt , er det nyttig å kjenne Z-skårene som tilsvarer 5 % av “ekstremdata” (data veldig langt fra gjennomsnittet av 0).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hvordan kan vi teste om vår data er normalfordelt?

A

Vi kan teste om vår data er normalfordelt blant annet ved å se på skjevhet og kurtose (mellom 2 og -2)

Man kan også bruke Shapiro Wilk´s test og man kan plotte dataene inn i et histogram for å vurdere kurven visuelt eller evaluere q-q-plots.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hva er skjevhet med tanke på normalfordelingen?

A

En perfekt normalfordelingskurve vil ha ingen skjevhet, men en tommelfingerregel er at skjevhet mellom -2 og 2 er innafor.

Vi har både positiv og negativ skjevhet. Negativ skjevhet refererer til at det er mer data i lavere verdier, slik at man får en lengre hale mot venstre. Og positiv skjevhet referer til mer data ved høyere verdier, dermed får vi en lenger hale mot høyre.

For å få en mer nøyaktig vurdering av skjevhet kan man gjennomføre en utregning slik at man får en z-skår for skjevhet. Det gjør man ved å dele skjevhet på standardfeil for skjevhet. Denne skåren skal være innenfor -1.96 og 1.96 standardavvik.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hva er kurtose med tanke på normalfordelingen?

A

Kurtose er en måling som forteller oss noe om hvordan verdiene er fordelt i forhold til gjennomsnittet.

Tommelfingerreglene for hva som er “akseptabelt” varierer. Tommelfingerregel (fra Gabors pp) sier at kurtose over 2 eller under -2 indikerer et problem.
En mer presis estimering: del kurtoseskåren med dens standardfeil (SE), det gir oss en z-skår. I dette tilfellet er kurtose problematisk hvis z-skåren er enten over 1.96 eller under -1.96.

Leptokurtic: + kurtose (positiv)
Mesokurtic: 0 kurtose (ingen)
Platykurtic: - kurtose (negativ)
Extremely platykurtic: ekstrem - kurtose (ekstrem negativ)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Hva er kriteriene for å få et representativt utvalg (sampling)? Hvorfor er det viktig?

A

Kriteriene for å få et representativt utvalg er:

Randomisering: det betyr at alle må ha lik sannsynlighet for å bli valgt ut.

Uavhengig: de som blir valgt er uavhengig av hverandre, det betyr at det ikke er relasjoner mellom deltakerne.

Identisk fordelt: Når vi skal velge deltakere til utvalg fra en populasjon så bør vi helst etter hver utvelgelse “legge deltakeren tilbake” før vi velger en annen. Dette er for at sannsynligheten for å bli med i utvalget forblir konstant. Dette skjer imidlertid nesten aldri, fordi man ofte vil unngå at en deltaker blir testet eller målt flere ganger.

Dette er viktig for at statistikkene vi måler i utvalget er mest mulig likt parameterne i populasjonen. Dette er det større sannsynlighet for når utvalget er representativt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hva er de tre hovedelementene i inferensiell statistikk?

A

De tre hovedelementene i inferensiell statistikk innenfor nullhypotese-rammeverket er:

At vi skal gjøre om en kvantitativ observasjon til en teststatistikk

At vi skal beregne sannsynligheten for denne observasjonen, gitt at det ikke er noen effekt (forutsier at nullhypotesen er sann)

Konkluder om observasjonen støtter en effekt eller ikke, og behold eller forkast nullhypotesen (se p-verdi)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Hva er en utvalgsfordeling (sampling distribution)?

A

En utvalgsfordeling henter statistikk (f.eks gjennomsnitt) fra et uendelig antall utvalg fra samme populasjon og analyserer disse på samme måte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Hva sier central limit theorem (CLT)? Hvorfor er dette viktig?

A

Teorien sier at dersom utvalgsstørrelsen er stor nok (tommelfingerregel: n = >30) vil distribusjonen av statistikken, f.eks fordeling av gjennomsnittet, nærme seg en normalfordelingskurve.

CLT innebærer at enhver statistikk (f.eks. utvalgsgjennomsnitt, t-score, korrelasjonskoeffisient, etc.) beregnet fra et tilstrekkelig stort utvalg ikke vil avvike kraftig fra populasjonsparametren.

Dette gjør det mulig for oss å gjøre slutninger om en populasjon basert på utvalgsstatistikk.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Hva er standardfeil?

A

Standardfeil (SE) sier noe om hvor nøyaktig vi kan estimere populasjonsparameteren fra teststatistikken vår.

Jo lavere denne verdien er, jo mer sannsynlig er det at teststatistikken vår er veldig nær den sanne populasjonsparameteren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Hva er forskjellen mellom standardfeil og standardavvik?

A

Standardavvik forteller oss om vårt utvalg, mens standardfeil forteller oss hvor pålitelig vår statistikk er.

Visuelt vil standardfeil vise kortere streker enn standardavvik.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Hvordan kan vi beregne standardfeil?

A

Vi kan bare bestemme verdien av SE nøyaktig hvis vi kjenner populasjonen SD (σ) og størrelsen (N)

Imidlertid vet vi vanligvis ikke populasjonens SD, så derfor estimerer vi bare SE, ved å ta utvalgets SD(s) og utvalgsstørrelsen (n) i stedet

Formelen for standardfeil viser at ved økt utvalgsstørrelse, så vil standardfeil reduseres, og vårt estimat av populasjonsparameteret vill være mer presist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Hva er 95% konfidensintervall?

A

95% konfidensintervall er intervallet som fanger det sanne populasjonsparametret 95% av gangene (de svarte strekene), mens 5% (røde strekene) vil ikke “treffe”.

Det representerer et intervallestimat som er rundt den sanne populasjonsparametret på 95% av alle hypotetiske eksperimenter.

Ved 95% konfidensintervall fanges det sanne populasjonsparametret i 95% av utvalgene/av gangene (“in the long run”). Det vil da i lengden være 5% sannsynlighet for at et gitt utvalgs statistikk ikke inneholder populasjonens sanne parameter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Hvordan kan vi regne ut et 95% konfidensintervall?

A

Vi regner ut et konfidensintervall slik:
CI = PE +- feilmargin
- PE = punktestimat, altså vår test statistikk (eks; gjennomsnitt, t-verdi, korrelasjons koeffisenten)
- Feilmargin = bredden på CI, denne avhenger av karakteristikken av utvalgs fordelingen og av konfidens nivået som normalt er satt til 95%

For en standard normalfordeling vil det se slik ut:
- 95% CI = PE +- 1.96
Mer generelt:
CI = PE +- (Critical Value * Standardfeil)
CI = PE +- (eks; 1.96 * 1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Hva er forskjellen mellom standardfeil og det 95% konfidensintervallet?

A

Standardfeil og CI representerer konseptuelt den samme tingen - hvor eksakt vi kan estimere parametret ved å kalkulere test statistikken.

Dette er fordi både standardfeil og 95% CI begge bestemmes av bredden på utvalgsfordelingen, og dess bredere den er, dess større sannsynlighet er det for at vår statistikk faller langt fra den sanne populasjons parametret (noe som er dårlig for oss).

Hovedforskjellen er at ved å plotte inn standardfeil, estimerer du den sanne populasjons parametret med mindre sikkerhet, mens du med et 95% CI estimerer det med mer sikkerhet. MEN mer sikkerhet rundt å treffe populasjonsparameteret innebærer at du også har mer usikkerhet rundt parametres verdi ettersom 95% CI “strekene” er bredere enn standardfeil “strekene” (mere verdier i 95% CI enn i standardfeil).

31
Q

Hva er nullhypotesen? retning og ikke-retning

A

En hypotese er en antakelse eller en foreslått forklaring tatt på grunnlag av begrenset med bevis som et start punkt for videre forskning.

Nullhypotesen
- ikke-retningsbestemt: antar at ingenting er på gang “det er ingen gruppe forskjell / korrelasjon”
- Retningsbestemt: tillater at det kan være noe på gang, men ikke i den forventede retningen “målingene for A er ikke mindre enn målingene for B”

32
Q

Hva er prosedyren i NHST?

A

Prosessen i nullhypotese signifikans testing:
1. Formuler et forsknings spørsmål før du samler inn data
2. Spesifiser nullhypotesen (H0) og den alternative hypotesen (H1)
3. Samle inn data
4. Kalkuler din test statistikk
5. Anta at H0 er sann, kalkuler p-verdien for din test statistikk
6. Konkluder om du avviser H0 eller ikke

Gjennom NHST kan H0 enten avvises eller ikke avvises. H0 og H1 er gjensidig utelukkende - dersom vi avviser H0, vil det automatisk bety at vi aksepterer H1.

33
Q

Hva er den alternative hypotesen? retning-ikke retning

A

Alternative hypotesen: alltid motsatt av H0
- Ikke-retningsbestemt: det er en gruppe forskjell
- Retningsbestemt: målingene for A er mindre enn målingene for B.

34
Q

Hva representerer p-verdien?

A

Gitt vår teststatistikk, og en utvalgsfordeling som representerer H0 (en hypotese om ingen effekt) representerer p -verdien sannsynligheten for å få en test statistikk minst like ekstrem som vår statistikk, forutsatt at H0 er sann.

35
Q

Hva er de tre typene t-tester? Hvordan er de forskjellige?

A

T-test er sammenligning av gjennomsnittene oppnådd fra to målinger

Independent t-test: de to målingene kommer fra forskjellige grupper. Eksempel: unge vs. eldre barn, behandlede vs. ubehandlede pasienter

Paired-samples t-test: de to målingene kommer fra samme gruppe. Eksempel: ved fødsel vs. ved 1-årsdagen til samme barn, før vs. etter behandling av samme pasient

One-sample t-test: sammenligne data fra én gruppe med en forhåndsdefinert verdi. Eksempel: “Er korrelasjonen mellom to variabler forskjellig fra 0?”“Er symptomreduksjon etter behandling > 10 skårer på skalaen?”

36
Q

Hva er Student’s t-distribusjoner? Hva er de brukt til, og hvordan er forskjellig?

A

Student´s t-distribusjoner er utvalgsfordelingen for t-test, og som representerer sannsynlighetene for t-score fra flere hypotetiske eksperimenter der vi vet at det ikke er noen gruppeforskjell (H0 er sann).

Dette er hvorfor hver t-distribusjon er sentrert rundt 0 fordi dersom det ikke var noen forskjell mellom gjennomsnittene, ville telleren bli null og da også t-skåren. (telleren i utregningen av t-skår er gruppegjennomsnitt 1 - gruppegjennomsnitt 2).

Student´s t-distribusjoners utforming er forskjellige avhengig av antall frihetsgrader (df).

  • Med veldig store utvalg (og da stort antall frihetsgrader) er fordelingen identisk til en standard normalfordeling
  • mens for mindre utvalg (og da lavere antall frihetsgrader) har den tykkere haler. Dette er fordi med små utvalg er det mer sannsynlig at test statistikken har en ekstrem verdi (vil falle langt fra gjennomsnittet til utvalgsfordelingen) selv når H0 er sann.
37
Q

Hva representerer en t-skår? Hvordan kan en t-skår bli brukt til nullhypotesetesting?

A

T-test krever kalkulering av en test statistikk, som er t-skåren.

T-skåren representerer forskjellen i to gjennomsnitt målingen (teller) standardisert av den estimerte standardfeilen for denne forskjellen (nevner). Denne formelen gjelder for independent t-test.

T-skåren kan betraktes som et “signal-til-støy-forhold”, der “signal” er telleren, og “støy” er nevneren (støy = hvor nøyaktig kan vi estimere signalet?)

38
Q

Hva er forskjellen mellom en en-halet og to-halet t-test?

A

En to-halet test brukes for en ikke-retningsbestemt nullhypotese.

En en-halet test brukes for en retningsbestemt nullhypotese. Dersom du bruker en en-halet test vil din p-verdi være halve av p-verdien som du får fra en to-halet test for akkurat den samme t-skåren.

Enhalede og tohalede tester tester forskjellige hypoteser (de svarer på forskjellige forskningsspørsmål). Derfor kan den samme statistikken være signifikant i en ensidet test, men ikke signifikant i en tosidet test. Selv om signifikante resultater lettere kan oppnås med ensidige tester, bør disse generelt unngås, og kun brukes hvis bruken er godt begrunnet i forskningsspørsmålet. Dette er fordi ensidige tester også har større sjanser for å gi “falske positive” resultater.

39
Q

Hvordan kan 95% konfidens intervall bli brukt for signifikans testing?

A

Det er ikke bare p-verdi som kan si noe om signifikans.

Dersom du setter opp 2 konfidens intervall visuelt kan du avgjøre om forskjellen mellom de to gruppe statistikkene er signifikante ved å se på om de overlapper hverandre.

Dersom det ikke er noe overlapp mellom de, så p < 0.05 (signifkant)

Dersom det er moderate overlapp mellom de, så er det usikker om p < 0.05

Dersom gjennomsnittene overlapper med hverandre, så p > 0.05 (ikke-signifikant)

40
Q

Hva er effekt størrelse, og hva avhenger den av? Hvorfor er effekt størrelse viktig i nullhypotese testing?

A

Effektstørrelse er en standardisert måling som hjelper oss å forstå hvor stor den observerte effekten er (dvs. en standardisert størrelse på forskjellen)

Effekt størrelsen avhenger av standardavviket til de to populasjonene.

  • Mindre standard avvik vil gi større effekt størrelse
  • større standard avvik vil gi mindre effektstørrelse selv med det samme gruppe gjennomsnittet. Fordi det er mer overlapping mellom de to populasjonene når deres SD-er er store, vil effektstørrelsen være mindre.

Effekt størrelse er viktig i nullhypotesen testing fordi der sier noe om størrelsen på forskjellen. Dersom den er stor vil vi forkaste nullhypotesen som sier at det ikke er noen forskjell.

41
Q

Hva er Cohens´d? Hva representerer det, og hvordan kan det tolkes?

A

Cohens´d er et standardisert mål som uttrykker størrelsen på forskjellen mellom målinger, når det gjelder variasjon i dataene.

D = forskjellen i gruppegjennomsnitt mellom gruppe 1 og 2 delt på den såkalte “pooled” standard avviket fra begge gruppene.

Tommelfinger regelen er:
- d (0.2) = liten effekt
- d (0.5) = medium effekt
- d (0.8) = stor effekt

42
Q

Beskriv hovedmålene til korrelasjonsanalyse! Hvordan kan vi kvantifisere en korrelasjon?

A

Ofte vil vi analysere forholdet mellom variabler. En statistisk relasjon beskriver og kvantifiserer hvordan endringen i en variabel er relatert til endringene i en annen variabel.

  • En positiv relasjon tilsier at begge variablene endrer seg i den samme retningen
  • en negativ relasjon tilsier at de endrer seg i motsatt retning av hverandre.

Korrelasjoner kvantifiserer graden av statistiske sammenhenger. Dess tydeligere forholdet er, desto sterkere er korrelasjonen. Korrelasjoner uttrykkes ofte med et tall mellom -1 og 1. Null står for fullstendig fravær av en korrelasjon. Positive verdier beskriver positive korrelasjoner mens negative verdier beskrive negative korrelasjoner.

43
Q

Hva er kovarians?

A

Kovarians er et mål som reflekterer forholdet mellom avvikene til to variabler fra deres tilsvarende gjennomsnitt.

Tegnet på kovarians forteller oss om relasjonen er negativ eller positiv. Verdien kan være enhver verdi og er ikke grenset til mellom -1 og 1.

Verdien er sensitiv til skalen på målingen (eks; cm vs meter). Dette betyr at det er vanskelig å sammenlikne kovarians mellom ulike datasett, for eksempel dersom ett datasett har høyere kovarians enn den andre betyr det ikke nødvendigvis at relasjonen er sterkere mellom de to variablene i det datasettet.

44
Q

Hvordan skiller kovarians seg fra varians?

A

Kovarians er et mål som reflekterer forholdet mellom avvikene til to variabler fra deres tilsvarende gjennomsnitt. Varians er derimot et mål som reflekterer hvor langt hver observasjon er fra dens gjennomsnitt.

Kovarians regnes ut ved å ta summen av multipliserte avstandsskårer for variablene x og y delt på antall frihetsgrader, mens varians regnes ut ved å ta summen av kvadrater delt på antall frihetsgrader.

45
Q

Hva representerer Pearsons korrelasjonskoeffisient (r)?

A

Problemet med kovarians er at dens verdi er påvirket av skalaen på målingen. Pearsons r er en standardisert måling av kovarians, og reflekterer den lineære relasjonen mellom to variabler (lik som z-skårer er den ikke påvirket av skalaen på målingene).

Pearsons r er kalkulert ved å dele kovariansen på standardavviket for x multiplisert med standardavviket for y.

Pearsons r er et tall mellom -1 og 1, der 0 er ingen korrelasjon og 1 eller -1 er perfekte positive eller negative korrelasjoner.

Pearson r reflekterer også effektstørrelse;

  • 0.1 er en liten effekt
  • 0.3 er en middels
  • 0.5 er en stor effekt.
46
Q

Hvordan kan vi teste signifikansen til en korrelasjon og hva kan vi konkludere med fra signifikansen til en korrelasjon?

A

Pearsons r kan konverteres til en t-skår; r - t-skår - p-verdi - trekke konklusjon

Testing av signifikansen til en korrelasjon er viktig for å avgjøre om den observerte korrelasjonen mellom to variabler er statistisk signifikant eller om den kan tilskrives tilfeldigheter.

Når du oppgir en korrelasjonskoeffisent må du ha med signifikansen til en korrelasjon slik: r(48) = .42, p = .002. I dette tilfellet er den signifikant. Fordi den er signifikant betyr det at verdien vår er pålitelig og at den reflekterer virkeligheten av hvordan relasjonen er. Motsatt vil en ikke-signifikant verdi være upålitelig.

Du kan da avvise H0 dersom du får en lav p-verdi (signifikant) eller beholde den dersom du får en høy p-verdi (ikke signifikant).

47
Q

Hva er forskjellen mellom korrelasjon og kausalitet?

A

Korrelasjon betyr ikke kausalitet. Selv om to faktorer er høyt korrelert sier det ikke noe om retningsforholdet eller hvorvidt det er en tredje variabel som er involvert og forstyrrer korrelasjonen.

48
Q

Hva kan partiell korrelasjon bli brukt til?

A

Partiell korrelasjon mellom to variabler kan utføres ved å fjerne den forstyrrende effekten til en tredje variabel for å se om det også er en korrelasjon etter at en korrigerer for dette.

Du ser altså kun ser på korrelasjonen mellom de to hoved variablene som ikke deles av en tredje variabel.

Dersom vi ser på korrelasjonen mellom språk ferdigheter og stortå størrelsen og får en sterk korrelasjon, tenker man naturligvis at en tredjevariabel (alder) spiller inn her. Dersom vi tar bort effekten av denne variabelen viser det seg at det ikke var noen korrelasjon mellom de to.

49
Q

Hvorfor er etisk gjennomføring av forskning viktig? Hva er hovedprinsippene for forskningsetikk?

A

Forskningsetikk er opptatt av moralske spørsmål som oppstår under, eller som et resultat av, forskningsaktiviteter. Etisk gjennomføring av forskning er viktig for å sikre at deltakernes helse og sikkerhet ivaretas under undersøkelsene, noe som det er sett tidligere at det ikke har blitt gjort, slik som i inhumane eksperimenter under andre verdenskrig gjort av nazistene på fanger i fangeleiren.

Hoved prinsippene av forskningsetikk i følge Helsinki deklarasjonen:
- Informert frivillig samtykke
- Forsiktig planlegging - bruk tidligere forskning
- Risiko-nytte analyse
- Sikkert forsknings miljø og instrumenter
- Deltakernes rett til å avslutte på et hvert tidspunkt og kreve at data slettes
- Konfidensialitet og anonymitet i data innhenting (dersom mulig)
Sikker data lagring

50
Q

Hva er hovedtrinnene i den vitenskapelige metoden?

A
  1. Generere og spesifisere hypoteser - fallgruve: HARKing
    1. Design studiet - fallgruve: lav statistisk styrke
    2. Gjennomfør studiet og samle inn data
    3. Analyser data og test hypotesene - fallgruve: p-hacking
    4. Tolk resultatene: HARKing
    5. Publiser og/eller gjennomfør et nytt eksperiment - fallgruve: plagiat
51
Q

Hva er Type I feil?

A

Type 1 feil er at vi forkaster H0 når den faktisk var sann - altså vi tror det er en effekt men det er ikke effekt. Vi forkaster da en sann null hypotese.
Eks; noen roper ulv ulv, og du tror på dem, men det er ikke noen ulv der.

Eksempel: Du utfører en studie for å undersøke sammenhengen mellom skade i occipitallappen og depresjon. Du tror du finner en effekt og forkaster H0. Men det var egentlig ingen effekt, altså var H0 sann.

52
Q

Hva er type 2 feil?

A

Type 2 feil er at vi beholder H0 (ingen effekt) når den egentlig er falsk - altså at vi tror det ikke er noen effekt når det egentlig er en effekt. Vi aksepterer da en falsk null hypotese. Eks; Noen roper ulv ulv og du tror ikke på dem, men det er egentlig en ulv der.

Eksempel: Du utfører en studie for å se på sammenhengen mellom skade i frontallappen og beslutningstaking. Du oppdager ingen effekt og beholder H0 når den egentlig er falsk. Men det var en sammenheng (effekt) og du oppdaget den ikke.

53
Q

Hva skjer når effekt størrelsen øker med tanke på type 1 og 2 feil?

A

Når effekt størrelse øker, vil overlappet mellom de to fordelingene reduseres. På denne måten vil sannsynligheten av type 1 og 2 feil også reduseres.

54
Q

Hva er statistisk styrke? Hvorfor er det viktig?

A

Statistisk styrke (1 – β) er sannsynligheten for å finne effekten, forutsatt at den eksisterer (gir bare mening når H0 er virkelig falsk, og H1 er virkelig sant). Med andre ord: Det er sannsynligheten for ikke å gjøre en type II feil - altså det å ikke oppdage en effekt

Dersom styrken er for lav er det en økt sjanse for at vi ikke finner en effekt, selv om det er en der. Det er da også større sjanse for å finne en effekt i motsatt retning. Dersom vi oppdager en effekt i riktig retning likevel kan effekt størrelsen være overestimert.

Generelt vil lavt-styrkede studier gi upålitelige resultater, som senker ned prosessen til forskningen og som vil kunne gi mislykkede replikasjoner.

Løsningen er styrke analyse. Før datainnsamlingen starter, hjelper den deg med å bestemme minimum prøvestørrelse som er nødvendig for å finne effekten hvis den eksisterer (gitt en forhåndsdefinert ES, α og β)

55
Q

Hvilke mål avhenger statistisk styrke av?

A

Statistisk styrke avhenger av:
- Utvalgs størrelse (n): store utvalgs størrelser gir større styrke
- Effekt størrelse (ES): store effektstørrelser har økt styrke (store effekter kan oppdages lettere, noe som reduserer muligheten for en type 2 feil)
- Type 1 feil rate (a): dess mindre a-nivået er, dess svakere styrke (med mindre a, er det vanskeligere å oppdage en signifikant effekt)
- Type 2 feil rate (B): større B betyr lavere styrke (fordi styrke = 1 - B).

56
Q

Hva er p-hacking og HARKing? Hvorfor bør forskere unngå dem?

A

p-hacking er prosessen med å prøve ut forskjellige analysealternativer for å oppnå betydelige resultater, og deretter selektiv rapportering av den “endelige” metoden i manuskriptet (som om det var førstevalget for analyse)

HARKING er justering av hypotesene etter at resultatene er kjent

Et datasett kan analyseres på mange forskjellige måter, og gir ulike resultater. Analysen kan være forutinntatt av forskernes forventninger og ønsker, og derfor gi upålitelige resultater. Disse fleksible dataanalysene er sensitive til å finne falske sammenhenger, og derfor bør de unngås.

57
Q

Hva er plagiat? Hvordan og hvorfor bør dette unngås?

A

Plagiat innebærer å presentere andres arbeid (tekst, bilder, data, teorier osv.) som sitt eget. Det kan betraktes som å stjele andres åndsverk. Plagiat er et alvorlig problem og du må derfor være nøye på å unngå dette.

Derfor må du tydelig vise til hvor og hvordan du har hentet informasjon fra i din tekst. Her er noen viktige punkter:
* kilden skal være tydelig angitt løpende i teksten
* kilden skal detaljert skal oppgis i referanselisten
* informasjon som høres fra noen bør oppgis som “personlig kommunikasjon”
* ved «ord-for-ord»-sitering, skal det brukes anførselstegn

Plagiat er ikke bare et problem på universitetet og skole, men også i forsknings sammenheng der andre kan kopiere avsnitt fra andres forsknings artikler inn i sin egen.

Plagiat truer verdien og integriteten av det som skal læres. Det truer studenters innsats i læring og det kan undergrave verdien av belønningen studenter får og ryktet til høyere utdanning.

58
Q

Hva må man huske på når man skal rapportere resultat fra en t-test i APA-format?

A
  • Kursivering av forkortelser: eks; M (gjennomsnitt), SD (standardavvik).
  • Tall: Tall mindre enn 10 skal skrives med bokstaver, tall større enn hundre - ingen desimal, tall mellom ti og hundre - en desimal, tall mindre enn 10 - to desimaler
  • Fortidsform
  • Prosent: mellomrom mellom tall og prosent tegn
  • P verdi: skal rapporteres med tre desimaler, uten LZ, p i kursiv
  • T-test: t alltid liten bokstav i t-test.

HUSK: T-verdi, p-verdi, gjennomsnitt, standardavvik, antall deltakere, var signifikant testen en halet eller to halet?

59
Q

Hva er leading zero?

A

et null-tall foran et desimaltall = LZ.

verdier som ikke kan bli større enn 1 skal ikke ha LZ. Eks; p-verdier og korrelasjoner

60
Q

Hvordan rapporteres en t-skår i henhold til APA?

A

Den generelle rapporteringsformen for slutningsstatistikk er slik:
statistikk (df) = verdi, p = verdi
t(28) = 0.89, p = .381

61
Q

Hvordan rapporteres resultater i t-test i henhold til APA? (eksempel tekst)

A

Deltakerne i stille-gruppa (n=2) husket i gjennomsnitt 13.83 ord, SD = 2.76, 95% CI (12.08, 15,59). Deltakerne i støy-gruppa (n=12) husket færre ord, M = 7.25, SD = 2,49, 95% CI (4.36, 8.81) og en to-halet, uavhengig t-test viste at denne forskjellen var signifikant, t(22) = 6.14, p < .001.

En omregning til Choens d viste at effektstørrelsen var d = 2.50. Det ble derfor konkludert at støy påvirker korttidshukommelsen, i hvert fall når det gjelder gjenhenting av ord.

62
Q

Hva skal rapporteres om i et box plott?

A

Punktene for 1. (nederst / høyre) og 3. (øverst / venstre) kvartil

Median

Uteligger punkter

Spredningen (størst - minst verdi av uteliggere dersom det er uteliggere)

Posisjon til viskerne

Interkvartil område (Q3-Q1)

63
Q

Hvilken sentral tendens mål skal rapporteres ved skjevhet i en fordeling?

A

Median ovenfor gjennomsnitt pga. skjevhet. Men rapporter begge.

64
Q

Vil studier med samme p-verdi gi samme bevis for null hypotesen?

A

Nei

P-verdier gir ikke bevis for eller mot null hypotesen

De kan likevel ha ulik effekt størrelse og konfidens intervall.

De kan derfor ikke direkte sammenliknes.

65
Q

La oss si at du har satt en kritisk p-verdi grense på 0.05, og du får en p-verdi på 0.057. Hvordan vil du konkludere om hypotesen din da i en t-test?

A

Konklusjonen er da at gruppene ikke er signifikant forskjellige.

Behold H0

66
Q

Hva konkluderer du med dersom du får en signifikant p-verdi i en t-test?

A

Avvis H0 og aksepter H1

67
Q

Hva er ansett som plagiat?

A

Plagiat er definert som å sende inn andres arbeid som ditt eget.

Når man i denne definisjonen bruker ordet “å sende inn” skiller man mellom privat og offentlig arbeid. Det er bare plagiat når du “går offentlig”, slik som når du leverer inn et arbeidskrav eller eksamen.

Når man bruker ordet “arbeid” unngår man å bare rette seg mot “ord”. En student sender inn andres arbeid dersom man krever kreditt for andres innsats.

Det at det i definisjonen brukes “andres arbeid” impliserer at noe arbeid er allmenn kunnskap og kan ikke tilskrives en enkelt person.

Delen som omhandler “som ditt eget (arbeid” er den som skaper mest forvirring.

68
Q

Hvilke typer plagiat er det?

A

Student plagiat er ulik fra andre typer plagiat fordi det dreier seg om arbeid som leveres inn for å motta akademisk kreditt.

Linken mellom å skape ditt eget arbeid og å skape din egen læring er det som skiller student plagiat fra plagiat utenfor høyere utdanning. Student plagiat lar studenter omgå eller unngå læring. Dette kan skje bevisst eller ubevisst.

Det skilles også mellom “lite plagiering” og “større plagiering”. Lite plagiering kan innebære å kopiere noen setninger, bruke fiktive referanser, samarbeide med en venn . Større plagiering kan innebære å kopiere flere paragrafer eller hele verket.

69
Q

Hvilke grunner er det bak plagiat?

A

Kapittel 1 i Jude Carrols håndbok for plagiat lister opp en rekke grunner som studenter har gitt for å utføre plagiat, samt hva som kan ligge bak disse uttalelsene. Blant disse finner vi:
- “Jeg ble desperat i siste øyeblikk” - dårlig personlig tids håndtering, sjonglerer mellom flere krav
- “Jeg må gjøre det bra, jeg og alle andre forventer det av meg” - press, kulturelle forventninger, økonomi
- “Jeg forstår ikke hva jeg skal gjøre for å unngå plagiat” - uklare definisjoner og instuksjoner på referering, manglende erfaring i akademisk skriving
- “Jeg vil se om jeg kommer unna med det” - tester systemet, utfordrer autoriteter

En mulig forklaring som også nevnes i kapittelet er at karakterer i dag spiller en mye større rolle en før, og dermed er presset blitt større. I tillegg har mange studenter mindre tid til å studere pga. jobb ved siden av for å dekke kostnadene ved å studere eller pga. omsorgs ansvar.

De skriver også at grunnen som ofte forekommer er dårlig tidshåndtering, sammen med det at de trengte mer hjelp.

Lite plagiering - studenters holdninger, press
Større plagiering - frykt for å feile

70
Q

Kan vi si at: 95% CI har 95% sjanse for å inneholde det sanne populasjonsparameteret?

A

Ja, dersom vi mener at vi har 95% sannsynlighet for at vårt eksperiment resultat er en av de som vil fange det sanne populasjon parameteren.

71
Q

Kan vi si at: dersom 95% CI er mellom 1.5 og 4.5 er det en 95% sannsynlighet for at det sanne populasjonsparametret befinner seg mellom disse verdiene?

A

nei

72
Q

Hva vil skje dersom vi øker utvalgsstørrelsen fra 5 til 30 når vi regner ut et 95% konfidensintervall?

A

95% konfidensintervall regnes ut slik:
95% CI = PE +- 1.96 * SE

Slik påvirkes 95% CI av standardfeilen

Standardfeilen regnes ut ved å ta standardavviket delt på kvadratroten av utvalgsstørrelsen.

Derfor, når utvalgsstørrelsen øker vil standardfeilen reduseres og da reduseres også 95% CI.

Når 95% CI reduseres (i begynnelsen) får vi et bedre estimat om det sanne populasjonsparametret

73
Q

Hva er en standard normalfordeling?

A

Dersom du har en normalfordeling i ditt utvalg og kjører en z-transformasjon av denne vil du få en standard normalfordeling med M = 0 og SD = 1