Forelesning 4 Flashcards
Hva er kriteriene for representativt utvalg? Hvorfor er det viktig?
Et utvalg er en mindre samling av mennesker fra en populasjonen vi ønsker å vite mer om. Ved å utføre statistikker på utvalget, kan vi trekke konklusjoner om parameterne til populasjonen. Men for å gjøre dette, så må utvalget (helst) være representativt.
For at utvalget skal være representativt må utvalget:
1.Være randomisert, altså at det er lik sannsynlighet for at alle tilfeller blir valgt.
2.Være uavhengig, altså at tilfellene ikke er relatert til hverandre. Man ønsker derfor at man reklamerer for studien, i stedenfor å få venner til å delta.
3.Være identisk fordelt, altså at det burde være en stabil fordeling av tilfeller i populasjonen før hver uttakelse. Ideelt sett bør vi prøve å fordele deltakerne med tilbakelegging
Hva er de tre nøkkelelementene i slutningsstatistikk?
- Ut ifra dataen så kalkulerer man en teststatistikk, f.eks. en t-skår, et gjennomsnitt eller en korrelasjon.
- Deretter kalkulerer man sannsynligheten av denne observasjonen (teststatistikken), og antar at det ikke er noe effekt (altså anta at nullhypotesen er sann).
- Til slutt konkluder man om observasjonen støtter en effekt (forkaste nullhypotesen) eller at den ikke støtter en effekt (beholde nullhypotesen).
Hva er en utvalgsfordeling?
En utvalgsfordeling (sampling distribution) er en type sannsynlighetsfordeling som bygger på resultatene fra en teststatistikk (f.eks. gjennomsnitt) fra mange tilfeldige utvalg fra samme populasjon og som analyseres på samme måte. Disse fordelingene hjelper deg å forstå hvordan en prøvestatistikk varierer fra prøve til prøve.
Hva sier sentralgrensesetningen? Hvorfor er det viktig?
“The central limit theorem” går ut på at enhver teststatistikk (f.eks. gjennomsnitt) som er beregnet fra et stort utvalg (n > 30) ikke vil avvike kraftig fra populasjonsparameteren. Dette gjør oss i stand til å trekke slutninger om populasjonen, ganske enkelt ved å beregne teststatistikker fra et utvalg. På bakgrunn av dette kan vi finne ut hva som gjelder for populasjonen, som er viktig i slutningsstatistikk.
Hva er standardfeilen? Hvordan kan det estimeres?
Standardfeilen (SE) informerer oss om hvor nøyaktig vi kan estimere populasjonsparameteren fra prøvestatistikken vår.
SE er i utgangspunktet standardavviket til vår «sampling distrubution». Jo lavere denne verdien er, desto mer sannsynlig er det at teststatistikken vår er veldig nær den sanne populasjonsparameteren!
Vi kan bare bestemme verdien av SE nøyaktig hvis vi kjenner populasjonene standardavvik (SD) og størrelse (n). Dette vet vi vanligvis ikke, så vi estimerer bare SE ved å ta utvalgets SD og utvalgsstørrelse.
Formelen for SE innebærer at med økende utvalgsstørrelse (n), reduseres SE, og vårt estimat av populasjonsparameteren vil være mer presist.
SE = populasjonens SD / kvadratroten av populasjonsstørrelse.
Hva er forskjellen mellom standardfeilen og standardavviket?
Standardavvik beskriver spredningen innenfor vår data, imens standardfeilen forteller oss om sannsynligheten for at vi presist kan estimere populasjonens gjennomsnitt ved å kalkulere utvalgets gjennomsnitt. Standardfeilen vil alltid være lavere enn standardavviket, siden man deler populasjonens standardavvik på kvadratroten av antallet av populasjonen.
Standardavviket forteller oss om spredningen i vårt utvalg, imens standardfeilen forteller oss om hvor reliabelt vår teststatistikk er, altså hvor nær den er statistikken til populasjonen.
Hva er 95 % konfidensintervallet? Hvordan kan vi beregne det?
95 % konfidensintervall er intervallet som fanger den sanne populasjonsparameteren 95 % av tiden. Den representerer et intervallestimat som er rundt den sanne populasjonsparameteren på 95 % av alle hypotetiske eksperimenter.
Hvis du trekker et tilfeldig utvalg mange ganger, vil en viss prosentandel av konfidensintervallene inneholde populasjonsgjennomsnittet. Denne prosentandelen er «the confidence level».
Formelen er:
CI = PE± (CV * SE)
For en standardisert normalfordeling:
CI = PE± 1.96
Forklaring på forkortelsene:
CI = konfidensintervall
PE = «point estimate» = punktestimat: vår teststatistikk, for eksempel gjennomsnitt, t-verdi eller korrelasjonskoeffisient
CV = «critical value» = kritisk verdi i utvalgsfordelingen for det valgte konfidensnivået (95% i dette tilfellet, der den kritiske verdien er 1.96)
SE = «standard error» = standardfeil i utvalgsfordelingen (i dette eksemplet med en standardisert normalfordeling, er SE 1)
Hva er forskjellen mellom standardfeilen og 95 % konfidensintervall?
SE og 95 % konfidensintervall representerer konseptuelt det samme: Hvor nøyaktig kan vi estimere parameter ved å beregne teststatistikken i et utvalg.
Dette er fordi SE og 95 % konfidensintervall begge bestemmes av bredden på utvalgsfordelingen, og jo bredere utvalgsfordelingen er, jo større sjanse har vi for at statistikken vår faller langt fra den sanne populasjonsparameteren (som er dårlig for oss).
Hovedforskjellen er at ved å plotte SE estimerer du den sanne populasjonsparameteren med mindre sikkerhet, mens du med 95 % konfidensintervall estimerer den sanne populasjonsparameteren med mer sikkerhet.
MEN! Mer tillit til å fange populasjonsparameteren kommer på prisen av mer usikkerhet om parameterens verdi (95 % CI er bredere enn 2 x SE).