Begreper 2 Flashcards
Variasjonsbredde
Avstanden mellom største og minste verdi
Svært følsomt for ekstremverdier
SE
SE er kvadratroten av variansen
Definer Standardavvik
Standardavviket er et mål på det «gjennomsnittlige avviket fra gjennomsnittet»
- Alternativt mål: Mean absolute deviation
Variasjonskoeffisint(CV)
Variasjonskoeffisient (CV) er standardavviket delt på gjennomsnittet
- CV er et relativt mål og uavhengig av måleenheten
Chebysheffs teorem
Den empiriske regelen bygger på normalitet
Dersom fordelingen ikke er klokkeformet kan vi bruke Chebysheffs teorem til å si hvor mye av fordelingen som minst ligger innenfor k standardavvik (k>1)
Minst 75 % ligger innenfor 2 standardavvik
Minst 89 % ligger innenfor 3 standardavvik
Minst 94 % ligger innenfor 4 standardavvik
Persentiler
Angir den verdien som har p prosent av observasjonene under seg
50 prosent persentilen er medianen
Forholdet mellom 90- og 10-persentilen
Mindre sårbar for ekstremobservasjoner
Persentiler kan oppgis for ordinale data, men ikke avstanden eller forholdet mellom verdiene
Kvartilbredde
Kvartilbredde (avstanden mellom 75 og 25-persentilen
Lite følsomt for ekstremverdier
Box plot
Grafisk oppsummering av flere beskrivende mål
Også velegnet for sammenligninger
se. s.76 i forelesningsnotatene.
Forklar ulike former for presentasjon av kategoridata
Frekvenstabeller (hyppighetstabeller)
- Søylediagram
Tabell med relative andeler
- Kakediagram
Tabell med kumulative andeler
- Ogive
Med krysstabeller kan vi fordele observasjoner på to kategoridimensjoner samtidig og vise samvariasjon
Eks.: Kjønn og holdning til et produkt
Eks.: Karakter kurs og karakter utredning (overgangsmatrise)
Grafisk presentasjon av måledata med en variabel
Histogram
- Med måledata har vi ikke naturlige kategorier
- Må gruppere verdier på x-aksen
Tommelfingerregel for antall kategorier: 1+3,3∙log(n)
Estimert tetthetsfunksjon (Kernel density) - Mer avansert metode for å plotte sannsynlighetsfordelingen uten å lage diskrete kategorier
Hvordan beskrive sammenhengen mellom 2 variabler
Spredningsdiagram
Korrelasjon
Korrelasjonskoeffisienten, r, forteller oss hvor nær vi er en lineær sammenheng
r varier mellom -1 og 1
r forteller om det er positiv, ingen eller negativ samvariasjon, men ikke stigningsforholdet
(Merk: r=0 medfører ikke uavhengighet!., derimøt medfører uavhengighet ukorrelerthet)
For ordinale variable kan vi regne ut rangkorrelasjonen
Hva gjør regresjon?
Finner linjen som beskriver sammenhengen mellom to variabler.
Regresjonsligningen
Y’=a+bX
Eks.
Y’ er den predikerte inntekten for X års utdannig
b er stigningstallet for regresjonslinen
a er konstantleddet
Ikke-lineære sammenhenger kan håndteres ved f.eks. å bruke log(inntekt) eller bruke multippel regresjon med et polynom i inntekt
Determinasjonskoeffisienten
Hvor mye av variasjonen i Y kan vi forklare med variasjonen i X?
Kvadratet av korrelasjonskoeffisienten, r2 (eller R2) er et uttrykk for hvor stor andel av spredningen rundt gjennomsnittet for hver av de to variablene som er felles for begge variablene
Hva består en Sannsynlighetsmodell av?
- Et utfallsrom (diskret, kontinuerlig eller mer komplisert)
- Sannsynligheter tilordnet utfall eller kombinasjoner av utfall
- Diskret utfallsrom: Sum sannsynligheter = 1
Eks.: Terningskast, produktvalg
- Kontinuerlig utfallsrom: Areal under tetthetskurven = 1
Eks.: Dagsomsetning
Stokastisk variabel
en funksjon X(u) som tilordner en tallverdi, x, til ethvert utfall, u, i en sannsynlighetsmodell
Hva er en sannsynlighetsfordeling
en oppregning av de mulige verdiene til X sammen med sannsynlighetene P(X= x) [forenklet; p(x)] for å observere hver enkelt verdi x
Diskret sannsynlighetsfordeling
Tegnes som søylediagram med punktsannsynlighter
Kontinuerlig sannsynlighetsfordeling
Tegnes som tetthetsfunksjon
Når X er kontinuerlig gir det bare mening å snakke om sannsynligheten for at X skal ligge i et intervall
Samplingfordeling
Når enkeltobservasjonene i utvalg er stokastiske variabler må også kjennetegn ved hele utvalget være stokastiske og ha en fordeling. Slike fordelinger kalles samplingsfordelinger.
Hvilke samplingsfordelinger er man spesielt interessert i? Hvorfor?
Fordelingen til gjennomsnittet
Fordelingen til utvalgsvariansen.
Det er fordi disse gir oss informasjon om forventningen og variasen til populasjonen
Hva kan vi si om fordelingen til et gjennomsnitt?
Dersom X er normalfordelt er normalfordelt
- Lineærkombinasjoner av normalfordelte variabler er normalfordelte
Ofte kjenner vi ikke den eksakte fordelingen til X
- Hvilken fordeling har gjennomsnittet dersom X ikke er normalfordelt?
- Hvis X’ene er uavhengige vil fordelingen nærme seg normalfordelingen når n øker
- Følger av sentralgrenseteoremet
Samplingfordelingen til en andel
Gjennomsnitt er bare meningsfylt for målevariabler
For nominale variabler er vi ofte interessert i den sanne andelen i en populasjon
- Andelen av en kundemasse som kjøper «vårt» produkt
- Andelen feilvare i en produksjonsprosess
Andelen i et utvalg kan vi betrakte som resultatet av en binomisk forsøksrekke
Andelen i et utvalg kan vi betrakte som resultatet av en binomisk forsøksrekke
- Observasjonene er tilfeldige trekninger fra populasjonen
- Utfallene er uavhengige (!)
- Hver observasjon klassifiseres som «suksess» eller «fiasko» (f.eks.: SSSSFFFFFF)
- Andel suksesser i vårt utvalg er stokastisk, men sannsynligheten for suksess, p, er den samme i hver trekning
Vi ønsker å finne fordelingen til den observerte andelen
Hvordan finne fordelingen til en andel
La utfallet av hver trekning være representert ved en indikatorvariabel Ij der j=1,2,3 …
Ij=1 hvis suksess, null ellers
En tallfølge av stokastiske variabler kaller vi en stokastisk prosess
Prosessen {Ij; j=1,2,3 …} er binomisk fordi
- Ij bare kan anta to verdier
- Sannsynligheten for å observere Ij=1 er p for alle j
- Ij, og Ik, er uavhengige for alle j og k
- -> En binomisk prosess utgjør en binomisk forsøksrekke
Normaltilnærming for andeler, nominale data.
Antall suksesser, Xn, er binomisk fordelt
Siden Xn er bygget opp av en sum av identisk uavhengig fordelte variabler (Ij) vil Xn nærme seg normalfordelingen når n blir stor
En binomiske fordelingen (n, p) er tilnærmet normalfordelt hvis n er stor
- Tommelfingerregel: np>5 og n(1-p)>5
Statistisk inferens
Komplementært til sannsynlighetsregning og handler om å trekke slutninger om en delvis ukjent virkelighet ut fra observasjoner
- Estimering (Punktestimater og konfidensintervaller)
- Hypotesetesting (Signifikans
Sannsynlighetsregning
Sannsynlighetsregning basert på helspesifiserte stokastiske modeller
- Alle parametere i modellene er kjente og det er derfor mulig å beregne sannsynligheter for ulike mulige utfall eksakt iht. modellen
Inferens(slutningsstatistikk)
Hva kan vi slutte om populasjonens parametre basert på det vi observerer i utvalget?
Vi går frem ved å sette opp en delvis spesifisert modell for utfall
- Eks.: Utleder sampelingfordelingen for gitt (ukjent) μ og σ
Bruker så observerte utfall til å bestemme ukjente parametere i modellen
- Bruker observatorer (estimatorer)
Inferens omfatter også å gi anslag for hvor sikre vi er på de konklusjonene som trekkes
Estimator
En estimator er en “regel” for bruk av observasjoner til å gjette verdien på ukjente parametre i en modell
Siden de observasjonene vi bruker er realisasjoner av stokastiske variable vil en estimatoren i seg selv være en stokastisk variable
Valg av estimator.
Det kan finnes flere alternative estimatorer for en og samme paramter. Hvilken bør velges?
Vi ønsker at estimatoren skal ha en forventning som ligger nær den sanne verdien, og vi ønsker at estimatoren skal ha lav varians/standardavvik
Hvis vi lar θ’ være en estimator for θ så sier vi at estimatoren er forventingsrett dersom
Eθ’=θ
Blant mulige forventingsrette estimatorer vil vi velge den med minst varians; den mest effektive
Vi kan være villige til å kompromisse på forventningsretthet hvis en forventningsskjev estimator kan redusere variansen/standardavviket
Noen ganger kan det være vanskelig å bedømme en estimators egenskaper i små utvalg. Da drøfter vi gjerne egenskapene når “ n → ∞ ”
Konsistent estimator.
Vi ser at en estimator er konsistent dersom forventet forskjell mellom estimatet og den sanne parameterverdien kan gjøres så liten en vil ved å øke utvalgsstørrelsen tilstrekkelig
Merk: En estimator kan være konsistent uten å være forventningsrett og forventningsrett uten å være konsistent!
Hypotesetesting. Hva går det ut på?
Går ut på å teste en oppsatt nullhypotesen H0 mot en alternativhypotesen, HA (eller H1) der en forkaster nullhypotesen til fordel for alternativhypotesen bare hvis data gir grunnlag for det
Testobservator
En hypotesetest er basert på en såkalt testobservator, som er en stokastisk variabel som kan beregnes ut fra observasjonene, og som har en kjent sannsynlighetsfordeling under nullhypotesen
Forklaringsområdet
Forkastningsområdet er de verdier av testobservatoren som skal medføre forkastning av nullhypotesen. Grensen mellom forkastning og godtaking kalles for kritisk verdi
Signifikansnivå
Forkastningsområdet og kritisk verdi bestemmes av alternativ- hypotesen og ønsket (maksimal) risiko for feilaktig forkastning, kalt signifikansnivå (α)
P-verdien
Resultatet av en hypotesetest oppgis ofte ved P-verdien
P-verdien er (den maksimale) sannsynligheten for å observere det vi fikk eller noe enda mer i favør av alternativet beregnet under H0
H0 forkastes når P <= α
Konfidensintervall
Et 95% konfidensintervall er et intervall som med 95% sannsynlighet fanger opp den sanne parameterverdien
Dersom en parameterverdi ikke ligger innenfor 95% konfidensintervallet kan vi med 5% signifikansnivå forkaste en nullhypotese om at dette er den sanne verdien
Forkastningsfeil (Type 1-feil)
Forkaster H0 når H0 er sann.
Vi ønsker åpenbart å unngå begge typer feil, men for ett gitt observasjonsmateriale vil sannsynligheten for den ene type feil øke når vi reduserer sannsynligheten for den andre typen feil
Sannsynligheten for forkastningsfeil er gitt ved signifikansnivået α
Godtakingsfeil (Type 2-feil)
Beholder H0 når H0 er gal.
Sannsynligheten for godtakingsfeil betegnes ofte med β
Teststyrke
Sannsynligheten for at en hypotese blir forkastet når den er er feil, kalles styrken til testen.
Vi har Π= 1- β der Π er styrkefunksjonen Styrken til testen avhenger av - Den sanne parameterverdien - Variansen i populasjonen - Antall observasjoner
Pensum: Inferens om én (uendelig) populasjon med ukjent standardavvik
- Inferens om gjennomsnittet
- antar normalfordelte målevariabler
- repetisjon av «målemodellen» - Inferens om standardavviket/variansen
- antar normalfordelte målevariabler
- nytt pensum - Inferens om en andel
- nominale variabler og binomisk modell
- delvis repetisjon
Inferens om endelige populasjoner. Hva sier teorien vi gjennomgår i kurset?
Teorien vi gjennomgår bygger på trekninger fra en uendelig populasjon
Med endelig populasjon blir trekninger uten tilbakelegging avhengige og variansen mindre
Eksempel stikkprøver i revisjon eller stikkprøver fra et vareparti
Inferens om et gjennomsnitt
Antar at X1, X2, X3 … Xn er uavhengige stokastiske variable med forventning mu og varians std^2.
En naturlig estimator er det aritmetiske gjennomsnittet.
Videre er det også naturlig å benytte det estimerte standardavviket som forventningsrett estimator for standardavviket med hensyn på den stokastiske variabelen(gjennomsnittet).
Hva kan vi si når X’ene er normalfordelte?
Disse standardiserte variablene (Z og T) kan brukes som testobservatorer når vi skal teste hypoteser om μ
For stor n (minst 50) kan t-fordelingen tilnærmes med normalfordelingen
Hvis n ikke er for liten gjelder setning (1) tilnærmet uten at observasjonene selv er normalfordelte pga. sentralgrensesetningen.
Det gjør i streng forstand ikke setning (2), men med stor n vi også den fungere som en tilnærming gitt at X ikke er for “unormalt” fordelt [fordi S da blir et ganske presist estimat for σ slik at (1) vil gjelde tilnærmet og (2) vil være tilnærmet lik (1) pga. stor n].
Testing av hypotese H0= mu = mu0
Når s kjent (el. n svært stor): Bruk Z som testobservator med μ = μ0
Når s ukjent: Bruk T som testobservator med μ = μ0
-Testobservatoren vil da ha kjent fordeling under H0
Kritisk verdi bestemmes av valgt signifikansnivå og av om alternativhypotesen HA er:
Tosidig HA: μ (ulik) μ0 eller
Ensidig HA: μ>μ0 evt. HA: μ<μ0
Dersom en tosidig test med kritiske verdier ± k har signifikansnivå α vil en ensidig test med kritisk verdi k ha signifikansnivå α/2
Når bruker vi ensidig test?
Når vi har a priori informasjon som tilsier at vi kan utelukke at sann verdi ligger til en av sidene for nullhypotesen
Når bare avvik til en av sidene er beslutningsrelevant.
Nullhypotesen bør da uttrykkes ved større eller lik/mindre eller lik, for eksempel H0: μ ≥ μ0
Når bruker vi en tosidig test?
Når alternativet kan ligge på begge sider av nullhypotesen, og avvik til begge sider er beslutningsrelevant
Inferens om et standardavik
I en populasjon med ukjent standardavvik/varians kan det også være aktuelt å teste hypoteser om s2
Slike tester er basert på kjikvadratfordelingen (χ2)(se s. 140 i for.notater)