Begreper 2 Flashcards
Variasjonsbredde
Avstanden mellom største og minste verdi
Svært følsomt for ekstremverdier
SE
SE er kvadratroten av variansen
Definer Standardavvik
Standardavviket er et mål på det «gjennomsnittlige avviket fra gjennomsnittet»
- Alternativt mål: Mean absolute deviation
Variasjonskoeffisint(CV)
Variasjonskoeffisient (CV) er standardavviket delt på gjennomsnittet
- CV er et relativt mål og uavhengig av måleenheten
Chebysheffs teorem
Den empiriske regelen bygger på normalitet
Dersom fordelingen ikke er klokkeformet kan vi bruke Chebysheffs teorem til å si hvor mye av fordelingen som minst ligger innenfor k standardavvik (k>1)
Minst 75 % ligger innenfor 2 standardavvik
Minst 89 % ligger innenfor 3 standardavvik
Minst 94 % ligger innenfor 4 standardavvik
Persentiler
Angir den verdien som har p prosent av observasjonene under seg
50 prosent persentilen er medianen
Forholdet mellom 90- og 10-persentilen
Mindre sårbar for ekstremobservasjoner
Persentiler kan oppgis for ordinale data, men ikke avstanden eller forholdet mellom verdiene
Kvartilbredde
Kvartilbredde (avstanden mellom 75 og 25-persentilen
Lite følsomt for ekstremverdier
Box plot
Grafisk oppsummering av flere beskrivende mål
Også velegnet for sammenligninger
se. s.76 i forelesningsnotatene.
Forklar ulike former for presentasjon av kategoridata
Frekvenstabeller (hyppighetstabeller)
- Søylediagram
Tabell med relative andeler
- Kakediagram
Tabell med kumulative andeler
- Ogive
Med krysstabeller kan vi fordele observasjoner på to kategoridimensjoner samtidig og vise samvariasjon
Eks.: Kjønn og holdning til et produkt
Eks.: Karakter kurs og karakter utredning (overgangsmatrise)
Grafisk presentasjon av måledata med en variabel
Histogram
- Med måledata har vi ikke naturlige kategorier
- Må gruppere verdier på x-aksen
Tommelfingerregel for antall kategorier: 1+3,3∙log(n)
Estimert tetthetsfunksjon (Kernel density) - Mer avansert metode for å plotte sannsynlighetsfordelingen uten å lage diskrete kategorier
Hvordan beskrive sammenhengen mellom 2 variabler
Spredningsdiagram
Korrelasjon
Korrelasjonskoeffisienten, r, forteller oss hvor nær vi er en lineær sammenheng
r varier mellom -1 og 1
r forteller om det er positiv, ingen eller negativ samvariasjon, men ikke stigningsforholdet
(Merk: r=0 medfører ikke uavhengighet!., derimøt medfører uavhengighet ukorrelerthet)
For ordinale variable kan vi regne ut rangkorrelasjonen
Hva gjør regresjon?
Finner linjen som beskriver sammenhengen mellom to variabler.
Regresjonsligningen
Y’=a+bX
Eks.
Y’ er den predikerte inntekten for X års utdannig
b er stigningstallet for regresjonslinen
a er konstantleddet
Ikke-lineære sammenhenger kan håndteres ved f.eks. å bruke log(inntekt) eller bruke multippel regresjon med et polynom i inntekt
Determinasjonskoeffisienten
Hvor mye av variasjonen i Y kan vi forklare med variasjonen i X?
Kvadratet av korrelasjonskoeffisienten, r2 (eller R2) er et uttrykk for hvor stor andel av spredningen rundt gjennomsnittet for hver av de to variablene som er felles for begge variablene
Hva består en Sannsynlighetsmodell av?
- Et utfallsrom (diskret, kontinuerlig eller mer komplisert)
- Sannsynligheter tilordnet utfall eller kombinasjoner av utfall
- Diskret utfallsrom: Sum sannsynligheter = 1
Eks.: Terningskast, produktvalg
- Kontinuerlig utfallsrom: Areal under tetthetskurven = 1
Eks.: Dagsomsetning
Stokastisk variabel
en funksjon X(u) som tilordner en tallverdi, x, til ethvert utfall, u, i en sannsynlighetsmodell
Hva er en sannsynlighetsfordeling
en oppregning av de mulige verdiene til X sammen med sannsynlighetene P(X= x) [forenklet; p(x)] for å observere hver enkelt verdi x
Diskret sannsynlighetsfordeling
Tegnes som søylediagram med punktsannsynlighter
Kontinuerlig sannsynlighetsfordeling
Tegnes som tetthetsfunksjon
Når X er kontinuerlig gir det bare mening å snakke om sannsynligheten for at X skal ligge i et intervall
Samplingfordeling
Når enkeltobservasjonene i utvalg er stokastiske variabler må også kjennetegn ved hele utvalget være stokastiske og ha en fordeling. Slike fordelinger kalles samplingsfordelinger.
Hvilke samplingsfordelinger er man spesielt interessert i? Hvorfor?
Fordelingen til gjennomsnittet
Fordelingen til utvalgsvariansen.
Det er fordi disse gir oss informasjon om forventningen og variasen til populasjonen
Hva kan vi si om fordelingen til et gjennomsnitt?
Dersom X er normalfordelt er normalfordelt
- Lineærkombinasjoner av normalfordelte variabler er normalfordelte
Ofte kjenner vi ikke den eksakte fordelingen til X
- Hvilken fordeling har gjennomsnittet dersom X ikke er normalfordelt?
- Hvis X’ene er uavhengige vil fordelingen nærme seg normalfordelingen når n øker
- Følger av sentralgrenseteoremet
Samplingfordelingen til en andel
Gjennomsnitt er bare meningsfylt for målevariabler
For nominale variabler er vi ofte interessert i den sanne andelen i en populasjon
- Andelen av en kundemasse som kjøper «vårt» produkt
- Andelen feilvare i en produksjonsprosess
Andelen i et utvalg kan vi betrakte som resultatet av en binomisk forsøksrekke
Andelen i et utvalg kan vi betrakte som resultatet av en binomisk forsøksrekke
- Observasjonene er tilfeldige trekninger fra populasjonen
- Utfallene er uavhengige (!)
- Hver observasjon klassifiseres som «suksess» eller «fiasko» (f.eks.: SSSSFFFFFF)
- Andel suksesser i vårt utvalg er stokastisk, men sannsynligheten for suksess, p, er den samme i hver trekning
Vi ønsker å finne fordelingen til den observerte andelen
Hvordan finne fordelingen til en andel
La utfallet av hver trekning være representert ved en indikatorvariabel Ij der j=1,2,3 …
Ij=1 hvis suksess, null ellers
En tallfølge av stokastiske variabler kaller vi en stokastisk prosess
Prosessen {Ij; j=1,2,3 …} er binomisk fordi
- Ij bare kan anta to verdier
- Sannsynligheten for å observere Ij=1 er p for alle j
- Ij, og Ik, er uavhengige for alle j og k
- -> En binomisk prosess utgjør en binomisk forsøksrekke