STAT100 Flashcards
To typer data/variabler
- Kategorisk data
- Numerisk
Hva er kategorisk data? Hvilke tre typer finnes det av kategorisk data/variabler?
Data med forhåndsbestemte kategorier.
1- binære/dikotome: to kategorier (kvinne/mann, syk/frisk)
2- Nominale data: flere kategorier (favorittfarge, tresorter, blodtype)
3- ordinale data: ordnede kategorier (ukedager, karakter, skala)
Hva er numerisk data? Hvilke to typer finnes?
Talldata.
1- diskrete data: telledata (antall barn, antall unger i kull)
2- kontinuerlig data: måledata (høyde, blodtrykk, lønn)
To typer modeller
1- deterministisk modell
2- stokastisk modell
Hva er detministisk modell?
beskriver forutsigbare fenomen. Eks sammenhengen mellom volum og areal.
Hva er stokastisk modell?
Beskriver tilfeldige fenomener. Kan ikke si hva som kommer til å skje, men kan angi antall mulige utfall og hvilken sannsynlighet det er for de ulike utfallene
Hvilke modeller er best egnet til kategorisk data?
- frekvenstabell
- søylediagram
- kakediagram
Hvilke modeller egner seg best til kontinuerlig numerisk data?
- histogram
- boksplott
Hvilke spredningsmål har vi?
- modus
- median og kvartil
- gjennomsnitt
- varians
- standardavvik
Hva er modus?
- verdien som forekommer flest ganger i et datasett.
Hva er median? Hvordan regne ut?
- Midterste observasjonen i et datasett når verdiene er sortert.
- Best for skjevfordelt data
- Oddetall: midterste verdien
- Partall: gjennomsnittet av de to midterste verdiene
Kvartiler
median = 50 prosentkvartil
Q1 = medianen av verdiene under medianen. 25 prosentkvartil
Q3 = medianen av verdiene over medianen. 75 prosentkvartil
Gjennomsnitt
- Summen av alle observasjoner / antall observasjoner
- Best for symmetrisk data
- Kalles også middelverdi
Ẍ = 1/n * ∑(xi) = 1/n (x1 * x2 * x3)
Hva er standardavvik? 𝛔 / SD
- Typisk avvik fra gjennomsnittsverdien
- For å summere, må du bruke absoluttverdien til alle avvikene
S = sqrt ( ∑(xi - Ẍ)^2 / n-1)
Ved frekvenstabell:
𝜎 = sqrt(Var(x)) = sqrt(𝜎^2)
Hva er varians? Var(X) / 𝛔^2
- arealet av gjennomsnittlig avvikskvadrant
S^2 = ∑(xi - Ẍ)^2 / n-1
ved frekvenstabell:
𝜎^2 = ( ∑X^2 * (PX=x=) ) - 𝜇^2
Tjebytsjevs regel
- hvordan utvalgsstandardavviket henger sammen med histogrammet til observasjonene.
68% av dataen vil ville mellom Ẍ + SD
95% av daten vil ligge mellom Ẍ + 2*SD
99% av dataen vil ligge mellom Ẍ + 3*SD
Hva er stokastiske forsøk?
Tilfeldige utfall
Kjennetegn:
- Vet mulige utfall
- Bare ett av utfallene er mulige
- Vet ikke resultatet på forhånd
Uniform sannsynlighet
Alle hendelser har like stor sannsynlighet for å inntreffe
P(A) = antall mulig utfall for A / antall mulige utfall
De store talls lov
Hvis et forsøk gjentas mange ganger vil dens frekvensbaserte sannsynlighet tilnærme seg sin teoretiske sannsynlighet
Relativ frekvens
Relativ frekvens = antall ganger A har inntruffet / totalt antall forsøk (n)
Unionen av A og B
P(A ∪ B)
Sannsynligheten for at A, B eller begge inntreffer
Snittet av A og B
P(A ∩ B)
Sannsynligheten for at både A og B inntreffer
Komplementet av A
P(Ā)
Sannsynligheten for at A ikke skal skje
Disjunkt av A og B
Dersom A og B ikke kan inntreffe samtidig
Betinget sannsynlighet
Sannsynligheten for at en hendelse vil inntreffe, når en annen allerede har inntruffet
P(A|B)
Regneregler generelle
Komplement-regel:
P(Ā) = 1 - P(A)
Generell addisjonsregel:
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Addisjonsregel for disjunkte hendelser (finnes ingen snitt av A og B da disse ikke kan forekomme likt):
P(A ∪ B) = P(A) + P(B)
Regneregler betinget sannsynlighet
P(A|B) = P(A ∩ B) / P(B)
Snudd om ➞ (P(A ∩ B) = P(A|B)P(B) eller P(B|A)P(A))
P(B|A) = P(A ∩ B) /P(A)
P(Ā|B) = 1 - P(A|B)
Total sannsynlighet:
P(A) = P(A|B) * P(B) + P(A|Ḃ) * P(Ḃ)
Uavhengige betingelser
Kunnskap om at den ene hendelsen har inntruffet endrer ikke sannsynligheten for at den andre hendelsen skal inntreffe
Regneregler betinget sannsynlighet
P(A|B) = P(A) = P(A ∩ B) = P(A) * P(B)(at hendelse B har skjedd endrer ikke sannsyligheten for A)
Bayes regel
Forelesning:
P(A|B) = P(B|A)P(A) / P(B|A)P(A) + P(B|Ā)*P(Ā)
Boka:
P(Bi|A) = P(A∩B) / P(A) = P(Bi) * P(A|Bi) / P(A)
Antall kombinasjoner (med tilbakelegging)
Trekke K enheter fra en samling med tilbakelegging med n merkede enheter.
Antall kombinasjoner er n^k.
Eks: plante 4 planter, farget enten hvit eller rød.
K = 4 og n = 2
antall kombinasjoner: n^k = 2^4 = 16
Antall kombinasjoner uten tilbakelegging (permutasjon/fakultet)
Ordnede utfall: (rekkefølge viktig)
Trekke K enheter fra en samling uten tilbakelegging med n merkede enheter.
P n,k = n! / (n-k)!
(Eks: trekke 20 baller av en hatt med 80 baller hvor det er ulike farger på ballene)
Ikke-ordnede utfall:
Trekke K enheter fra en samling uten tilbakelegging med n merkede enheter.
C nok = n! / (n-k)! * k!
(Eks: par i kortstokk- hvilke kort du får par av spiller ingen rolle)
Diskret sannsynlighetsmodell
X = stokastisk variabel (eks “antall barn”)
Vx = verdiemengden til X (eks 0, 1, 2 osv.)
P(X = x) =sannsynligheten for Vx (eks: P(0 barn))
X 0 1 2
P(X=x) 1/11 4/11 6/11
Kumulativ sannsynlighet, P(X<= x)
X 0 1 2
P(X=x) 1/11 4/11 6/11
P(X<= x) 1/11 5/11 11/11
Forventet verdi/ 𝜇 = E(X)
“Typisk verdi”/tyngdepunktet
diskrete: ∑(X * P(X = x))
kontinuerlige: ∫ X* f(X) dx