Binomialfordeling & central grænseværdi/estimation Flashcards
Beskriv binomialfordelingen
- Binomialfordelingen viser sandsynligheden for x antal succeser ved et antal uafhængige forsøg, når man kigger på to mulige udfald (succes eller fiasko).
- Binomialfordelingen nærmer sig normalfordelingen, når n er stor.
Hvad kan man bruge binomialfordelingen til?
Binomialfordelingen viser (kun), hvor stor sandsynligheden er for at få ”succes” ved et bestemt antal gentagelser
Med andre ord: Binomialfordelingen kan bruges til at beregne sandsynligheder for forskellige muligheder i et Bernoulliforsøg
Hvad er binomialfordelingens modelantagelser?
- Fast antal forsøg (n)
- Alle forsøg har et binært udfald - succes vs. Fiasko
- Fast sandsynlighed for succes (p) og fiasko (100-p)
- Forsøgene er uafhængige
Forklar elementerne i binomialfordelingens ligning
- (n/x) = fakultet –> hvor mange forskellige måder er der af måder en person kan dø på = de forskellige kombinationer der kan være for succes (død)
Hvad er den empiriske middelværdi?
Summen af observationer / antal observationer
Ift. terningekast –> antallet af øjne / antallet af personer der kaster
Beskriv (den empiriske) varians på et enkelt punkt
Hvad er den empiriske standardafvigelse?
Man tager kvadratroden af variansen, hvorfor man skal bruge variansen
To punkter på hver sin side af middelværdi
Beskriv (den empiriske) varians på hele datasættet
Variansen er gennemsnittet af de kvadrerede forskelle mellem middelværdierne og de enkelte observationer.
dvs. hvor meget spreder observationerne i gennemsnittet sig fra middelværdien/gennemsnittet
Hvad kan man bruge variansen til?
- Giver os en idé om, hvor spredte vores observationer er
- Variansen benyttes til at beregning standardafvigelse
- Som bruges til at beregne SE
- Som bruges til at beregne CI
- Som bruges til at beregne SE
Hvad er forskellen mellem teoretiske og empiriske størrelser?
- Den empiriske størrelse man får ud af sit datasæt er regnet ud fra ens teoretiske størrelse.
- De tal jeg får ud i R bygger på en teoretisk værdi, men ER en empirisk værdi.
Hvad kan standardafvigelse bruges til?
- Fortæller noget om, hvor meget data typisk spreder sig omkring middelværdien
- Bliver bestemt af variansen
- Standardafvigelse bruges til at bestemme standardfejlen (SE)
Hvad er standardfejl (SE)?
Formel: standardafvigelse / kvadratroden af n
- SE siger noget om usikkerheden på vores estimat dvs. hvor sikre vi er på, at værdien ligger inden for den standardiserede data (95% område)
- Afhænger af standardafvigelsen, som afhænger af variansen
- SE for estimatet bruges til at beregne konfidensintervallet
- Jo mindre SE jo smallere konfidensinterval, og når stikprøvestørrelsen bliver større bliver SE mindre
Hvad er den centrale grænseværdisætning?
- Sætningen: Gennemsnittet af et stort antal uafhængige og identisk fordelte variable vil altid approksimere en normalfordeling.*
- Jo flere observationer, jo bedre approksimation.*
Det betyder:
- Jo flere observationer desto smallere konfidensinterval som afhænger af standardfejl, som afhænger af variansen, som afhænger af antallet af observationer.
- Desto flere observationer der er, desto tættere på en normalfordeling.
Eksempel terninger:
- Uafhængige variable: resultatet af et kast med terning 1 påvirker ikke resultatet af et kast med terning 2, ligesom udfald af operation 1 ikke påvirker udfaldet på operation 2
- Identisk fordelte: terning 1 og terning 2 kan begge tage fordelingen 1, 2, 3, 4, 5, eller 6, ligesom operation 1 og operation 2 kan medføre enten en succes eller fiasko
Hvad er estimationsusikkerhed?
- Hænger sammen med standardfejl, der siger noget om et estimats usikkerhed.
- Usikkerhedsmål: Hvor meget varierer dine observationer fra din middelværdi (variansen) og antallet af observationer (n)
- Hvis den varierer meget er den mere usikker
Hvad er forskellen mellem middelværdi og gennemsnit?
Middelværdien er gennemsnittet i populationen, som vi ville kende, hvis vi havde observeret alle.
Gennemsnittet: Gennemsnittet af stikprøvens observationer