Statistik 1b Flashcards
Ge ett exempel på inferens med 2 populationer (medelvärden)?
Man har tex en kontrollgrupp och en behandlingsgrupp där man kanske vill testa olika saker så som hur företaget presterar om man får frukost på jobbet. Höjer de antalet producerade enheter?
Olika typer av test för 2 populationsparametrar (3st):
- Skillnader mellan två populationsmedelvärden för oberoende stickprov:
- Populationsvarianserna kända
- Populationsvarianserna okända men kan inte antas vara lika
- Populationsvarianserna okända men antas vara lika - Skillnader mellan två populationsmedelvärden för beroende (relaterade) stickprov.
- Skillnader mellan två populationsproportioner för oberoende stickprov
Oberoende stickprov
Anses oberoende när processen för att skapa stickproven är helt olika. Ex när personer blir slumpmässigt utvalda att ingå i behandlingsgruppen eller inte.
Beroende stickprov
Anses beroende om det finns ”naturligt” sätt att kombinera datan. Ex testa personers reaktion mot en medicin genom att observera dem 2 gånger, med och utan behandling. Eller följa upp en diet, träningsprogram eller liknande. Behöver dock ej vara samma individ, kan vara matchande på annat sätt, ex syskonstudier eller jordbruket.
Hur tolkas K.I?
Fångar in osäkerheten i skattningen av populationsparametern givet stickprovet. I upprepade försök kommer 100(1-a)% av konfidensintervallen innefatta den sanna differensen av populationsparameterna.
Typ 1 fel:
När man förkastar H0 fastän H0 är sann. alfa anger hur stor chansen för typ 1 fel är.
Typ 2 fel:
när man inte förkastar H0 fastän HA är sann. Beta anger hur troligt det är.
Hypotestesternas 5 steg:
- Definiera nollhypotesen
- Definiera alternativhypotesen (den hypotes man vill pröva/testa).
- Definiera testfunktionen (en statistisk fördelning under antagandet att H0 är sant).
- Definiera regel när nollhypotesen förkastas; antingen p-värde eller kritiskt värde.
- Pröva om vår observerade testfunktion ligger i förkastelseregionen under antagandet att H0 är sann. Alternativt pröva om p-värdet är mindre än a.
Hur beräknas d-tak, vad innebär det?
d-tak används vid beroende stickprov där vi vill jämföra före och efter behandling. Det räknas ut såhär: ta varje par av observationer och subtrahera dem så att du får differensen dem emellan. Summera dessa differenser och dela på totala antalet observationer.
Exempel på när man vill jämföra populationsvarianser:
Tex hur aktier kan variera för att minimera risken eller tex hur idrottare varierar i sin prestation.
När använder vi chitvå respektive F-fördelning?
Chitvå när vi har tex en varians som vi vill hypotestesta eller göra KI för. F-fördelning när vi har kvoten mellan två varianser.
Numerisk variabel (2 sorter)
Mäter kvantitet. Finns kontinuerliga och diskreta. Kontinuerliga kan anta alla värden mellan ett intervall medan diskreta antar endast heltal.
Kategorisk variabel:
Mäter kvalitet. Finns ordinal och nominal. Ordinal innebär att man kan rangordna tex betyg, klädesstorlek etc. Nominala har ingen logisk sekvens, som ex kön, religion, politiska preferenser etc.
Goodness-of-fit test:
(anpassningstestet) ger svar på hur bra en statistisk modell passar till den observerade datan. Följer observationerna en förmodad fördelning? Man vill avgöra om fördelningen på en variabels data uppstått av slump eller följer systematik. Ex, för multinomiala experiment eller för att se om data är normalfördelad. (handlar om kategoriska data).
Test for Independence:
(homogenitetstestet) testar istället om variabler är oberoende eller beroende av varandra. Ex om män är mer benägna att rösta på Moderaterna eller om politiska preferenser är oberoende av kön.
Skillnad i goodness respektive independence:
Att goodness bara testar en stokastisk variabel och hur väl den stämmer överens med en förväntad fördelning medan independence kan analysera två variabler för att se om de är oberoende.
Beroende variabel
den variabel vi mäter utfallet/effekten för. Ex produktiviteten vid olika frukostalternativ på jobbet (när vi har fler än 2 medelvärden att studera).
Oberoende variabel
en eller flera variabler som mäter orsaken för effekten på den beroende variabeln. Mäts alltid i nominalskala.
Beskriv kort de fyra olika ANOVA-varianterna:
•Envägs ANOVA: endast en oberoende variabel.
•Tvåvägs ANOVA: två oberoende variabler. Kallas även faktor.
•Oberoende ANOVA: olika individer i olika nivåer (grupper) för de oberoende variablerna. Alltså ingen interaktion.
•Beroende ANOVA: när vi har samma individer i olika nivåer för de oberoende variablerna, alltså med interaktion.
?
3 antaganden för envägs-ANOVA
- Normalfördelade populationer.
- Populationsstandardavvikelserna är okända men antas vara lika.
- Stickproven är oberoende för varje population (olika individer).
Varför behöver vi använda oss av ANOVA? Varför inte fortsätta med t-test för alla kombinationer av stickprovsmedelvärden?
- Jo för att ju fler sådana test vi gör desto mer missvisande blir alfa, alltså risken för typ 1 fel. Vi får inflation i alfa. T-test är bara till för att testa en hypotes, inte hypoteser som säger att flera olika parametrar är lika/olika.
Höger eller vänster svans på ANOVA?
Tester görs alltid på höger svans eftersom testet bygger på att vi vill se om variationen mellan grupper är större än inom grupper. (“större än” indikerar på högersvansen)
Envägs-ANOVA: SST=?
Den totala variationen i datamaterialet. Här delas den in i SSTR (mellangruppsvariationen) och SSE (inomgruppsvariationen, dvs slumpfaktorer).
Är vi ens intresserade av SST?
Nej egentligen inte, totala variationen kan vara beroende av datamängd, därav intresserar vi oss för den genomsnittliga (dela med frihetsgrader).
När förkastar vi envägsANOVA-hypotsen?
När mellangruppsvariationen (MSTR) är signifikant större än inomgruppsvariationen (MSE) för då är variationen i behandlingsgruppen mycket större än inom, det måste därav finnas en systematisk skillnad (som ej beror på slump).
Detta är testfunktionen: MSTR/MSE
Grand mean
Medelvärdet för hela datamaterialet
Post-hoc tester, 2st:
Tester man utför efter att man observerat datan och sett att det finns skillnad hos medelvärdena. Vi har pratat om Fisher’s least significant difference (LSD) samt Tukey’s honestly significant.
Beskriv Fishers
Variant av t-test som liknar den med poolad varians men som ist använder MSE som uttrycker den poolade variansen för samtliga grupper i datan. Använder testet när man först har förkastat nollhypotesen och konstaterat att alla ej är lika.
Beskriv Tukeys HSD
statistiskt starkare och kontrollerar typ1 fel och alfa bättre då det blir svårare att förkasta nollhypotesen i och med q-fördelning (tjockare och flackare svans än t).
Två olika varianter av Tukeys
en formel för balanserad data där alla grupper har lika många observationer och en annan formel för obalanserad data där grupperna inte har lika många observationer (n).
Tvävägs-ANOVA:
Består av 2 oberoende variabler/faktorer där man har möjlighet att se den ena variabelns påverkan givet att den andra är kontrollerad (block). Kan också undersöka för interaktionseffekter av de två variablerna.
SST i tvävägs-ANOVA
SST=SSTR (SSA) + SSE (SSB OCH SSE). Så vi har SSA i kolumn, SSB i rad och SSE som är slumpen vi lägger till inom grupperna.
Två F-tester med tvåvägs ANOVA block:
•Testa för treatments effects: alltså att jämföra det kritiska värdet med F värdet för den observerade gruppen (treatments). Alltså så enkelt som att titta på kolumnerna, SSA och jämföra MSA/MSE (vårt testvärde) med kritiska värdet.
•Testa för block effects: jämför det kritiska värdet med det observerade F värdet för blocken. Om vi förkastar så innebär det att inte alla medelvärden för blockpopulationerna är lika. Alltså testa raderna, MSB/MSE och jämföra med dess kritiska värde.
Om vi kan förkasta båda så innebär det att både rad och kolumn-variablerna påverkar resultatet. Ex att både utbildning och bransch påverkar lönenivån.
Interaktionseffekter
om den beroende variabeln Y’s påverkan av faktor A beror på nivån av faktor B, så existerar det interaktionseffekter. Men om påverkan på Y av faktorn A är samma för alla nivåer på faktor B så finns ej interaktionseffekter mellan de oberoende variablerna.
Tvåvägs ANOVA med interaktionseffekter:
Vi testar nu om Y påverkas av A på olika sätt om B är på olika nivå. Detta kräver multipla observationer av A och B.
SST vid tvåvägs ANOVA med interaktionseffekter:
SST=SSA + SSB + SSAB + SSE. Tillkommer nu en rad förutom rad och kolumn i tabellen som heter interaktion.
Om vi förkastar H0 att inga interaktionseffekter finns, vad händer då med analysen?
Om vi kan konstatera att det finns interaktionseffekter så blir tolkningen av ”main effects”, alltså tolkningen av hur populationsmedelvärdena förhåller sig till varandra komplicerad. Vi bör därför bortse från den tolkningen om vi kan förkasta H0. regressionsanalys istället
Hur ser noll- och alternativhypotesen ut i ANOVA?
I noll skriver vi alltid att alla medelvärden är lika med varandra medan vi i alternativ skriver in att åtminstone något medelvärde skiljer sig.
Kovarians
mäter riktningen på ett linjärt beroende mellan två variabler