Statistik - regression Flashcards
Vad innebär en korrelation?
Mellan vilka siffror brukar den beskrivas?
- Linjärt samband mellan två variabler
-
Relation/följsamhet (ej kausalt)
- Något ökar och det andra minskar/ökar ex
- Korrelationskoefficient r, rho eller tau
- -1 -< > 1
- Negativ innebär att den ena ökar och den andra minskar
- Ingen korrelation 0
Vilken metod väljer du vid korrelatinsanalys?
-
Pearson
- Två kvantitativa variabler båda normalfördelade
-
Spearman
- Övriga kombinationer (minst en som inte är normalfördelad)
Vad är en bra korrelation?
-
Pearson
- -1 till -0,7 och 0,7 till 1 – bra korrelation
- Om SD är högre än halva medelvärdet – indikator för att kurvan inte är normalfördelad
-
Spearman
- Passar också vid kvalitativ/kvantitativ liksom kvalitativ/kvalitativ
- -1 till -0,3 och 0,3 till 1 – bra korrelation
- Korrelationskoefficient så nära 1 eller -1 stämmer alltså inte riktigt
- Det står ju inte om det är Pearson eller Spearman
- Det kan stå i text, där resultaten kan diskuteras och det där framgår
- Men det kan också framgå om variablerna är kvantitativa eller inte
- TV-tittande – antal timmar
- Levnadsförhållanden – dikotom
- Ålder – antalet år
- Utbildning – antal år som läst
Med vilken metod har detta analyserats?
- Kvalitativ variabel som har tre eller fler kategorier blir det Spearman
- Kvalitativ variabel som är dikotom kan man använda Pearson men ovan med TV-tittande och levnadsförhållande kan ändå tittas på med Pearson eller Spearman
- Hon brukar göra bägge, du kan ändå landa i Spearman eftersom variabeln är kvalitativ
- Multivariabel analys
- Tre eller fler variabler som tillsammans påverkar en annan variabel
Definitionen av linjär regression är att vi har??
- En variabel (y, beroende) som ska förklaras med hjälp av ett antal andra variabler (x, oberoende)
- Krav som ska uppfyllas för en linjär regression?
- Vad är en x-variabel?
-
Y-variabeln (kvantitativ och normalfördelad (kanske inte perfekt))
- Vi har en diagnos – Y-variabel (ska förklaras med hjälp av andra variabler)
- Det är denna som styr om vi får göra en linjär regression
-
X-variablerna är:
- Allt som påverkar diagnosen – markörer, vikt, rökning –> x-oberoende variabel
- Rökning, vikt, motion, olika markörvärden
- Kvantitativ och normalfördelad
- Kvalitativ men dikotom (ena eller andra svaret, 1, 0), ibland fler
- Allt som påverkar diagnosen – markörer, vikt, rökning –> x-oberoende variabel
- I en och samma regression finns båda typerna av x-variabler
Inför linjär regression
- Hur väljer jag ut mina x-variabler?
- Läsa andra studier
- Allmänt vedertagna faktorer som vi vet påverkar och därför samlar in
- Nytt forskningsområde, eventuellt ta hjälp av expertgrupp och bolla frågor
Men oavsett ingång till val av x-variabler så börjar man med korrelation inför regression
Hur gör vi detta och varför?
-
Vi gör en korrelationsanalys för att hitta de x-variabler som har korrelation till y-variabeln (statistiskt lämpliga för att plocka med till regression)
- Ex genom att vi har en massa variabler vi samlat in och därför prövar för korrelation gentemot y-variablen (en i taget)
- För att se om vi hittar bra korrelation mellan respektive x-varibel
- Om korrelation är bra så innebär det att x-variabel är av intresse och kan komma med i regression)
-
Vi gör också korrelationsanalys på de x-variabler som vi valde ut i steg 1 kolineraritet
- Hur ser det ut mellan de utvalda x-variablerna – finns det samband – JA –> kolineraritet –> inte bra då de ska vara oberoende!! Att likställa med CONFOUNDER i epidemiologi!
Hur hanterar vi kolinearitet?
- Slå ihop de x-variabler som har kolinearitet med hjälp av en matematisk formel
- Ex räkna BMI på vikt och längd
- Gör ett antal regressioner där vi har med, skiljer dem åt och utesluter de x-variabler som har kolinearitet
- Plocka ut x-variabel 1 och jämför med andra x
- Plocka ut x-variabel 2 och jämför med andra x
- Plocka bort både 1 och 2 och jämför alla andra x med varandra
- Utifrån detta kan vi välja den bästa regressionen utefter checklista!
Vad är y- och x-variabel?
- y-variabel – TV-tittande
- Ibland i bakgrund, syfte osv
- x-variabel inne i tabellen
Tolkning med checklista!
- Är hela regressionen signifikant?
- Är konstanten signifikant? (skärningspunkt för y-axeln
- Är x-variablerna signifikanta?
-
Är hela regressionen signifikant?
- Ja p-värde är mkt lågt
-
Är konstanten signifikant? (skärningspunkt för y-axeln
- Skärningspunkt på y-axel
- Nej constanten är inte signifikant, vilket är problem
-
Är x-variablerna signifikanta?
- Nej inte ålder
Tolkning med checklista!
Nästa steg blir en ny regression där ålder plockas bort
Hur ser det ut nu?
-
Detta är sättet som vi hanterar kolineraritet!
- Uppfyller nu krav för signifikans
Övriga bokstäver
- t – ganska ointressant men är den som genererar p-värdet
Vad står R2 eller Adj R2 för?
Hur stor del av förklaringen till y står x-variabler för!!!!
- 56,3 % (Adj R2 brukar vara en lite lägre siffra)
- Berättar att x-variabler tillsammans förklarar 56,3 % av TV-tittandet
- Berättar att x-variabler tillsammans förklarar 56,3 % av TV-tittandet
Är vi nöjda med förklaringsgraden?
- Vad är syftet med regressionen? Vad är vår förväntning på förklaringsgrad?
- Vilka faktorer som påverkar diagnos – kräver hög förklaringsgrad
- Vid rökning kan ex förklaringens vara lägre vid cancerutveckling
- Längd påverkar inte att vi får lungcancer – förväntningen är låg förklaringsgrad
Så är förklaringsgraden vid regression sanning?
- Kom ihåg att glassar i sig inte leder till drunkning
- Är det vi tittar på relevant, gör en värdering!
- Vi tittar i någon mån på kausalt samband, men gör det med sans!