Linearna regresija Flashcards
Kaj je linearna regresija?
Linearna regresija pomeni napovedovanje (predikcijo) vrednosti odvisne spremenljivke (kriterija) na osnovi vrednosti neodvisne spremenljivke (napovednika, prediktorja), pri čemer je med spremenljivkama linearen odnos.
Kaj je regresijska analiza?
Regresijska analiza je statistična metoda, katere namen je:
* pojasnjevanje (v kolikšni meri lahko varianco odvisne spremenljivke pojasnimo z vplivom neodvisne spremenljivke),
* napovedovanje (praktična uporaba pri napovedovanju rezultatov za dejanske udeležence; npr. verjetnost, da bo pri enem
pacientu neko zdravilo učinkovalo).
Poznamo več vrst regresijske analize, najenostavnejša in tudi najpogosteje uporabljena je linearna regresijska analiza, poznamo pa tudi nelinearno regresijsko analizo. Kadar preverjamo vpliv ene spremenljivke, govorimo o enostavni/bivariantni regresijski analizi, v primeru preverjanja vplivov več spremenljivk govorimo o večkratni/multipli regresijski analizi.
Kaj je rezervni diagram (scatterplot)
Je vrsta grafa, ki ga bomo pogosto srečali pri regresijski in korelacijski analizi. Gre za zelo
preprost prikaz odnosa med spremenljivkami. Na abscisi je prikazan napovednik (neodvisna spremenljivka), na ordinatni osi pa kriterij (odvisna spremenljivka). Pike oziroma krožci predstavljajo posamezne rezultate udeležencev.
Naštej in opiši načine napovedovanja rezultatov na podlagi podatkov in kako se med seboj ločijo?
Načini se med seboj ločujejo po kvaliteti (točnosti). Kvaliteto (točnost) računamo po principu najmanjših kvadratov (vsota kvadriranih vrednosti med napovedano in dejansko vrednostjo). Kvalitetna napoved je tista, pri kateri je vsota kvadratov najmanjša. Načini napovedovanja so:
* aritmetična sredina (če ne poznamo vrednosti neodvisne spremenljivke).* Primer: napovedati moramo višino 3 Slovencev, najboljša napoved bi bila, da so vsi visoki 178 cm. *
* pogojna aritmetična sredina: če poznamo vrednost spremenljivke. Za vsako skupino, ki imajo enako vrednost neodvisne spremenljivke, izračunamo njihovo povprečno vrednsot odvisne spremenljivke. *Primer: udeleženci stari 30 let so v povprečju visoki 180cm, 40 let 177cm, 50 let pa 175cm. Če bi morali napovedati višino nekega moškega in vemo, da je star 50 let, bi bila napoved 175cm verjetno bolj točna kot napoved 178 cm. *
Kaj je regresijska premica? Kako najdemo regresijsko premico?
Lahko se izkaže, da pogojne aritmetične sredine ležijo na premici. Takrat lahko rečemo, da je odnos med spremenljivkama linearen, premico pa poimenujemo regresijska premica. Ta premica je množica napovedanih vrednosti odvisne spremenljivke (označimo z Y’).
Iskanje regresijske premice naredimo s pomočjo enačbo regresijske premice:
𝑌
′ = 𝑎 + 𝑏 ⋅ 𝑋
a = regresijska konstanta oz. presečišče, pove nam vrednost Y’, ko je X = 0 (kot n v linearni funkciji)
b = regresijski nagib oz. utež, pove nam za koliko se spremeni apovedna vrednost Y’, če se vrednost X poveča za eno enoto (kot k v linearni funkciji)
Kaj je regresijski nagib? Regresijska konstanta? Kako ju izračunamo?
Regresijski nagib je odvisen od povezanosti obeh spremenljivk (r = koeficient variacije) in od variabilnosti obeh spremenljivk.
Regresijska konstanta je odvisna od aritmetičnih sredin obeh spremenljivk in od regresijskega nagiba.
Formula (res raj poglej na list)
𝑏𝑌𝑋 =
𝑛 ⋅ ∑(𝑋 ⋅ 𝑌)− ∑𝑋 ⋅ ∑𝑌
𝑛 ⋅ ∑(𝑋2)− (∑𝑋)
2
𝒂𝒍𝒊 𝑏𝑌𝑋 =
𝑐𝑜𝑣𝑋𝑌
𝑉𝐴𝑅𝑋
= 𝑟𝑌𝑋 ⋅
𝑆𝐷𝑌
𝑆𝐷𝑋
𝑎𝑌𝑋 = 𝑌̅ −𝑏𝑌𝑋 ⋅ �
Kaj je napaka napovedi?
Pri nekaterih regresijskih premicah krožci (dejanske, izmerjene
vrednosti Y) vrednosti malo odstopajo od regresijske premice (na kateri so napovedane vrednosti Y’), pri drugih pa je odstopanje večje. Odstopanju pravimo tudi napaka napovedi. Napako zračunamo kot razliko med dejansko in napovedano vrednostjo posameznega rezultata:
𝑒 = 𝑌 − 𝑌′
Napaka napovedi je lahko pozitivna ali negativna. Če je regresijski model pravilen, se vsote napak med sabo izključijo (torej je njihova vsota enaka 0); vsota kvadratov odklonov (s kvadriranjem se znebimo predznaka) pa minimalna:
∑(𝑌 −𝑌’) = 0 𝑖𝑛 ∑(𝑌 − 𝑌′)na2 = 𝑚𝑖n
Če zgornjo enačbo nekoliko obrnemo, bi lahko rekli tudi, da je
vrednost odvisne spremenljivke enaka vsoti njene napovedane
vrednosti in napake, oziroma:
𝑌 = 𝑌′ + e
Kaj je variabilnost?
Variabilnost je odstopanje odvisne vrednosti od aritmetične sredine. Če velja zgornja predpostavka, lahko rečemo tudi, da je odstopanje odvisne spremenljivke od povprečja enako vsoti odstopanja njene
napovedane vrednosti in njene napake, oziroma:
𝑌 − 𝑌̅ =(𝑌′ − 𝑌̅)+(𝑌 − 𝑌′)
Dobili smo tri različne odklone:
* odklon dejanske vrednosti od povprečja,
* odklon napovedane vrednosti od povprečja,
* odklon napovedane vrednosti od dejanske vrednosti
(napaka).
Kaj je varianca?
Če izračunamo odklone (dejanske vrednosti od povprečja, napovedane vrednosti od povprečja, napovedane vrednosti od dejanske vrednosti = napaka) za vse udeležence, jih kvadriramo in seštejemo dobimo vsoto kvadratov (SS). Če vsoto kvadratov delimo z numerusom, dobimo varianco (oziroma natančneje, tri vrste variance).
* **Skupna varianca **nam pove, v kolikšni meri dejanske vrednosti odstopajo od aritmetične sredine. Razdelimo jo lahko na pojasnjeno in nepojasnjeno varianco.
* Pojasnjena varianca nam pove, v kolikšni meri napovedane od aritmetične sredine odstopajo
napovedane vrednosti. Pojasnjena ji pravimo zato, ker jo lahko pojasnimo regresijskim modelom oziroma z nam znanimi dejavniki (odnosom med spremenljivkama).
* Nepojasnjena varianca (tudi varianca ostankov ali napak) nam pove, v kolikšni meri dejanske vrednosti odstopajo napovedane vrednosti. Odklonov ne moremo pojasniti, saj so posledica neznanih, slučajnih dejavnikov.
Kaj je standardna napaka napovedi? Kaj nam omogoča?
Standardna napaka napovedi je standardni odklon ostankov. Pove nam, v kolikšni meri se regresijska premica prilega dejanskim podatkom (visoke vrednosti pomenijo slabše, nižje pa boljše prileganje). (Poglej si formulo).
Standardna napaka napovedi nam omogoča dvoje:
* pove nam kako natančno je naše napovedovanje (npr. če je standardna napak napovedi 1 kg, bomo lahko na osnovi podatkov s točnostjo +/- 1 kg napovedali težo posameznika),
* omogoča nam tudi izdelavo napovednih intervalov (intervalna ocena odvisne spremenljivke; interval, v katerem lahko z določeno stopnjo gotovosti pričakujemo vrednost odvisne spremenljivke).
Napovedni interval je veljaven le, če so odvisne vrednosti pri določeni vrednosti neodvisne spremenljivke normalno porazdeljene (to moramo preveriti).
Kaj je koeficient determinacije?
Koeficient determinacije prikazuje odnos med pojasnjeno in skupno varianco. Z vidika **pojasnjevanja nam pove, kolikšen delež variance celotne spremenljivke lahko pojasnimo z variiranjem neodvisne spremenljivke (poenostavljeno bi lahko rekli tudi, da nam pove, v kolikšni meri neodvisna spremenljivka vpliva na variiranje odvisne spremenljivke). Z vidika napovedovanja nam pove tudi, kako kakovosten je naš regresijski model (koeficient 0 bi pomenil, da kriterija na osnovi prediktorja ne moremo napovedati;
koeficient 1 bi pomenil, da ga lahko napovemo brez napake; koeficient med 0 in 1 pa nam pove, kolikšen odstotek vrednosti kriterija lahko napovemo na osnovi odnosa s prediktorjem). Lahko si ga zamišljamo tudi kot vrednost, ki nam pove, v kolikšni meri se bodo točke prilegale regresijski premici** (večji ko je koeficient, bolj se bodo prilegale). Izračunamo ga lahko kot razmerje med pojasnjeno in skupno varianco, kot produkt obeh regresijskih nagibov ali kot kvadrat Pearsonsonovega koeficienta korelacije.
Kako izračunamo interval zaupanja pri linearni regresiji?
Vzorčni nagib b je nepristranska cenilka bpop. Porazdelitev vzorčnih ocen je simetrična, tako da lahko uporabimo standardni postopek za izračun intervala zaupanja. Iz formule za standardno napako lahko vidimo, da bo ocena korelacija natančnejša v
primeru večjega vzorca ali višjega koeficienta korelacije (takrat bo standardna napaka manjša). Manjšo korelacijo ko pričakujemo, večji vzorec moramo izbrati, da bomo lahko bolj točno napovedovali.
𝐼𝑍 = 𝑏𝑦𝑥 ± 𝑆𝐸𝑏 ⋅ 𝑡(𝑑𝑓)𝑝 ; 𝑑𝑓 = 𝑛 − 2 ; 𝑆𝐸𝑏(𝑦𝑥) = √
(1 − 𝑟
2) ⋅ 𝑉𝐴𝑅𝑦
(𝑛 −2) ⋅ 𝑉𝐴𝑅x
Kdaj sprejmemo domneve v linearni regresiji?
Če je dobljena p vrednost manjša od stopnje tveganja (oz. testna statistika večja od kritične vrednosti), sprejmemo H1. Zaključimo,
da je med spremenljivkama statistično značilen linearen odnos (ne pove pa nam kaj dosti o naravi odnosa).
Hipoteze:
𝐻0: 𝑏𝑝𝑜𝑝 = 0 (𝑚𝑒𝑑 𝑠𝑝𝑟𝑒𝑚𝑒𝑛𝑙𝑗𝑖𝑣𝑘𝑎𝑚𝑎 𝑛𝑖 𝑧𝑛𝑎č𝑖𝑙𝑛𝑒𝑔𝑎 𝑙𝑖𝑛𝑒𝑎𝑟𝑛𝑒𝑔𝑎 𝑜𝑑𝑛𝑜𝑠𝑎)
𝐻1: 𝑏𝑝𝑜𝑝 ≠ 0
Testna statistika
č𝑒 𝑣𝑒𝑙𝑗𝑎 𝐻0:
𝑏
𝑆𝐸𝑏
~ 𝑡 (𝑑𝑓) ; 𝑑𝑓 = 𝑛 − 2 ; 𝑆𝐸𝑏(𝑌𝑋) = √
(1 − 𝑟
2) ⋅ 𝑉𝐴𝑅𝑦
(𝑛 − 2) ⋅ 𝑉𝐴𝑅�
Naštej in opiši predpostavke v linearni regresiji
- **Naključno vzorčenje **
Ta predpostavka je skupna vsem statističnim postopkom. Paziti moramo, da ima vsak udeleženec iz populacije enako možnost, da je izbran v vzorec. -
Linearnost odnosa med spremenljivkama
Linearnost odnosa navadno ugotavljamo z grafom, pri katerem so na x osi napovedane vrednosti, na osi y pa ostanki. Kadar so vse napovedane vrednosti enakomerno porazdeljene nad in pod aritmetično sredino (slika desno spodaj) lahko zaključimo, da je odnos linearen. Če na grafu najdemo vzorce (območja, kjer so vrednosti sistematično nizke oz. visoke), lahko sklepamo, da odnos ni linearen (slika desno zgoraj). - **Merska raven spremenljivk **
Prediktor mora biti vsaj intervalen oz. je lahko dihotomen (tj. nominalna spremenljivka s samo dvema kategorijama), kriterij pa vsaj intervalen. Na tem mestu lahko tudi omenimo, da kriterij ne sme imeti omejenega variiranja. Večina podatkov, ki jih zbiramo s psihološkimi testi, imajo omejen razpon možnih vrednosti (npr. najmanjši ali največji možni dosežek), vendar to ne predstavlja resnega problema, če je delež podatkov v bližini zgornje ali spodnje meje možnega razpona zelo majhen.
Homoskedastičnost (homogenost varianc)
Ponovno uporabimo graf med napovedanimi vrednostmi in (absolutnimi) ostanki. Kadar so velikosti standardnih napak pri vseh napovedanih vrednostih približno enako velike (leva slika), lahko zaključimo, da so variance homogene. Če na grafu najdemo vzorce (območja, kjer so velikosti ostankov / odstopanja od aritmetične sredine sistematično večja oz. manjša), lahko sklepamo, da variance niso homogene (desna slika: sistematično manj natančno napovedovanje pri višjih vrednostih).
Normalnost porazdelitve ostankov
Ponovno uporabimo graf med napovedanimi vrednostmi in ostanki in iščemo morebitne vzorce. Druga možnost je uporaba grafa normalnosti ostankov (histogram ali normalni verjetnostni graf). Lahko pa uporabimo tudi teste hipoteze normalnosti.
Naši podatki kršijo predpostavke potrebne za regresijsko analizo. Kako to rešimo?
Najbolj problematično je, če je kršena predpostavka o linearnosti (če odnos med spremenljivkama ni linearen, potem že sama linearna regresija ni smiselna). Lahko poskušamo transformirati podatke, vendar pri nekaterih podatkih ne bo uspešna nobena transformacija, včasih pa tudi težko najdemo dobro transformacijo. Ena izmed možnosti je uporaba nelinearne regresije