5. predavanje: Uvod u regresijsku analizu Flashcards
Navesti razliku između reziduala ei
i pogreške εi.
Rezidual je razlika između opažene vrijednosti yi i predviđene vrijednosti ŷi. Pogreška je razlika između opažene vrijednosti yi i stvarne (očekivane) vrijednosti µy|x.
Za što je moguće koristiti regresiju?
- Predviđanje: procjena izlaza y za novi X
- Deskriptivna analiza podataka: usporedba
srednjih vrijednosti kroz grupe podataka - Modeliranje uzročnosti: razumijevanje kako
se izlaz y mijenja, ako manipuliramo
prediktorima X
Interpretirati procijenjene parametre β za slučaj jednog binarnog prediktora Xi.
- β1: očekivana vrijednost za točke s Xi = 0
- β2: razlika u očekivanim vrijednostima
između točaka s Xi = 1 i Xi = 0
Interpretirati procijenjene parametre β za slučaj jednog kontinuiranog prediktora Xi.
- β1: očekivana vrijednost za točke s Xi = 0
- β2: razlika u očekivanim vrijednostima
između točaka čija se vrijednost Xi razlikuje za 1
Interpretirati procijenjene parametre β za slučaj jednog kontinuiranog i jednog binarnog prediktora Xi.
Subpopulacije imaju isti nagib (vrijednost parametra β uz kontinuirani prediktor), međutim razlikuju se u pomaku (ovisno o tome je li binarni prediktor uključen ili ne).
Interpretirati procijenjene parametre β za slučaj interakcije jednog kontinuiranog i jednog binarnog prediktora Xi.
- β1: očekivana vrijednost za točke s Xi = 0, Xj =
0 - β2 (binarni): razlika u očekivanim
vrijednostima između točaka s Xi=0 i Xi=1,
za Xj = 0 - β3 (kontinuirani): razlika u očekivanim
vrijednostima između točaka čija se vrijednost
Xi razlikuje za 1, za Xi = 0 - β4 (interakcija): razlika u nagibima
Definirati p-vrijednost u kontekstu procjene parametara β.
Vjerojatnost procjene takvog koeficijenta ili ekstremnijeg ako je stvarni koeficijent nula (=H0 hipoteza).
Definirati udio varijance objašnjene modelom, R^2.
R^2 = 1 - varijanca(rezidual)/varijanca(pogreška)
Definirati SST, SSR i SSE i povezati ih jednakošću.
- SST = sum_i (yi - ȳ)^2
- SSE = sum_i (yi - ŷ)^2
- SSR = sum_i (ŷ - ȳ)^2
- SST = SSE + SSR
Iskazati koeficijent determinacije, R^2 korištenjem SSR, SST i SSE.
- R^2 = SSR/SST
- R^2 = 1 - SSE/SST
Navesti pretpostavke u regresijskom modelu.
- valjanost
- aditivnost i linearnost
- nezavisnost pogrešaka: nema interakcije
između ulaza - konstanta varijanca reziduala
- normalnost reziduala
Opisati pretpostavku valjanosti u regresijskom modelu.
a. izlazne vrijednosti trebaju točno odražavati
fenomen od interesa
b. model treba uključivati sve relevantne
prediktore
c. model treba generalizirti na slučajeve na
koje će se primjenjivati
Opisati pretpostavku aditivnosti i lineranosti u regresijskom modelu.
Model je linearan u koefijentima (ne nužno u čistim varijablama); prediktori mogu biti arbitrarne funkcije čistih ulaznih vrijednosti.
Navesti transformacije prediktora i izlaza.
a) prediktori centrirani oko srednjih vrijednosti:
Xik ← Xik − mean(X1k, …, Xnk), 𝛽k = srednja
vrijednost porasta izlaza y za svaku jedinicu
porasta Xik
b) standardizacija via z-scores:
Xik ← [Xik − mean(X1k, …, Xnk)] / sd(X1k, …,
Xnk), omogućava nam usporedbu
koeficijenata za prediktore sa prethodno
neusporedivim jedinicama mjere
c) logaritmi izlaznih vrijednosti: aditivni model
postaje multiplikativni