Mere povezanosti Flashcards
Kaj so razlike med regresijsko in korelacijsko analizo (obe uporabljamo za ugotavljanje linearne povezanosti)
Za ugotavljanje linearne povezanosti med dvema intervalnima spremenljivkama lahko uporabimo tako regresijsko kot korelacijsko
analizo. Oba tipa analize sta povezana, vendar med njima obstaja nekaj pomembnih razlik:
* obe analizi lahko uporabimo za merjenje smeri in moči linearnega odnosa med spremenljivkama, regresijska analiza pa
nam omogoča tudi napovedovanje, kako napovednik (X) vpliva na spremembe kriterija (Y);
* rezultat korelacijske analize je torej vrednost statistike, rezultat regresijske analize pa statistični model (enačbo premice);
* pri korelacijski analizi predpostavljamo, da sta tako X in Y naključni spremenljivki (npr. višina, teža, krvni tlak itd.), pri
regresiji pa predpostavljamo da je X fiksna spremenljivka in merjena brez napake (npr. temperatura, doza zdravila);
* posledično lahko pri korelacijski nalizi X in Y zamenjamo (dobili bomo enak rezultat), pri regresijski analizi pa ne; pravimo
da je korelacija simetrična.
Kaj je kovarianca?
Vsak udeleženec/enota ima dve vrednosti: vrednost spremenljivke X in vrednost spremenljivke Y (npr. nek študent je na prvem testu dosegel 65 točk, na drugem testu pa 80 točk). Za vsakega udeleženca lahko izračunamo odklon obeh vrednosti od povprečjaspremenljivke (torej odklon 65 od povprečja prvega testa in odklon 80 od povprečja drugega testa). Kovarianca je povprečni
produkt teh odklonov.
Kaj nam v kovarianci pove predznak?
Predznak kovariance nam pove smer povezanosti. Rdeče točke predstavljajo pozitivne
produkte (ko sta oba faktorja pozitivna ali negativna), modre točke pa negativne
produkte (ko je eden izmed faktorjev pozitiven, drug pa negativen).
Od česa je odvisna višina kovariance?
Višina kovariance je odvisna tako od višine povezanosti, kot od
razpršenosti spremenljivk.
Kako dobimo Pearsonov koeficient korelacije?
Če kovarianco delimo s standardnim odklonom obeh
spremenljivk, jo standardiziramo (s tem dosežemo, da koeficient odraža samo
povezanost, ne pa več razpršenosti). Dobimo Pearsonov koeficient korelacije.
Kaj je Pearsonov koeficient korelacije
Pearsonov koeficient korelacije uporabljamo za opis velikosti povezanosti dveh spremenljivk, v kontekstu linearne regresije pa
višina Pearsonovega r odraža tudi natančnost napovedovanja (bolj kot sta spremenljivki povezani, bolj natančno je
napovedovanje). Izračunamo ga kot standardizirano vrednost kovariance
Kaj je korelacija?
je mera linearne povezanosti, ki nam pove stopnjo sovariiranja dveh spremenljivk (pričakujemo, da se bo ob spremembi
ene spremenljivke spremenila tudi druga spremenljivka)
Naštej in opiši pomembne lastnosti Pearsonovega koeficienta korelacije.
Pomembne lastnosti Pearsonovega koeficienta korelacije:
* predpostavlja vsaj intervalni tip obeh analiziranih spremenljivk (oziroma dihotomnost ene od spremenljivk)
* zavzema lahko vrednosti med -1 in 1:
* je simetričen: rxy = ryx
* ni občutljiv na linearne pretvorbe (npr. če vse vrednosti standardiziramo, bo korelacija še vedno enaka)
* korelacija nam pove le, kako močna je povezava med dvema spremenljivkama, ne pove pa nam ničesar o vzročnosti
(izmerjena korelacija je lahko posledica enosmerne, vzajemne, krožne vzročne zveze ali skupnega vzroka brez neposredne
vzorčne povezave)
* interpretiramo ga glede na predznak (pove smer) in višino (spodaj primer za Cohenove mere)
Povezanost r Pri interpretaciji moramo biti pazljivi, saj so lahko
mere relativne (npr. povezanost 0,5 med dvema
testoma IQ zelo nizka, med testom IQ in reakcijskim
časom pa zelo visoka). Pri interpretaciji vedno
upoštevamo naravo podatkov in raziskovalnega
problema, pomagamo pa si lahko tudi s koeficienti
korelaciji, ki so jih izmerili v podobnih študijah.
Kako na regresijsko premico vplivajo ekstremne vrednosti? Kako na korelacijo?
Na regresijsko premico najmočneje vplivajo tiste točke, ki so najbolj oddaljene od povprečja napovednika in kjer je napaka velika,
medtem ko vrednosti, ki ležijo na premici na enačbo premice ne vplivajo. Na korelacijo vplivajo tako ene kot druge točke (bližnje
in oddaljene).
PRIMER: Ko smo podatkom dodali ekstremno vrednost (druga slika), se je spremenil tako korelacijski koeficient, kot regresijska
premica. Ko smo podatkom dodali vrednost, ki leži na regresijski premici (tretja slika), se spremeni le korelacija.
Kako na regresijsko premico vpliva selekcija (omejenost obsega)
Omejenost obsega je primer neustreznega vzorčenja, kjer smo izbrali vzorec, ki ne predstavlja značilnosti populacije (primer:
delovanje nekega zdravila smo preverili samo na starejših ljudeh, ne vemo pa, ali učinkuje tudi na mlade).
PRIMER: Ko smo iz analize izločili polovico populacije, se je korelacija zmanjšala, ko pa smo izločili vse rezultate, s povprečnimi
vrednostmi, se je korelacija umetno povečala
Kako poteka statistično sklepanje v Pearsonovem R?
Asimetričnost korelacije
Simulirali smo populacijo s koeficientom korelacije 0,80. Iz populacije smo izvlekli 10 000
naključnih vzorcev in za vsak vzorec izračunali koeficient korelacije. Predvidevamo lahko, da bo
koeficient znotraj vsakega vzorca nekoliko drugačen, bolj pa nas zanima razporeditev vzorčnih
ocen. Iz grafa porazdelitve na desni vidimo, da so bila odstopanja navzdol nekoliko višja od
odstopanj navzdol (do 0,15 navzdol in do 0,1 navzgor). To je pričakovano: korelacija 0,8 lahko
navzgor odstopa za največ 0,2 vrednosti, navzdol pa lahko (vsaj v teoriji) odstopa do -1,8
vrednosti. Porazdelitev je asimetrična (torej ni normalna).
Izračun intervala zaupanja
Dobra stvar Pearsonovega koeficienta je, da je statistika r skoraj nepristranska cenilka ρ (korelacija v populaciji). Če želimo vseeno
izračunati interval zaupanja, zaradi asimetričnosti porazdelitve ne moremo uporabiti običajne formule. Uporabimo lahko
Fischerjevo pretvorbo ali zankanje (interval zaupanja izdelamo na osnovi porazdelitve vzorčnih ocen koeficienta).
Fischerjeva pretvorba
Postopek: Korelacijo pretvorimo v Fischerjevo vrednost (zr), izračunamo interval zaupanja, nato pa meje intervala pretvorimo
nazaj v vrednosti r.
𝐼𝑍 = 𝑧𝑟 ± 𝑆𝐸𝑧𝑟 ⋅ 𝑧𝑐
; 𝑧𝑟 = 0,5 ⋅ ln (
1 + 𝑟
1 −3
) ; 𝑆𝐸𝑧𝑟 =
1
√𝑛 − 3
; 𝑧𝑐 ~ 𝑁(𝑧𝜌, 𝑆𝐸𝑧𝑟)
M e r e p o v e z a n o s t i | 57
Preizkušanje domnev
Če je dobljena p vrednost manjša od stopnje tveganja (oz. testna statistika večja od kritične vrednosti), sprejmemo H1. Zaključimo,
da je korelacija statistično značilna. To nam pove le, da korelacija ni enaka 0 (ne pove pa nam ničesar o višini korelacije).
Hipoteze:
𝐻0: 𝜌 = 0
𝐻1: 𝜌 < 0 𝑎𝑙𝑖 𝜌 > 0 (𝑚𝑎𝑛𝑗 𝑝𝑜𝑔𝑜𝑠𝑡𝑜 𝜌 ≠ 0) → posledično navadno uporabljamo usmerjeno testiranje
Lahko tudi:
𝐻0: 𝜌𝑥𝑦=𝜌ab (𝑎𝑙𝑖 𝑗𝑒 𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑖𝑗𝑎 𝑚𝑒𝑑 𝑑𝑣𝑒𝑚𝑎 𝑟𝑎𝑧𝑙𝑖č𝑛𝑖𝑚𝑎 𝑠𝑝𝑟𝑒𝑚𝑒𝑛𝑙𝑗𝑖𝑣𝑘𝑎𝑚𝑎 𝑒𝑛𝑎𝑘𝑎)
𝐻0: 𝜌𝑥𝑦 = 𝜌𝑥𝑧 (𝑎𝑙𝑖 𝑒𝑛𝑎 𝑠𝑝𝑟𝑒𝑚𝑒𝑛𝑙𝑗𝑖𝑣𝑘𝑎 𝑒𝑛𝑎𝑘𝑜 𝑘𝑜𝑟𝑒𝑙𝑖𝑟𝑎 𝑧 𝑑𝑣𝑒𝑚𝑎 𝑟𝑎𝑧𝑙𝑖č𝑛𝑖𝑚𝑎)
𝐻0: 𝜌𝑥𝑦1 = 𝜌𝑥𝑦2 (𝑎𝑙𝑖 𝑠𝑡𝑎 𝑑𝑣𝑒 𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑖𝑗𝑖 𝑣 𝑑𝑣𝑒ℎ 𝑟𝑎𝑧𝑙. 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑗𝑎ℎ 𝑒𝑛𝑎𝑘𝑜 𝑣𝑖𝑠𝑜𝑘𝑖)
Testna statistika
č𝑒 𝑣𝑒𝑙𝑗𝑎 𝐻0:
𝑟
𝑆𝐸𝑟
~ 𝑡 (𝑑𝑓) ; 𝑑𝑓 = 𝑛 −2 ; 𝑆𝐸𝑟 = √
1− 𝑟
2
𝑛 − 2
Kdaj so ordinalne povezanosti uporabne?
Uporabne so pri ugotavljanju povezanosti med:
* ordinalnimi spremenljivkami ali intervalnimi spremenljivkami, ordinalnih spremenljivkah
* intervalnimi spremenljivkami, kadar je kršena katera izmed pomembnejših predpostavk za izračun Pearsonovega r (npr.
odnos med spremenljivkama ni linearen) ali če imamo v vzorcu ekstremne vrednosti, ki lahko vplivale na statistično
analizo (mere ordinalne povezanosti so manj občutljive na ekstreme).
Kaj je stopnja monotonosti povezave in kako jo ocenjujemo?
Stopnjo monotonosti povezave ocenjujemo z merami ordinalne povezanosti. Monotonost povezave pomeni, da se obe spremenljivki sočasno višata oz. nižata (če naraščajo vrednosti spremenljivke X, naraščajo tudi vrednosti Y in obratno). Statistično značilnost preverjamo preko znaninih porazdelitvenih rangov. Glavna omejitev teh mer je, da ni neposredne povezave med odstotkom pojasnjene variance in napovedovanjem. Napovedovanje je sicer možno, ampak je uporaba precej bolj kompleksna kot pri linearni regresiji.
Kaj je Spearmanov koeficient korelacije?
Spearmanov koeficient korelacije (ρ ali rs) je neparametrična korelacija med rangi oz. rangiranimi vrednostmi dveh spremenljivk
in ga uporabljamo za oceno konsistentnosti smeri povezave oz. monotonosti povezave med dvema spremenljivkama.
Spremenljivki sta lahko v (pozitivnem ali negativnem) monotonem odnosu, ne glede na to, ali je ta odnos linearen ali nelinearen.
Spearmanov ρ lahko izračunamo kot Pearsonov r med absolutnimi rangi dveh spremenljivk in lahko zaseda vrednosti med –1 in 1.
Interpretacija tega koeficienta je zato enaka kot pri Pearsonovem r, le da se nanaša na range, ne pa na surove vrednosti
spremenljivk.
PRIMER: Izračunajmo Spearmanov koeficient korelacije za spodnje podatke.
Najprej vse vrednosti pretvorimo v absolutne range. Spearmanov koeficient izračunamo enako kot Pearsonovega, le med rangi.
V zgornjem primeru ρ znaša 0,40.
Kaj je Kendallov τ?
Kendallov τ je prav tako neparametrična mera korelacije za spremenljivke na ordinalni merski ravni (je prav tako neparametrična mera korelacije za spremenljivke na ordinalni merski ravni ( lahko uporabimo tudi v
primeru kombinacije ordinalne in dihotomne spremenljivke!). Medtem ko lahko Spearmanov ρ obravnavamo (in interpretiramo)
kot Pearsonov r (le da je ρ izračunan iz rangiranih vrednosti), Kendallov τ predstavlja verjetnost, in sicer razliko med verjetnostjo,
da so vrednosti obeh spremenljivk urejene v istem vrstnem redu, in verjetnostjo, da so vrednosti obeh spremenljivk urejene v
povsem obratnem vrstnem redu. V splošnem ga torej izračunamo kot razmerje med razliko med skladnimi in neskladnimi pari in
vsemi možnimi (neponovljenimi) pari.
Če za par opazovanj oseb i in j velja, da je (xi > xj in yi > yj) ali (xi < xj in yi < yj), je ta par skladen ali urejen (ujemanje). Primer: če se
je nek udeleženec učil več od drugega udeleženca (v paru), je dobil boljšo oceno. Če pa velja, da je (xi > xj in yi < yj) ali (xi < xj in yi >
yj), je ta par neskladen ali neurejen (neujemanje). Primer: nek udeleženec se je učil več od drugega udeleženca (v paru), vendar je
vseeno dobil slabšo oceno.
Para sta torej skladna, če imata enak predznak, oz. če velja: sgn(xi - xj) = sgn(yi - yj) . Paru opazovanj, za katerega velja (xi = xj in yi =
yj), rečemo vezan par. Koeficient znaša 1, če so vsi pari skladni (oz. je število skladnih parov enako številu vseh možnih
neponovljenih parov), in –1, če so vsi pari neskladni.