Mere povezanosti Flashcards

1
Q

Kaj so razlike med regresijsko in korelacijsko analizo (obe uporabljamo za ugotavljanje linearne povezanosti)

A

Za ugotavljanje linearne povezanosti med dvema intervalnima spremenljivkama lahko uporabimo tako regresijsko kot korelacijsko
analizo. Oba tipa analize sta povezana, vendar med njima obstaja nekaj pomembnih razlik:
* obe analizi lahko uporabimo za merjenje smeri in moči linearnega odnosa med spremenljivkama, regresijska analiza pa
nam omogoča tudi napovedovanje, kako napovednik (X) vpliva na spremembe kriterija (Y);
* rezultat korelacijske analize je torej vrednost statistike, rezultat regresijske analize pa statistični model (enačbo premice);
* pri korelacijski analizi predpostavljamo, da sta tako X in Y naključni spremenljivki (npr. višina, teža, krvni tlak itd.), pri
regresiji pa predpostavljamo da je X fiksna spremenljivka in merjena brez napake (npr. temperatura, doza zdravila);
* posledično lahko pri korelacijski nalizi X in Y zamenjamo (dobili bomo enak rezultat), pri regresijski analizi pa ne; pravimo
da je korelacija simetrična.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Kaj je kovarianca?

A

Vsak udeleženec/enota ima dve vrednosti: vrednost spremenljivke X in vrednost spremenljivke Y (npr. nek študent je na prvem testu dosegel 65 točk, na drugem testu pa 80 točk). Za vsakega udeleženca lahko izračunamo odklon obeh vrednosti od povprečjaspremenljivke (torej odklon 65 od povprečja prvega testa in odklon 80 od povprečja drugega testa). Kovarianca je povprečni
produkt teh odklonov
.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Kaj nam v kovarianci pove predznak?

A

Predznak kovariance nam pove smer povezanosti. Rdeče točke predstavljajo pozitivne
produkte (ko sta oba faktorja pozitivna ali negativna), modre točke pa negativne
produkte (ko je eden izmed faktorjev pozitiven, drug pa negativen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Od česa je odvisna višina kovariance?

A

Višina kovariance je odvisna tako od višine povezanosti, kot od
razpršenosti spremenljivk.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Kako dobimo Pearsonov koeficient korelacije?

A

Če kovarianco delimo s standardnim odklonom obeh
spremenljivk, jo standardiziramo (s tem dosežemo, da koeficient odraža samo
povezanost, ne pa več razpršenosti). Dobimo Pearsonov koeficient korelacije.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Kaj je Pearsonov koeficient korelacije

A

Pearsonov koeficient korelacije uporabljamo za opis velikosti povezanosti dveh spremenljivk, v kontekstu linearne regresije pa
višina Pearsonovega r odraža tudi natančnost napovedovanja (bolj kot sta spremenljivki povezani, bolj natančno je
napovedovanje). Izračunamo ga kot standardizirano vrednost kovariance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Kaj je korelacija?

A

je mera linearne povezanosti, ki nam pove stopnjo sovariiranja dveh spremenljivk (pričakujemo, da se bo ob spremembi
ene spremenljivke spremenila tudi druga spremenljivka)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Naštej in opiši pomembne lastnosti Pearsonovega koeficienta korelacije.

A

Pomembne lastnosti Pearsonovega koeficienta korelacije:
* predpostavlja vsaj intervalni tip obeh analiziranih spremenljivk (oziroma dihotomnost ene od spremenljivk)
* zavzema lahko vrednosti med -1 in 1:
* je simetričen: rxy = ryx
* ni občutljiv na linearne pretvorbe (npr. če vse vrednosti standardiziramo, bo korelacija še vedno enaka)
* korelacija nam pove le, kako močna je povezava med dvema spremenljivkama, ne pove pa nam ničesar o vzročnosti
(izmerjena korelacija je lahko posledica enosmerne, vzajemne, krožne vzročne zveze ali skupnega vzroka brez neposredne
vzorčne povezave)
* interpretiramo ga glede na predznak (pove smer) in višino (spodaj primer za Cohenove mere)
Povezanost r Pri interpretaciji moramo biti pazljivi, saj so lahko
mere relativne (npr. povezanost 0,5 med dvema
testoma IQ zelo nizka, med testom IQ in reakcijskim
časom pa zelo visoka). Pri interpretaciji vedno
upoštevamo naravo podatkov in raziskovalnega
problema, pomagamo pa si lahko tudi s koeficienti
korelaciji, ki so jih izmerili v podobnih študijah.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Kako na regresijsko premico vplivajo ekstremne vrednosti? Kako na korelacijo?

A

Na regresijsko premico najmočneje vplivajo tiste točke, ki so najbolj oddaljene od povprečja napovednika in kjer je napaka velika,
medtem ko vrednosti, ki ležijo na premici na enačbo premice ne vplivajo. Na korelacijo vplivajo tako ene kot druge točke (bližnje
in oddaljene).

PRIMER: Ko smo podatkom dodali ekstremno vrednost (druga slika), se je spremenil tako korelacijski koeficient, kot regresijska
premica. Ko smo podatkom dodali vrednost, ki leži na regresijski premici (tretja slika), se spremeni le korelacija.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Kako na regresijsko premico vpliva selekcija (omejenost obsega)

A

Omejenost obsega je primer neustreznega vzorčenja, kjer smo izbrali vzorec, ki ne predstavlja značilnosti populacije (primer:
delovanje nekega zdravila smo preverili samo na starejših ljudeh, ne vemo pa, ali učinkuje tudi na mlade).
PRIMER: Ko smo iz analize izločili polovico populacije, se je korelacija zmanjšala, ko pa smo izločili vse rezultate, s povprečnimi
vrednostmi, se je korelacija umetno povečala

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Kako poteka statistično sklepanje v Pearsonovem R?

A

Asimetričnost korelacije
Simulirali smo populacijo s koeficientom korelacije 0,80. Iz populacije smo izvlekli 10 000
naključnih vzorcev in za vsak vzorec izračunali koeficient korelacije. Predvidevamo lahko, da bo
koeficient znotraj vsakega vzorca nekoliko drugačen, bolj pa nas zanima razporeditev vzorčnih
ocen. Iz grafa porazdelitve na desni vidimo, da so bila odstopanja navzdol nekoliko višja od
odstopanj navzdol (do 0,15 navzdol in do 0,1 navzgor). To je pričakovano: korelacija 0,8 lahko
navzgor odstopa za največ 0,2 vrednosti, navzdol pa lahko (vsaj v teoriji) odstopa do -1,8
vrednosti. Porazdelitev je asimetrična (torej ni normalna).
Izračun intervala zaupanja
Dobra stvar Pearsonovega koeficienta je, da je statistika r skoraj nepristranska cenilka ρ (korelacija v populaciji). Če želimo vseeno
izračunati interval zaupanja, zaradi asimetričnosti porazdelitve ne moremo uporabiti običajne formule. Uporabimo lahko
Fischerjevo pretvorbo ali zankanje (interval zaupanja izdelamo na osnovi porazdelitve vzorčnih ocen koeficienta).
Fischerjeva pretvorba
Postopek: Korelacijo pretvorimo v Fischerjevo vrednost (zr), izračunamo interval zaupanja, nato pa meje intervala pretvorimo
nazaj v vrednosti r.
𝐼𝑍 = 𝑧𝑟 ± 𝑆𝐸𝑧𝑟 ⋅ 𝑧𝑐
; 𝑧𝑟 = 0,5 ⋅ ln (
1 + 𝑟
1 −3
) ; 𝑆𝐸𝑧𝑟 =
1
√𝑛 − 3
; 𝑧𝑐 ~ 𝑁(𝑧𝜌, 𝑆𝐸𝑧𝑟)
M e r e p o v e z a n o s t i | 57
Preizkušanje domnev
Če je dobljena p vrednost manjša od stopnje tveganja (oz. testna statistika večja od kritične vrednosti), sprejmemo H1. Zaključimo,
da je korelacija statistično značilna. To nam pove le, da korelacija ni enaka 0 (ne pove pa nam ničesar o višini korelacije).
Hipoteze:
𝐻0: 𝜌 = 0
𝐻1: 𝜌 < 0 𝑎𝑙𝑖 𝜌 > 0 (𝑚𝑎𝑛𝑗 𝑝𝑜𝑔𝑜𝑠𝑡𝑜 𝜌 ≠ 0) → posledično navadno uporabljamo usmerjeno testiranje
Lahko tudi:
𝐻0: 𝜌𝑥𝑦=𝜌ab (𝑎𝑙𝑖 𝑗𝑒 𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑖𝑗𝑎 𝑚𝑒𝑑 𝑑𝑣𝑒𝑚𝑎 𝑟𝑎𝑧𝑙𝑖č𝑛𝑖𝑚𝑎 𝑠𝑝𝑟𝑒𝑚𝑒𝑛𝑙𝑗𝑖𝑣𝑘𝑎𝑚𝑎 𝑒𝑛𝑎𝑘𝑎)
𝐻0: 𝜌𝑥𝑦 = 𝜌𝑥𝑧 (𝑎𝑙𝑖 𝑒𝑛𝑎 𝑠𝑝𝑟𝑒𝑚𝑒𝑛𝑙𝑗𝑖𝑣𝑘𝑎 𝑒𝑛𝑎𝑘𝑜 𝑘𝑜𝑟𝑒𝑙𝑖𝑟𝑎 𝑧 𝑑𝑣𝑒𝑚𝑎 𝑟𝑎𝑧𝑙𝑖č𝑛𝑖𝑚𝑎)
𝐻0: 𝜌𝑥𝑦1 = 𝜌𝑥𝑦2 (𝑎𝑙𝑖 𝑠𝑡𝑎 𝑑𝑣𝑒 𝑘𝑜𝑟𝑒𝑙𝑎𝑐𝑖𝑗𝑖 𝑣 𝑑𝑣𝑒ℎ 𝑟𝑎𝑧𝑙. 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑗𝑎ℎ 𝑒𝑛𝑎𝑘𝑜 𝑣𝑖𝑠𝑜𝑘𝑖)
Testna statistika
č𝑒 𝑣𝑒𝑙𝑗𝑎 𝐻0:
𝑟
𝑆𝐸𝑟
~ 𝑡 (𝑑𝑓) ; 𝑑𝑓 = 𝑛 −2 ; 𝑆𝐸𝑟 = √
1− 𝑟
2
𝑛 − 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Kdaj so ordinalne povezanosti uporabne?

A

Uporabne so pri ugotavljanju povezanosti med:
* ordinalnimi spremenljivkami ali intervalnimi spremenljivkami, ordinalnih spremenljivkah
* intervalnimi spremenljivkami, kadar je kršena katera izmed pomembnejših predpostavk za izračun Pearsonovega r (npr.
odnos med spremenljivkama ni linearen) ali če imamo v vzorcu ekstremne vrednosti, ki lahko vplivale na statistično
analizo (mere ordinalne povezanosti so manj občutljive na ekstreme).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Kaj je stopnja monotonosti povezave in kako jo ocenjujemo?

A

Stopnjo monotonosti povezave ocenjujemo z merami ordinalne povezanosti. Monotonost povezave pomeni, da se obe spremenljivki sočasno višata oz. nižata (če naraščajo vrednosti spremenljivke X, naraščajo tudi vrednosti Y in obratno). Statistično značilnost preverjamo preko znaninih porazdelitvenih rangov. Glavna omejitev teh mer je, da ni neposredne povezave med odstotkom pojasnjene variance in napovedovanjem. Napovedovanje je sicer možno, ampak je uporaba precej bolj kompleksna kot pri linearni regresiji.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Kaj je Spearmanov koeficient korelacije?

A

Spearmanov koeficient korelacije (ρ ali rs) je neparametrična korelacija med rangi oz. rangiranimi vrednostmi dveh spremenljivk
in ga uporabljamo za oceno konsistentnosti smeri povezave oz. monotonosti povezave med dvema spremenljivkama.
Spremenljivki sta lahko v (pozitivnem ali negativnem) monotonem odnosu, ne glede na to, ali je ta odnos linearen ali nelinearen.
Spearmanov ρ lahko izračunamo kot Pearsonov r med absolutnimi rangi dveh spremenljivk in lahko zaseda vrednosti med –1 in 1.
Interpretacija tega koeficienta je zato enaka kot pri Pearsonovem r, le da se nanaša na range, ne pa na surove vrednosti
spremenljivk.

PRIMER: Izračunajmo Spearmanov koeficient korelacije za spodnje podatke.
Najprej vse vrednosti pretvorimo v absolutne range. Spearmanov koeficient izračunamo enako kot Pearsonovega, le med rangi.
V zgornjem primeru ρ znaša 0,40
.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Kaj je Kendallov τ?

A

Kendallov τ je prav tako neparametrična mera korelacije za spremenljivke na ordinalni merski ravni (je prav tako neparametrična mera korelacije za spremenljivke na ordinalni merski ravni ( lahko uporabimo tudi v
primeru kombinacije ordinalne in dihotomne spremenljivke!). Medtem ko lahko Spearmanov ρ obravnavamo (in interpretiramo)
kot Pearsonov r (le da je ρ izračunan iz rangiranih vrednosti), Kendallov τ predstavlja verjetnost, in sicer razliko med verjetnostjo,
da so vrednosti obeh spremenljivk urejene v istem vrstnem redu, in verjetnostjo, da so vrednosti obeh spremenljivk urejene v
povsem obratnem vrstnem redu. V splošnem ga torej izračunamo kot razmerje med razliko med skladnimi in neskladnimi pari in
vsemi možnimi (neponovljenimi) pari.

Če za par opazovanj oseb i in j velja, da je (xi > xj in yi > yj) ali (xi < xj in yi < yj), je ta par skladen ali urejen (ujemanje). Primer: če se
je nek udeleženec učil več od drugega udeleženca (v paru), je dobil boljšo oceno. Če pa velja, da je (xi > xj in yi < yj) ali (xi < xj in yi >
yj), je ta par neskladen ali neurejen (neujemanje). Primer: nek udeleženec se je učil več od drugega udeleženca (v paru), vendar je
vseeno dobil slabšo oceno.
Para sta torej skladna, če imata enak predznak, oz. če velja: sgn(xi - xj) = sgn(yi - yj) . Paru opazovanj, za katerega velja (xi = xj in yi =
yj), rečemo vezan par. Koeficient znaša 1, če so vsi pari skladni (oz. je število skladnih parov enako številu vseh možnih
neponovljenih parov), in –1, če so vsi pari neskladni.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Kaj je Kendallow W oz. koeficient konkordance?

A

Kendallov W oz. koeficient konkordance je mera korelacije med več ordinalnimi spremenljivkami oz. mera skladnosti rangov več
spremenljivk, zaradi česar ga pogosto poimenujemo tudi koeficient skladnosti med ocenjevalci; npr. več ocenjevalcev za več
objektov (npr. učence, prehrambne izdelke) poda ocene/range na izbrani lastnosti (npr. ocena šolskega izdelka, všečnost).
Kendallov W lahko zavzema vrednosti od 0 (popolna neskladnost med ocenjevalci) do 1 (popolna skladnost med ocenjevalci).

17
Q

Kaj je značilno za nominalne spremenljivke?

A

Za nominalne spremenljivke je značilno, da njihove vrednosti ne odražajo nikakršne količine, temveč zgolj kategorijo oziroma
skupino, ki ji posameznik pripada (npr. značilnosti udeležencev, kot so spol, narodnost, poklic; način izvedbe testa, npr. na papirju,
z računalnikom). Ugotavljamo lahko torej le, ali so vrednosti enake ali različne, ne moremo pa jih razvrstiti po velikosti ali z njimi
na kakršenkoli način računati (npr. izračunavati razliko, količnik itd.).

18
Q

Kaj je izhodišče za predstavitev povezanosti med nominalnimi spremenljivkami?

A

Izhodišče za predstavitev povezanosti med nominalnimi spremenljivkami je kontingenčna tabela. V tabeli navadno predstavimo
opazovane (empirične, dejanske) in robne frekvence. Robne frekvence nam povejo, koliko udeležencev pripada posamezni
vrednosti spremenljivke (na ravni celotnega vzorca), opazovane frekvence nam povejo, pove nam, koliko udeležencev pripada
posamezni kombinaciji vrednosti.

19
Q

Kaj so pričakovane frekvence?

A

Povezanost med dvema spremenljivkama ugotavljamo tako, da dejanske frekvence primerjamo s pričakovanimi (teoretičnimi)
frekvencami. Pričakovane frekvence nam povejo, koliko udeležencev bi pričakovano pripadalo posamezni kombinaciji vrednosti,
če med spremenljivkama ne bi bilo povezave (torej bi bila vsaka frekvenca natanko sorazmerna z robno frekvenco). Dobimo jih
tako, da pomnožimo robne frekvence vrstice in stolpca in jih delimo z numerusom).

Če so opazovane so opazovane frekvence podobne ali enake pričakovanim frekvencam. Nasprotno, sta dve spremenljivki povezani,
kadar se pričakovane bistveno razlikujejo od teoretičnih frekvenc. Velikost odstopanja merimo z različnimi testi in koeficienti.

20
Q

Kaj je hi-kvadrat test?

A

Kadar govorimo o hi-kvadrat testu običajno govorimo o Pearsonovem hi-kvadrat testu neodvisnosti, ki je dobro poznana metoda
pri analizi opisnih spremenljivk. Test neodvisnosti (ang. Chi-square test for independence) preverja ujemanje dejanskih in
pričakovanih frekvenc oz. odvisnost/povezanost med spremenljivkama.
Preizkus χ
2
za hipotezo o neodvisnosti
Predpostavke: neodvisnost vzorčenja, obe spremenljivki nominalni (ali nominalna-ordinalna), vse ft > 5 (tudi največ 20 % ft < 5 in
nobena ft < 1), seštevek empiričnih in teoretičnih frekvenc mora biti enak numerusu (vsak udeleženec pripada le eni kategoriji)
Hipoteze:
H0: 𝑓𝑒 = 𝑓𝑡 𝒂𝒍𝒊 𝑆𝑝𝑟𝑒𝑚𝑒𝑛𝑙𝑗𝑖𝑣𝑘𝑖 𝑠𝑒 𝑛𝑒 𝑟𝑎𝑧𝑙𝑖𝑘𝑢𝑗𝑒𝑡𝑎./𝑆𝑝𝑟𝑒𝑚𝑒𝑛𝑙𝑗𝑖𝑣𝑘𝑖 𝑛𝑖𝑠𝑡𝑎 𝑝𝑜𝑣𝑒𝑧𝑎𝑛𝑖, 𝑠𝑡𝑎 𝑛𝑒𝑜𝑑𝑣𝑖𝑠𝑛𝑖.
H1: 𝑓𝑒 ≠ 𝑓𝑡 𝒂𝒍𝒊 𝑆𝑝𝑟𝑒𝑚𝑒𝑛𝑙𝑗𝑖𝑣𝑘𝑖 𝑠𝑒 𝑟𝑎𝑧𝑙𝑖𝑘𝑢𝑗𝑒𝑡𝑎./𝑆𝑝𝑟𝑒𝑚𝑒𝑛𝑙𝑗𝑖𝑣𝑘𝑖 𝑠𝑡𝑎 𝑝𝑜𝑣𝑒𝑧𝑎𝑛𝑖, 𝑠𝑡𝑎 𝑜𝑑𝑣𝑖𝑠𝑛𝑖.
M e r e p o v e z a n o s t i | 61
Testna statistika:

(𝑓𝑒 − 𝑓𝑡
)
2
𝑓𝑡
~ 𝜒
2
(𝑑𝑓) ; 𝑑𝑓 = (𝑣 − 1)(𝑠 − 1)
v = število stolpcev kontingenčne tabele, s = število stolpcev

PRIMER: Nadaljujmo zgornji primer.
Postavimo statistični hipotezi:
H0: Spremenljivki nista povezani.
H1: Spremenljivki sta povezani.
Izberemo raven tveganja: α = 0,05.
Najprej preverimo predpostavke za izvedbo hi-kvadrat testa in ugotovimo, da so izpolnjene.
Nato izračunamo Pearsonovo hi-kvadrat statistiko. Za vsako kombinacijo vrednosti (vsako celico v tabeli) izračunamo razliko
med dejanskimi in pričakovanimi frekvencami, to razliko kvadriramo in delimo s pričakovanimi frekvencami. Vse dobljene
vrednosti seštejemo (dobimo testno statistiko). V našem primeru smo dobili: χ
2 = 4,76.
Izračunamo prostostne stopinje:
df = (2 – 1) * (2 – 1) = 1
Vrednost testne statistike primerjamo s hi-kvadrat porazdelitvijo. Kot pri ostalih statističnih testih, lahko tudi tu izbiramo med
dvema načinoma interpretacije testne statistike:
a) Poiščemo kritično vrednost pri izbrani ravni tveganja in stopinjah prostosti. V našem primeru je to 3,84. Ker je naša
vrednost testne statistike (4,76) višja od kritične vrednosti, zavrnemo ničelno hipotezo in sprejmemo alternativno, ki
pravi da sta spremenljivki povezani.
b) Poiščemo p-vrednost, ki ustreza vrednosti testne statistike in stopinjam prostosti. V našem primeru je bila p = 0,02,
kar je manjše od izbrane ravni tveganja. Zavrnemo ničelno hipotezo in zaključimo, da sta spremenljivki povezani.

21
Q

Kaj je koeficient Φ ?

A

Preizkus hi-kvadrat nam pove le, ali sta dve spremenljivki statistično značilno povezani ali ne, ne poda pa nam informacij o smeri
ali moči povezanosti. Fi koeficient lahko uporabimo kot dopolnilo hi-kvadratu.
Fi koeficient je mera povezanosti oz. odvisnosti dveh dihotomnih spremenljivk (torej ga računamo na osnovi 2 x 2 kontingenčne
tabele). Koeficient φ je lahko enak 1 le takrat, ko so robni deleži obeh spremenljivk enaki Računamo ga lahko tudi na dveh
nominalnih spremenljivkah z več kategorijami, a v teh primerih maksimalna možna vrednost koeficienta presega 1, zato raje
uporabimo enega od drugih koeficientov korelacije, ki te težave nimajo (npr. Cramerjev V).
Enak je Pearsonovem koeficientu korelacije za dve dihotomni spremenljivki, ki ga bomo spoznali v nadaljevanju. Izračunamo ga
tako, da vrednost hi-kvadrata delimo z vzorcem (odstranimo vpliv velikosti vzorca) in ga korenimo:
𝜙 = √
𝜒
2
𝑛
Vedno uporabimo nepopravljeno vrednost χ
2
statistike!

21
Q

Kaj je Yatesov popravek za zveznost?

A

Yatesov popravek za zveznost uporabimo pri tabelah velikosti 2 x 2 (npr. v zgornjem primeru). Deluje tako, da absolutno vrednost
vsake razlike med teoretičnimi in empiričnimi frekvencami zmanjšamo za 0,5. S tem torej nekoliko zmanjšamo diskrepanco in tako
zmanjšamo tudi vrednost testne statistike hi-kvadrat.
𝜒𝑐𝑜𝑟𝑟.
2 = ∑
(|𝑓𝑒 − 𝑓𝑡
|− 0,5)
2
𝑓

21
Q

Kaj je tehtrahorični keficient korelacije?

A

TETRAHORIČNI KOEFICIENT KORELACIJE
Za poročanje o povezanosti dveh dihotomnih spremenljivk vedno izračunamo koeficient φ (ali kateri drug primeren koeficient),
ne glede na to, ali imamo opravka z dvema naravno ali umetno dihotomnima spremenljivkama. Lahko pa v primeru odnosa med
dvema umetno dihotomnima spremenljivkama (ki sta v resnicizvezni in normalno porazdeljeni) naslovimo podobno (hipotetično)
vprašanje kot z biserialno korelacijo. Tetrahorični koeficient korelacije (rtet) nam torej pove, koliko bi znašala korelacija med dvema
(trenutno) dihotomnima spremenljivkama, če bi bili ti dve dihotomni spremenljivki zvezni in normalno porazdeljeni. Najlažje ga
izračunamo z uporabo statističnega programa na računalniku.

22
Q

Kaj je koeficient kontingence (c)?

A

Koeficient kontingence (C) je mera povezanosti med dvema nominalnima spremenljivkama, ki lahko imata več kot dve kategoriji
(in tudi različno število kategorij). Tako kot φ, tudi C temelji na χ
2
statistiki. Vrednost koeficienta kontingence je lahko le pozitivna,
nikoli pa ne more doseči 1, tudi če je (v teoriji) povezanost popolna. Možen razpon za C torej znaša 0 ≤ C < 1. Koeficient kontingence
je navzgor omejen tudi z velikostjo kontingenčne tabele, in sicer se njegova maksimalna vrednost veča z velikostjo kontingenčne
tabele. Zaradi te pomanjkljivosti nekateri avtorji priporočajo, da se C uporabi le pri večjih kontingenčnih tabelah (npr. vsaj 5 x 5),
saj je pri manjših tabelah velikost korelacije podcenjena.
𝐶 = √
𝜒
2
𝜒
2 + 𝑛
Vedno uporabimo nepopravljeno vrednost χ
2
statistike!

23
Q

Kaj je Cramerjev V?

A

Cramerjev V (včasih poimenovan tudi Cramerjev φC) je mera povezanosti dveh nominalnih spremenljivk, ki lahko imata več kot
dve kategoriji (in tudi različno število kategorij). Tudi Cramerjev V temelji na χ
2
statistiki. Vrednost Cramerjevega V je lahko le
pozitivna, ni odvisna od velikosti kontingenčne tabele in lahko doseže 1, če so robni deleži obeh spremenljivk enaki (enako kot
velja za φ. Možen razpon za Cramerjev V torej znaša 0 ≤ V ≤ 1. Cramerjev V izračunamo po enačbi:
𝑉 = √
𝜒
2
𝑛 ⋅ 𝑚𝑖𝑛(𝑣 − 1, 𝑠 −1)
Vedno uporabimo nepopravljeno vrednost χ
2
statistike! V imenovalcu je lahko bodisi št. stolpcev ali vrstic (manjša/minimalna
izmed obeh vrednosti).

24
Q

Kaj je razmerje tveganj in obetov?

A

Razmerje tveganj in obetov (ang. »odds ratio«) sta mera odnosa med dvema značilnostma, ki se pogosto uporablja v medicinski
literaturi. Zamišljamo si ju lahko kot velikost učinka, ki nam pove, kolikšna je verjetnost, da bo oseba z lastnostjo A imela tudi
lastnost B (npr. kolikšna je verjetnost, da bo kadilec zbolel za rakom; kolikšna je verjetnost, da bo temnopolta oseba obsojena na
smrtno kazen itd.).
Tveganje je verjetnost ene izmed kombinacij izidov (npr. verjetnost, da bo oseba, ki je nalogo reševala na papir, uspešna). Dobimo
ga tako, da frekvenco posamezne kombinacije delimo s frekvenco celotnega izida (št. uspešnih, ki so nalogo reševali na papir,
delimo z vsemi, ki so nalogo reševali na papir). Razmerje tveganj (RR) dobimo tako, da delimo eno tveganje z drugim. V
spodnjem primeru je razmerje tveganj za uspeh: RR = 0,8 / 0,6 = 1,33 (v prid papirju). Tisti, ki je reševal na papirju, ima 1,33
»tveganja« za uspeh (glede na ime »tveganje«, bi bilo bolje da bi računali verjetnost neuspeha).
Obet razmerje verjetnosti komplementarnih dogodkov (npr. razmerje med uspešnimi in neuspešnimi udeleženci, ki so reševali
nalogo na papirju). Zapišemo ga lahko na različne načine, ki pomenijo enako: 40 : 10, 4 : 1, 4 itd. Razmerje obetov (OR) dobimo
tako, da delimo en obet z drugim. V spodnjem primeru je razmerje obetov za uspeh OR = 4 / 1,5 = 2,67 (v prid papirju). Tisti, ki je
reševal na papirju, ima večjo verjetnost za uspeh. Izračunali bi lahko tudi obete za neuspeh, ali pa bi računali obete za tiste, ki so
reševali nalogo na računalniku (odločimo se samo za eno možnost, saj so vsi rezultati komplementarni).
Kaj nam pove razmerje obetov?
* OR = 1: značilnost A nima vpliva na značilnost B
* OR > 1: če ima udeleženec značilnost A, obstaja večja verjetnost, da bo imel tudi značilnost B
* OR < 1: če ima udeleženec značilnost A, obstaja manjša verjetnost, da bo imel tudi značilnost B

25
Q

Kaj so prednosti razmerja obetov?

A
  • mera je enaka v obeh smereh (isto razmerje dobimo, če delimo uspešno z neuspešnimi ali če delimo tiste na papirju s
    tistimi na računalniku)
  • ni občutljivo na spremembe robnih frekvenc (npr. udeležencev, ki rešujejo test na računalniku bi lahko bilo 2x več, vendar
    bi še vedno dobili enak rezultat)
  • pri zelo majhnih tveganjih je OR približno RR
  • pri neodvisnosti spremenljivk je OR = RR = 1 (takrat bi zaključili, da tisti, ki rešuje na računalniku nima nič večje verjetnosti
    za uspeh kot tisti, ki rešuje na papirju).
26
Q

Kaj je točkovno-biserialni koeficient korelacije?

A

Za izračun korelacije med (vsaj) intervalno in dihotomno spremenljivko (ima samo dve kategoriji), uporabimo točkovno biserialni
koeficient korelacije (rpb). Točkovno biserialni koeficient je le posebna oblika Pearsonovega r, zato ga lahko izračunamo na enak
način kot r ali po posebni enačbi (če nimamo na voljo podatkov, ampak le opisne statistike). Točkovno biserialni koeficient lahko
zavzema vrednosti od –1 do 1, a njegova višina ni odvisna le od stopnje povezanosti spremenljivk, temveč tudi od p in q oziroma
deležev obeh možnih odgovorov na dihotomni spremenljivki (z odstopanjem od razmerja 1:1 se maksimalna možna vrednost
manjša).

27
Q

Kaj je biserialni koeficient korelacije?

A

Nekatere dihotomne spremenljivke so naravno dihotomne, npr. spol, nekatere pa t. i. umetno dihotomne (ali dihotomizirane, če
neko intervalno/razmernostno spremenljivko naknadno dihotomiziramo), npr. dihotomna postavka na osebnostnem vprašalniku
ali dihotomiziran dosežek na testu znanja (opravil/ni opravil). Če želimo zgolj opisati povezanost intervalne in dihotomne
spremenljivke, vedno izračunamo točkovno biserialni koeficient korelacije (glej zgoraj), ne glede na to, ali imamo opravka z
naravno ali umetno dihotomno spremenljivko.
Če obravnavamo korelacije med umetno dihotomno in intervalno spremenljivko, pri čemer je ta dihotomna spremenljivka v resnici
zvezna in normalno porazdeljena, lahko uporabimo tudi biserialni koeficient korelacije (rb). V takem primeru z biserialno korelacijo
naslovimo (hipotetično) vprašanje, kolikšna bi bila korelacija med to (trenutno) umetno dihotomno in vsaj intervalno (zvezno)
spremenljivko, če bi bila ta dihotomna spremenljivka zvezna (npr. če bi postavko na vprašalniku izmerili na zvezni, ne pa na
dihotomni lestvici) in normalno porazdeljena. Tudi biserialna korelacija je odvisna od razmerja med deleži obeh možnih odgovorov
pri dihotomni spremenljivki, in sicer se izračun tega koeficienta odsvetuje, če p ali q močno odstopa od 0,50 (npr. višji od 0,90 ali
nižji od 0,10), saj lahko v tovrstnih primerih dobimo zelo izkrivljene vrednosti korelacije

28
Q
A