USMENI Flashcards
- Kakvog je oblika f-distribucija i zašto (+ kako nastaje)?
- pozitivno je asimetrična jer f omjer ne može biti manji od 0, a ekstremi mogu biti iznimno visoki
- f- distribucija nastaje vađenjem parova uzoraka jednake veličine I izračunavanjem njihova F-omjera (odnosa medu varijancama)
- distibucije pokazuju koliki F ima vjerojatnost da se slučajno dogodi, kao i granični F iznad kojeg se još veći F može slučajno dogoditi samo u 5% iii 1% (to su ujedno vrijednosti navedene u F-tablicama kao granicne F-vrijednosti uz različite veličine (stupnjeve slobode) jednog i drugog uzorka)
- u brojnik F-odnosa stavljamo veću varijancu (jer zelimo vidjeti koliko je puta ona veća od manje varijance), dok kod stvaranja F-distribucije moramo F izračunavati uvijek na jednakom odnosu, npr. uvijek varijanca A/varijanca B (ier inače nikad ne bismo dobili rezultat ispod vrijednosti 1)
- Što je f omjer, što ide u brojnik/nazivnik, zašto ne koristimo t-test za post hoc analizu nego Scheffea?
- to je omjer u analizi varijance kojim se utvrduje može li se ostati na prethodno utvrdenoj nul-hipotezi ili je treba odbaciti
- u omjer se stavljaju varijance (sume kvadrata podijeljene s odgovarajučim stupnjevima slobode)
- u brojniku se nalazi varijanca koja pokazuje variranje izmedu različitih eksperimentalnih skupina ispitanika, a u nazivniku varijanca koja pokazuje variranja unutar skupina ispitanika i koja predstavlja zapravo pogrešku uzorkovanja i mjerenja
- za post coh analizu ne koristimo t-test jer se povećavanjem broja izračunatih t-testova povećava razina rizika, odnosno opasnost da utvrdimo statističku značajnost kada je ona slučajna (pogreška tipa I.)
- Što je f omjer, koje su post hoc analize, postoji li uvijek razlika između nekih skupina nakon značajnog f omjera, kakva je distribucija i zašto, o scheffeu…
- post coh analiza kod nezavisnih I složene analize varijance je Scheffeova metoda, a kod zavisnih jednostavnih t-test za male zavisne uzorke (metoda diferencije)
- ne mora uvijek postojati razlika između skupina kada je ona utvrđena f-omjerom, zato koristimo psot-coh metoda I kako bi znali između kojih skupina postoji razlika, a između kojih ne
- Schefeova metoda, postupak:
1) izračuna se F’ ( ) tako da se iuzme granični F iz tablice I pomnoži s g-1
2) Po formuli se računa F za svaki mogući par aritmetičkih sredina te se dobiveni
F uspoređuje s F’ (ukoliko je F > F’ postoji statistički značajna razlika)
- Objasni jednostavnu analizu varijance za nezavisne podatke.
- to je statistički postupak kojim se provjerava je li varijabilitet rezultata dobivenih mjerenjem u zavisnoj varijabli u razlicitim eksperimentalnim situacijama rezultat nekih sistematskih faktora ili nesistematskih varijabilnih faktora
- ako je sistematski varijabilitet (uzrokovan NZV) veći od slučajnog varijabiliteta (pogreske) razlika je stat. značajna
- kod nezavisnih podataka u brojnik ide varijanca između dvije grupa, a nazivnik unutar grupe
- uvjeti koje treba zadovoljiti za računanje ANOVE za nezavisne:
1) mora biti zadovoljena HOMOGENOST VARIJANCI (približno jednake varijance)
2) rezultati približno normalno distribuirani
3) podjednaki N-ovi u grupama
4) zadovoljen LINEARNI MODEL (rezultat = prava vrijednost mjerenja + NZV + slučajni faktori (pogreška mjerenja))
- Složena analiza varijance - reći koliko nzv ima i kako izgleda tablica, kolko je f omjera i da je moguće više kombinacija značajnosti za krajnje f omjere
- koristimo je kod faktorijalnih nacrta, kada imamo barem 2 NZV (tada imamo I tri H0 – dvije o gl. efektima i jednu o interakciji)
- u tablicu upisujemo varijabilitet grupa kod gl. faktora A, gl. faktora B, efekt interakcije (interaktinog djelovanja dviju varijabli na zavisnu), unutar grupa I ukupan
- izračunavaju se tri F omjera (za glavni efekt A, glavni efekt B, interakciju)
- Koje su post hoc analize za analizu varijance, kada ih koristimo, na temelju kojeg modela je osmišljena analiza varijance, u kakvom su odnosu elementi modela, zašto koristimo analizu varijance umjesto vise t-testova, do koje vrste pogreske dolazi upotrijebom vise t-testova?
- post coh metode:
Scheffeova metoda – kod jednostavne analize nezavisnih podataka i složene analize
metoda diferencije – kod jednostavne analize zasvisnih podataka - analiza varijance je osmišljena po linearnom modelu - elementi su u neovisnom odnosu
- analizu varijance koristimo umjesto vise t-testova jer se povećavanjem broja izračunatih t-testova povećava razina rizika, odnosno opasnost da utvrdimo statističku značajnost kada je ona slučajna (pogreška tipa I.)
- Može li se na podacima s nominalne skale računati M i SD (ne može), koji su neparametrijski postupci, objasniti friedmana, s kojim ga parametrijskim testom možemo usporediti?
- neparametrijski postupci za zavisne podatke:
1) test predznaka – ne upotrebljavamo ga ako ima previse parova bez razlika (postupak: usporedimo dvije situacije zapisujući smjer promjene (+/-) te kod ispitanika kod kojih nije došlo do promjene upisujemo 0, ukupni N je broj promjena te se pomoću tablice utvrđuje iznad kojeg broja ne smije ići manj broj predzanak da bi nešto bilo stat. značajno)
2) wilcoxonov test ekvivalentnih parova – analogan je metodi diferencije te zahtjeva intervalnu ili omjernu ljestvicu (postupak: pronalazimo razlike između dvije situacije te ih rangiramo bez obzira na predznak (najmanja dobiva najmanji preznak), posebno zbrajamo rangove jednog I drugog predznaka te računamo sumu rangova koju očekujemo po nul- hipotezi – dijeljenjem razlike opaženih I očekivanih suma rangova s pogreškom sume rangova dobijamo z-vrijednost )
3) friedmanov test – ima gotovo jednaku statističku snagu kao ANOVA za zavisne (postupak: rangiramo rezultate unutar jednog ispitanika e zbrajamo rangove za svaku situaciju, računamo hi kvadrat r prema formuli uz ss = k-1 koji se distribuira kao hi kvadrat test)
- za nezavisne:
1) medijan test – svodi se na hi kvadrat test te ima malu statističku snagu, koristimo jedino rangoce,a ne stvarne izmjerene vrijednosti (postupak: sve podatke redamo po veličini I nalazimo C vrijednost, određujemo koliko je rezultata iz koje skupine ispod I iznad c, te to upisujemo u kontingencijsku tablicu 2*2 pa računamo hi kvadrat (c I njemu jednake vrijednosti raspoređujemo da idu u korist H0 ili bacamo novčić))
2) test zbroja rangova (postupak: sve podatke redamo po veličini I dodijeljujemo rangove, posebno zbrajamo rangove po skupinama te te sume uspoređujemo sa sumom rangova očekivanom po nul-hipotezi – dijeljenjem razlike opaženih I očekivanih suma s pogreškom sume rangova dobivamo z vrijednost)
3) prošireni medijan test (postupak: sve kao medijan test samo s 2*k tab.)
4) Kruskal-wallisov test – prošireni test rangova, ako su uzorci dovoljno veliki, H ima distribuciju kao hi kvadrat – korekcija! – ako ima veći broj vezanih rangova, a H je nešto ispod granice značajnosti (postupak: sve podatke rangiramo te vodimo računa iz koje skupine koji dolazi, računamo sume rangova rezultata za svaku skupinu I koristimo formulu za H koji se distribuira kao hi kvadrat uz ss=k-1)
- Hi kvadrat se racuna na proprcijama T/N i onda sve vezano uz hi kvadrat
- točno
- to je neparametrijski test koji koristimo kada radimo s frekvencijama
- VELIČINA HI KVADRATA OVISNA JE O VELIČINI N – veći N – veći hi kvadrat
- kako nastaje hi kvadrat distibucija:
- distribucija ovisi o stupnjevima slobode
- npr. kada bi više puta vadili neki uzorak u populaciji I mjerili frekvencije gdje postoje samo dva ishoda ss bi bio 1 (npr basanje novčića – psimo I glava) i dobili bismo hi-kvadrat distribuciju za 1 stupanj slobode
- kada bismo to učinili s pojavom koja ima više ishoda (npr. bacanje kockice – 6 mogućih ishoda, za svaki je vjerojatnost da će se dogoditi 1/6) dobili bismo distribuciju hi-kvadrata za 5 stupnjeva slobode
- kada analiziramo površine svake od tih distribucija, na desnom kraju distribucije (hi kvadrat ima pozitivno asimetričnu distibuciju) možemo pronaći granicu iznad koje se slučajno može pojaviti određeni hi-kvadrat samo u 5% slucajeva
- Može li se u društvenim znanostima ikada dobiti potpuna korelacija?
- ne može iz dva razloga:
1) zbog složenih veza između pojava
2) zbog nesavršenosti mjerenja varijabli (pogreške pri mjerenju, slučajni
faktori….) - primjer potpune korelacije u društvenim znanostima ne postoji
- Pearsonov koeficijent se temelji na t testu T/N, koje mu je drugo ime i na čemu se temelji?
- dugo ime mu je koeficijent korelacije umnožaka
- opravdano ge je računati samo
- (1) ako su rezultati u obje varijable barem na > intervalnoj skali
- (2) ako je N > 30
- (3) ako su distribucije u varijablama simetricne (jer asimetricnost distribucije utjece na oblik povezanosti medu varijablama; > lineama zavisnost; > zakrivljena korelacija)
- (4) ako je povezanost varijabla linearna (+ homoscedascitet)
- temelji se na z- vrijednostima, rezultati u x I y varijablama su izraženi u z-vrijednostima kako bi se moglo uspoređivati podatke na različitim mjernim jedinicama
- Pomoću kojeg testa mozemo utvrditi razlikuje li se kvadratična distribucija od normalne?
Hi kvadrat testom
- Hi kvadrat se može računati s proporcijama t/n, sve o hi kvadratu -II- , yatesova korekcija.
- yatesova korekcija (korekcija za kontinuitet – jer se prilagođava diskontinuirano distribuirane rezultate tako da aproksimiraju kontinuiranu distribuciju) - obavlja se kod 2 x 2 hi-kvadrat tablica, osim ako su frekvencije dosta velike (ni jedna teorijska frekvencija ne smije biti manja od 5 kod tablica s dva polja, a s više polja ne smije više od 20 % teorijskih frekvencija biti manje od 5)
- za 0.5 se smanjuje svaka opažena f veća o očekivane,a povećava kad je obrnuto
- gubi svoj smisao ako su razlike izmedu opaženih i očekivanih frekvencija toliko male (manje od 0,25), da bi njihovo “smanjenje” za 0,5 dovelo do večeg broja
- Kako računamo hi kvadrat test kada želimo usporediti dobivene rezultate s normalnom distribucijom?
- moramo izračunati očekivane frekvencije koje bi pratile normalnu distribuciju:
1) podijelili bismo broj 6 (zamislimo da je norm. distribucija podijeljena na 6 dijelova (3 SD * 2)) sa brojem kategorija
2) pomoću dobivenog broja bi dobili intervale za svaku kategoriju (krećemo od -3 (UVIJEK 3 JER I S LIJEVE I S DESNE STR DISTRIBUCIJE IMAMO 3 SD) I dodajemo dobiveni broj dok ne dođemo do 3)
3) za svaki interval pogledamo koliko posto distribucije obuhvaća (u tablicama)
4) zbrojili bi sve opažene frekvencije kako bi dobili ukupnu I onda bi ukupni broj množili s dobivenim postotkom za svaku kategoriju
5) nakon toga norm računamo hi kvadrat sočekivanim I opaženim frekvencijama
- Koeficjent determinacije, što je on i u kakvom je odnosu sa koeficijentom korelacije, što je Pearsonov koeficijent i zašto ga zovemo koeficijent umnoška, zašto baš koristimo z vrijednosti za Pearsona?
- KOEFICIJENT DETERMINACIJE - kvadrirani koeficijent korelacije
- pokazuje proporciju (ili postotak, ako je pomnožen sa 100) zajedničke varijance dviju varijabli (proporciju faktora (jednog ili više) koji su odgovorni za dobiveni stupanj sukladnosti u variranju rezultata dviju varijabli
- npr. ako korelacija iznosi 0,50, koeficijent determinacije je 0,25 što znači da postoji oko 25% zajedničkih faktora koji uvjetuju kovariranje
- Pearsonov (koef. koji nam pokazuje stupanj povezanosti između dvije varijable) se naziva I koeficijent umnoška jer se određuje na temelju umnožaka parova rezultata u varijablama između kojih se računa korelacija
- Kad je r=0,74 kakva je to distribucija i zašto nije norm.?
- kada je korelacija pozitivna, distribucija je negativno asimetrična I obrnuto (+ kad nema korelacije jer norm. distribucija)
- zašto:
- kada između neke dvije populacije podataka ne postoji niakkva povezanost , kada bismo iz tih dviju populacija izvlačili parove rezultaat I računali koef. korelacije dobili bi simetričnu distibuciju s M = 0 jer je korelacije jednaka 0 pa bi bilo najviše parova s takvom korelacijom a sve manje slučajno dobivenih ekstrema
- ako između neke dvije populčacije podataka postoji pozitivna korelacija, kada bismo iz dviju populacija izvlačili parove rezultata I računali koef. korelacije dobili bi distribuciju gdje najviše parova ima pozitivan M a sve manje onih koji od toga odstupaju (obrnuto za neg.)