Mere varijabiliteta Flashcards
Šta su mere varijabiliteta?
Mere varijabiliteta (mere varijacije, mere disperzije, mere raspršenja) opisuju variranje vrednosti skupa podataka, u smislu odstupanja od srednjih vrednosti i opsega međusobnih razlika.
Kako delimo MV?
Mere varijabiliteta možemo podeliti na apsolutne mere varijabiliteta koje su iskazane u jedinicima mere obeležja i relativne mere varijabiliteta koje su iskazane neimenovanim brojevima:
Apsolutne mere varijabiliteta su:
a) Interval (raspon) varijacije
b) Kvantili, percentili, decili, kvartili
c) Srednje apsolutno odstupanje
d) Varijansa
e) Standardna devijacija
Relativne mere varijabiliteta su:
a) Koeficijent varijacije
b) Standardizovane (normalizovane) vrednosti
Šta je interval varijacije?
Interval varijacije je razlika najveće i najmanje vrednosti u skupu podataka.
I=xmax−xmin
Interval varijacije je najjednostavnija i najmanje informativna mera disperzije. Pruža opšte i elementarne informacije koje služe za orjentacionu procenu homogenosti obeležja.
Nedostaci intervala varijacije su (1) da zavisi od postojanja ekstremnih vrednosti, (2) da ne daje informaciju o grupisanju unutar intervala, i (3) da njegova vrednost raste sa povećanjem uzorka.
Šta su kvantili?
Kvantili predstavljaju pozicione vrednosti numeričkog obeležja koje niz uređen po veličini dele na k-jednakih delova. Broj kvantila uvek je jednak k-1. Potupak određivanja kvantila analogan je postupku određivanja medijane. Služe za određivanje ili upoznavanje sa raspodelom frekvencija i podataka unutar skupa.
Percentili su kvantili koji statistički niz dele na 100 jednakih delova (broj percentila je 99).
Decili su kvantili koji statistički niz dele na 10 jednakih delova (broj decila je 9).
Kvartili su kvantili koji statistički niz dele na 4 jednaka dela.
Broj kvartila je 3:
Q1 -prvi ili donji kvartil jednak je 25. percentilu
Me -drugi kvartil ili medijana odnosno 50. percentil (5. decil)
Q3 -treći ili gornji kvartil jednak je 75. percentilu.
Šta je interkvantilni opseg?
nterkvartilni opseg (IQ) jednak je razlici 75. i 25. percentila, odnosno jednak je Q3-Q1 i u njemu se nalazi 50% observacija.
Kvantile (percentile, decile i kvartile) određujemo uz pomoć relativnih kumulativnih distribucija frekvencija.
Grafikon kutije (Box-and-Whisker-Plot, Box-plot, B-P)
Grafikonom kutije prikazujemo numeričke podatke. Grafikon kutije dizajnirao je John Tukey.
Grafikon se sastoji od kutije (engl. box), čija je stranica dužine interkvartilnog opsega (IQ) i čiji se krajevi prostiru od mesta koje odgovara prvom kvartilu (Q1) do mesta koje odgovara trećem kvartilu (Q3). Unutar kutije je oznaka, obično linija koja preseca kutiju, koja odgovara vrednosti medijane. Kutija predstavlja 50% opserviranih slučajeva.
Iz kutije na obe strane izlazi po jedan produžetak, tzv. brk ( engl.whisker, mačji brk) koji se prostire u opsegu najmanje i najveće vrednosti koje nisu neobične ili ekstremne. Za određivanje dužine produžetaka služe nam unutrašnje i spoljašnje granice. Unutrašnje granice su udaljene od krajeva kutije po 1,5 a spoljašnje po 3 interkvartilna opsega. Granice se ne ucrtavaju u grafikon već služe za određivanje dužine produžetaka i identifikaciju neobičnih i ekstremnih vrednosti.
Neobične vrednosti (engl. outlier) su sve vrednosti koje su od ivica kutije udaljene više od 1,5 a manje od 3 dužine kutije (interkvartilnog opsega) i na grafikonu se označavaju 0. Ekstremne vrednosti su one koje su od ivice kutije udaljene više od 3 njegove dužine i na grafikonu se obeležavaju sa * ili x.
Za unimodalne distribucije frekvencija očekuje se da iza unutrašnjih granica bude manje od 1% podataka, dok je verovatnoća pojavljivanja podataka iza spoljašnjih granica 1 ‰ .
Treba proveriti da li je vrednost ekstremnih vrednosti moguća ili je u pitanju greška prilikom zapisivanja i/ili unošenja podataka. Proveriti da li je ta vrednost unutar opsega mogućih vrednosti date promenljive.
Shematski prikaz grafikona kutije
Šta je varijansa
Varijansa je srednje kvadratno odstupanje od aritmetičke sredine. Obeležava se sa sd 2 ili s2. Izračunava se po formuli:
sd2=∑(xi−x¯)2n−1
gde je: xi je vrednost pojedinačnog podatka,
(x¯)
je aritmetička sredina, a n je broj podataka. Kada je n veće od 30, u imeniocu se može staviti n umesto n-1 jer su tada izračunate vrednosti približno jednake.
Šta je standardna devijacija (sd)
Standardna devijacija (obeležava se sa sd) izračunava se kao kvadratni koren iz varijanse, odnosno kao kvadratni koren iz srednjeg kvadratnog odstupanja od aritmetičke sredine
Standardna devijacija je najvažnija i najčešće primenjivana mera varijacije. Standardna devijacija se može interpretirati kao srednje odstupanje od aritmetičke sredine. Što je standardna devijacija manja, manje je i odstupanje vrednosti podataka od aritmetičke sredine.
Da li varijansa i sd mogu biti negativne?
Varijansa i standardna devijacija ne mogu biti negativne (zbog kvadriranja odstupanja), i mogu biti jednake nuli samo ako svi podaci imaju istu vrednost.
Prednosti i nedostaci varijanse i sd:
Prednost varijanse i standardne devijacije, kao mera varijabiiteta, je u tome što odražavaju variranje svih vrednosti skupa podataka.
Nedostaci varijanse i standardne devijacije su: (1) osetljivost na ekstremne vrednosti, (2) nepodesne su za podatke sa asimetričnom raspodelom i (3) mogu se koristiti samo za numeričke podatke.
Nedostatak varjanse u odnosu na standardnu devijaciju, je u tome što se iskazuje kvadriranim mernim jedinicama (na primer, ako su dati podaci o koncentraciji neke supstance iskazani kao mmol/L, varijansa tih podataka biće iskazana kao mmol2/L2), zbog čega je otežana interpretacija varijabiliteta. Za razliku od varijanse, standardna devijacija ima iste merne jedinice kao i podaci (u pomenutom primeru standardna devijacija podataka bila bi iskazana kao mmol/L) i lakše ju je zbog toga interpretirati.
Koeficijent varijacije (CV)
Koeficijent varijacije (CV) je relativna mera varijacije. Izračunava se kao količnik standardne devijacije i aritmetičke sredine, i obično je iskazan u procentima:
CV=sdx¯×100%
Koeficijent varijacije pokazuje varijabilitet podataka u odnosu na aritmetičku sredinu. CV je bezdimenziona mera, odnosno iskazuje se brojem bez bilo kakve merne jedinice, za razliku od standardne devijacije koja je apsolutna mera varijabiliteta iskazana istim mernim jedinicama kao i podataci. Zbog toga je koeficijent varijacije, kao relativna mera, pogodan za poređenje varijabiliteta različitih skupova podataka, čak i kada su oni mereni potpuno različitim mernim jedinicima.
Kada za skup kažemo da je homogen, a kada da je heterogen?
Kada je CV manji ili jednak od 30% za skup podataka se može reći da je homogen (manje varijabilan, konzistentan, uniforman). Ako je CV veći od 30%, za skup podataka se može reći da je heterogen (više varijabilan).
Šta je Zed vrednost (zed skor, standardizovana vrednost
Zed vrednost (zed skor, standardizovana vrednost) je odstupanje od aritmetičke sredine iskazano standardnim devijacijama. Izračunava se pomoću formule:
z=xi−x¯sd
gde je xi aktuelna vrednost za koju se izračunava zed vrednost,
x¯
je aritmetička sredina, a sd standardna devijacija.
Šta nam pokazuje Zed vrednost?
Zed vrednost je pokazatelj relativne pozicije neke vrednosti u skupu podataka. Predznak zed vrednosti pokazuje da li je neka konkretna vrednost manja (negativna zed vrednost) ili veća (pozitivna zed vrednost) od aritmetičke sredine.