Opisna statistika Flashcards
Kako opišemo eno kategorialno spremenljivko?
Ker je to opisna statistika, samo opišemo kako pogosto se neka stvar pojavi. To prikažemo s stolpičnimi diagrami ali s tabelami. Stolpični diagram se od histograma loči po tem, da so pri stolpičnem diagramu med stolpci razmiki (izogibaj se krogom = evil!)
Kako prikažemo več kategorialnih spremenljivk?
Prvi večih spremenljivkah želimo prikazati, kako pogosto se pojavi kombinacija dveh ali več spremenljivk. Uporabimo kontingenčno tabelo ali pa kombinirani graf. Pri tabeli laahko izbiramo med prikazom odstotkov znotraj vrstic, znotraj stolpec ali skupnih odstotkov.
Kako opisujemo numerične spremenljivke?
Najprej pogledamo zbrane podatke in jih uredimo po velikosti (uredimo v ranžirno vrsto). Nato lahko prikažemo, kako pogosto se pojavljajo posamezne vrednosti spremenljivke, izračunamo pa lahko tudi mere centralne tendence in mere razprženosti. Vrednostim v ranžirni vrsti lahko določamo range. Absolutni rang nam pove položaj podatka, ne glede na število vseh podatkov (mesto v ranžirni vrsti). Kadar imamo eč enakih podatkov, te rangiramo z vezanimi (povprečnimi) rangi. Uporabljamo tudi relativni/percentilni rang (položaj podatka glede na skupino.
Naštej in opiši različne načine prikazovanja porazdelitve
Lahko prikažemo z:
* frekvenčno razdelitvijo; uporabljamo kadar je vzorec manjši od 100. Ko podatke uredimo v ranžirno vrsto, seštejemo kolikokrat se določena vrednost pojavi. Za prikaz lahko uporabimo tabelo ali histogram.
* Porazdelitev deležev; pove nam, kolikšen odsototek vseh enot ima določeno vrednost. porazdelitev deležev uporabimo, kadar je n<100. Kot pri frekvenčni porazdelitvi seštejemo, kako pogosto se pojavi neka vrednost, nato pa število delimo s številom vseh enot.
* Kumulativna porazdelitev; (kumulativna frekvenca cp) izraža število eno, ki imajo manjše vrednosti od določene statistične enote oz. manjše vrednosti od gornje meje določenega razreda. Izračunamo jo lahko za frekvence ali deleže.
* Združevanje v razrede: podatke lahko tako združimo, da dobimo boljši pregled in bolj stabilne frekvence. Takrat frekvenčna porazdelitev prikazuje, kako pogosto se neka vrednost pojavlja znotraj razreda. Težava združevanja je, da ni objektivnega načina združevanja, niti tega kakšna je optimalna širina intervala in kam postaviti izhodišče. Potrebno je preizkušati z različnimi metodami združevanja in izbrati najbolj optimalno (ne smemo imeti preveč stolpcev ali premalo; imamo algoritme, ki to določajo)
Na kakšne načine lahko določimo položaj določene vrednosti v porazdelitvi?
Lahko jih ločimo po:
* kvantilih, vrednosti, ki razdelijo vrsto na več delov. Glede na število delov ločimo percentile (ločijo na 100 enakih delov), mediano (dva enaka dela), kvartile (4 enake dele) ali decile (10 enakih delov).
Kaj so percentilni rangi in kako jih določamo?
Percentilni rang dosežka (PR) nam pove, kolikšen delež podatkov je enakih ali nižjih od tega dosežka. Vrednosti dosežka pa pravimo** percentil (Ppr).
Primer: zanima nas, kako uspešni smo bili na izpitu. Dosegli smo 65 točk, kar nas uvršča v rang 85. To pomeni, da smo boljši od 85% sošolcev. Profesor se je odločil, da bo moralo najslabših 10% izpit ponavljati še enkrat. 10% znaša 20 točk; to pomeni da morajo vsi, ki so pisali 20 točk ali manj ponovno pisati test.
Percentilne range lahko določamo:
* Iz ranžirne vrste: podtke uredimo v ranžirno vrsto in jim določimo absolutne range (Rx). Percentilni rang izračunamo po formuli (PR = (Rx - 0.5) /n. Enotni zamik (0,5) odštejemo zato, ker mora biti R zvezna spremenljivka (1 sega od 0,5 do 1,5)
* Iz frekvenčne porazdelitve: najprej določimo kumulativne frekvence (cf), ki jim nato odštejemo polovico absolutnih frekvenc (f/2). Tako dobimo kumulativno frekvenco sredine razreda (predpostavimo, da ima znotraj vsakega razreda pol ljudi višji in pol nižji rezultat)
Kako določamo percentil?
Včasih želimo kolikšen rang bi imel nek posameznik, ki ga ni med rezultati. Takrat si pomagamo z interpolacijo.
Ppr(x) - Ppr(0)/Ppr(1) = Ppr(0) = PR(x) - PR(0)/PR(1) - PR(0)
Ppr(x) in PR(x) = vrednost in rang iskanega rezultata, Ppr(0) in PR(0) je vrednost najbližjega nižjega rezultata, Ppr(0) in PR(0) pa vrednost in rang najbljižjega višjega rezultata.
Primer: učenci so pisali test. Zanimanas, kakšen rang bi dosegel učenec z 10 točkami. Pogledamo v tabelo s percentilnimi rangi. Vidimo, da je najbližji višji rang 0,077 s percentilom 11,5. Najbližji nižji prang pa je 0,038 s percentilom 7,5. S pomočjo formule izračunamo percentil za poljubnega učenca.
Opiši prikaz okvira z ročaji (box and whiskers plot)
Okvir z ročajo je eden izmed prikazov številskih spremenljivk. Pri tem grafu si moraš zapomnit:
* interkvartilni razmik= interval, v katerme imamo srednjo polovico vrednosti (od prvega do tretjega kvartila, torej 2. in 3. kvartil)
* Osamelci = vrednost, ki bistveno odstopa od večine ostalih. Kot bistveno odstopanje vzamemo tiste rezultate, ki so od Q oddaljeni več kot 1,5 interkvartilnega razmika (tisti, ki so za 1,5x oddaljeni od višine zaboja)
* Pogojni minimum in maksimum sta najmanjši spodnji in zgornji vrednosti in nista osamelca (to so te črte nad in pod zabojem, the whiskers if you will)
Poleg frekvenčne porazdelitve, kako lahko še predstavimo značilnosti številskih podatkov?
Predstavimo jih lahko preko opisnih statiskih, ki jih lahko razvrstimo v tri kategorije:
* mere centralne tendence (mere povrpečja) = vrednost, ki je tipični oz. najpolj reprezentativen predstavnik proazdelitve spremenljivke. Imenujemo jih tudi mere centralne lokacije oz. srednjega položaja (Spremenljivke). Tu imamo modus (Mo), mediano(Mdn), aritmetično sredino (M), harmonično sredino (H) in geometrično sredino (G)
* Mere razpršenosti: odražajo stopnjo različnosti pdoaktov oz. vrednosti spremenljivke (večja kot je razpršenost, v večji meri so si podatki različni. Tu pomembni pojmi so razmiki (variacijski zamik, interkvartilni razmik, interdecilni razmik); mere razpršenosti (osnovane na odklonih, običajno izračunanih kot razlika med vrednostjo in določeno mero centralne tendence: interkvartilni odkllon, povprečni absolutni odklon od aritmetične sredine, varianca, standardni odklon, koeficient variacije); mere oblike porazdelitve (za opis oblike porazdelitve potrebujemo teoretično porazdelitev, običajno je to oblika normalne porazdelitve N.P. . Spoznali bomo meri asimetričnosti (As) in sploščenosti porazdelitve (Spl). Mera aritmetičnosti kaže, ali ima porazdelitev spremenljivke v primerjavi z N.P. ‘‘podaljšan’’ levi rep ali desni rep. Mera sploščenosti kaže, ali je porzdelitev spremenljivke v primerjavi z N.P. bolj koničasta ali bolj sploščena)
Razlika med modusom, mediano in aritmetično sredino
Modus uporabimo pri nominalnih spremelnjivkah, lahko tudi pri ordinalnih, intervalnih in razmernostnih če so nezvezne in imajo malo različnih vrednosti (npr. šolske ocene od 1-5).
Modus je vrednost spremenljivke z največjo frekvenco (porazdelitev ima lahko več modusov oz. jasno razvidnih “vrhov”). Čeprav lahko modus računamo za spremenljivke na vseh merskih ravneh, ga običajno računamo le na nominalnih lahko pa tudi na višjih ravneh, če so spremenljivke nezvezne in imajo malo različnih vrednosti.
Mediano uporabimo pri ordinalnih spremenljivkah, lahko tudi pri intervalnih in razmernostnih, kadar:
* je nekaj podatkov ekstremnih oz. je porazdelitev asimetrična
* nekateri dosežki nimajo določljivih vrednosti oz. če je porazdelitev na enem repu odprta
* Primer: za preiskus delovnega spomina uporabimo sezname, ki so dolgi največ 10 besed. Nekateri udeleženci lahko imajo zelo dobre mnemotehnike in si zapomnijo celotno zaporedje. Zanje ne vemo, koliko besed si dejansko ahko zapomnijo (morda celo več kot 10). V tem primeru lahko še vedno izračunamo mediano, ne pa tudi aritmetične sredine).
Mediana je 50. percentil (ali Q2, D5), torej (sredina) vrednosti, pod/nad katero leži 50 % podatkov. Mediano lahko poiščemo tako,
da najdemo vrednost, ki je v ranžirni vrsti na sredini (v primeru sodega numerusa pa je mediana povprečje srednjih dveh vrednosti).
Če želimo uporabiti klasično linearno interpolacijo, jo izračunamo tako kot katerikoli drugi kvantil.
Aritmetično sredino uporabimo pri intervalnih in ramernostnih spremenljivkah v preostalih primerih.
Aritmetična sredina ima v primerjavi z modusom in mediano pomembno lastnost, to je, da je bolj občutljiva na izstopajoče vrednosti. Izračunamo po enačbi:
𝑀 =𝛴𝑥/n
Kaj so centralni momenti?
Centralne momente lahko razumemo kot nekakšno lastnost, ki opisuje porazdeltiev in se nanaša na aritmetično sredino. Vse mere, ki so določen centralni moment (v brezdimenzionalni obliki) temeljiji na odklonu aritmetične sredine (X-M). R-ti moment izračunamo po spodnji enačbi
Ur =∑(𝑥𝑖 − 𝑀)⌃𝑟/𝑛; 𝑟 = 1, 2, 3 …(s tem da je ta u grški mali m)
Poznamo več centralnih momentov:
* prvi centralni moment je vedno enak 0: pove nam vsoto odklonov od aritmetične sredine (ker so odkloni tako pozitivni kot engativni, je njihova vsota vedno enaka 0)
* Drugi centralni moment (varianca): ničelni vsoti se izogne z uporabo kvadriranja; pove nam, v kolikšni meri vrednosti odstopajo od povprečja
* tretji centralni moment (asimetričnost): ohrani predznak odklonov, hkrati jih potencira, zato bolj izrazito prikaže asimetričnost v porazdelitvi
* četrti centralni moment (sploščenost) potencira ekstremne vrednosti, zato nam pokaže, ali je porazdelitev sploščena ali koničasta
Kaj je harmonična in kaj geometrična sredina? Kako ju izračunamo?
Harmonična sredina se uporablja takrat, ko računamo povprečje nekih odnosov, ulomkov. Uporabna je, kadar merimo hitrost pri fiksni razdalji (glej primer). Če takrat računamo M pride do napak, ker ne upoštevamo količine. Izračunamo jo kot recipročno aritmetično sredino recipročnih vrednosti (enačba na seznamu)
Primer: V eksperimentu smo smo merili, koliko časa učenci porabijo, da rešijo 60 nalog na testu (podobni eksperimenti bi bili: v kolikšnem času preberejo 100 besed, v kolikšnem času napišejo 5 stavkov itd.). Hitrost dobimo tako, da delimo čas s
številom nalog, nato iz hitrosti izračunamo harmonično sredino
Geometrična sredina se uporablja pri indeksih, pri izračunavanju mere hitrosti nekih sprememb (indeks je količnik med novim rezultatom in prejšnjim rezultatom). Pogoj, da lahko sploh pristopimo k računanju katerekoli G je, da so vse vrednosti pozitivne. Izračunamo jo kot N-ti koren produkta N števil.
Primer: Merili smo, kako se širi besednjak pri majhnih otrocih. Zanima nas, kolikšen je bil povprečni odstotni prirast (hitrost sprememb v besednjaku). Indeks dobimo tako, da delimo besednjak novega meseca z besednjakom prejšnjega, nato iz indeksov
izračunamo geometrično sredino.
Kakšni so lahko odnosi med merami centralni tendence?
Pri porazdelitvah različnih oblik so odnosi med merami različni.
1. Unimodalna, simetrična (Mo=Mdn=M)
2. Bimodalna, simetrična (Mdn = M, imamo dva Mo)
3. Unimodalna, asimetrična v desno (Mo<Mdn<M)
4. Unimodalna, asimetrično v levo (M < Mdn <Mo)
Zakaj v primeru, da se pri določeni spremenljivki pojavijo ekstremne vrednosti, ali pa ima spremenljivka zelo asimetrično porazdelitev, aritmetična sredina ni nujno najprimernejša mera centralne tendence? Kaj je boljša mera?
Pri izračunu artimetične sredine čisto vsaka vključena vrednost prispeva k vsoti, tudi osamelci, ki pa lahko močno spremenijo njeno vrednost. Aritmetična sredina je zelo občutljiva na ekstremne vrednosti. Zato raje uporabimo bolj robustne (manj občutljive) mere kot so:
* Mediana: mediana je kot kvantil določena ali z vrednostjo sredinske vrednosti v ranžirni vrsti ali z vrednostnima, ki ležita tik pod/nad sredino ranžirne vrste
* Prirezana aritmetična sredina: običajno 5% prirezana M, kar pomeni, da na vsaki strani porazdelitve iz izračuna ozločimo 5% največjih in 5% najmanjših vrednosti
* Winsorizirana aritmetična sredina; podobna mera kot prirezana M, le da izbranega odstotka ne izločimo iz izračuna ampak jih zamenjamo z vrednostmi, ki ustrezajo točki, kjer bi ‘‘odrezali’’ največje/najmanjše vrednosti
Kaj je variacijski razmik?
Variacijski izračunamo za razmeroma natančno izmerjene vrednosti zveznih spremenljivk kot razliko med največjo in najmanjšo vrednostjo. Variacijski razmik predstavlja razdaljo med vrednosttima oz. razdaljo med sredinama dveh esktremnih diskretnih vrednosti)
Za diskretne (in nenatančn, običajno na celo vrednost izmerjene zvezne spremenljivke) pa tej razliki prištejemo 1 (variacijski razmik predstavlja število razredov, ki jih lahko vsebuje interval med dvema vrednostima)