osnovne analize podataka Flashcards
analizom podataka bavi se matematička statistika
da
Statistika je grana znanosti koja se bavi
– organiziranim prikupljanjem,
– analizom i
– tumačenjem podataka,
–> s ciljem da se objektivno evaluiraju zaključci temeljeni na podacima.
kako zovemo obradu velikih količina podataka
dubinska analiza podataka, engl. data mining
najčešća korištena mjera disperzije je
standard devijacija
navedeni mat izraz (standarda devijacija)
služi za izračun mjere kojem se prikazuje radap distribucije
koi je nedostatak standarne devijacije
usko povezana s arit sredinom, te je njena reprezentativnost smanjena
koje su vrste srednjih vrijednosti
– aritmetička sredina
– geometrijska sredina
– harmonijska
– mod
– medijan
koja je najvažnija srednja vrijednost
aritmetička sredina
koi je nedostatak arit sredine
negative utjecsaj visokih i niskih vrijednosti za njezionu reprezentivnost
koja srednja vrijednost se najčešće koristi za u analizi vremenskih nizova
geo sredina
koja srednja vrijednost se definira kao recipročna vrijednost aritmetičke sredine recipročnih vrijednosti numeričke varijable x
harmonijska sredina
koja je dominantna srednja vrijednost?
mod
kako se zove vrijednost koja se najčešće pojavljuje u nekom statičkom skupu, tj. vrijednost obilježja s najvećom frekvencijom
mod
koja je centralna vrijednost
median
položajne vrijednosti koje uređeni statički niz dijele na 4 jednaka dijela zovemo?
kvartili
koliko imamo kvartila
3,
Q1,Q2(median) I Q3
položajne vrijednosti koje uređeni stat. niz dijele na 100 jednakih dijelova (ima ih 99) su?
centili(percentili)
položajne vrijed. koje uređeni stat. niz dijele na 10 jednakih dijelova
decili
mjere vezane za arit sredinu su
standardna devijacija
varijanca
koeficijent varijabilnosti
mere vezane za medijan
percentili
kvartili
prosječno odstupanje od arit sredine (mat netočno) je?
standardna devijacija
prosječno kvadratno odstupanje od aritmetičke sredine je?
varijanca
varijancu je teško interpretirati jer je kvadratna mjera
točno
standardna devijacija, varijanca i raspon, koeficijent varijabilnosti služe za izračun čega?
mjera kojom se opisuje rasap distribucije
arit sredina, medijan i mod, geo i harmo sredins su mjere koje služa za izračun?
mjerama centralne tendencije
mjera disprezija koja predstavlja postotni udio standarne devijacije u odnosu na vrijednost aritmetičke sredine je
koeficijent varijacije
tip statističke analize koji u analizi obuhvaća uzorak statističkog skupa naziva se INFERENCIJALNA statistika
točno
tip statističke analize koji u analizi obuhvaća cijeli statistički skup naziva se deskriptivna statistika
točno
koja statistika opisuje činjenice dobivene opažanjem ili mjerenjem neke pojave
DESKRIPTIVNA
koja statistika sadrži statistički postupci koji nam omogućuju testiranje istraživačkih hipoteza, odnosno zaključivanje
INFERENCIJALNA
PODATAK je dio informacije;veličina dobivena mjerenjem ili opažanjem
da
skup podataka postaje informacijautrenutku kada su relevantni za proces odlučivanja
da
skup jedinica čija svojstva ispitujemo je
statistički skup
izmjerena ili opažena svojstva jedinica statističkih skupova
statistički podaci
prema opsegu razlikujemo stat.skupove koji su
– konačni
– beskonačni
objekt nad kojim je provedeno
mjerenje i od kojeg je prikupljen podatak
statistička jedinica analize
obilježje, svojstvo koje je mjereno
na jedinici statističke analize
variable
variable prema visti podataka su
kategoričke i numeričke
Kvantitativne varijable se uvijek mogu pretvoriti u kvalitativne!
točno
kategoričke varijable su:
frekvencija
proporcija (udio)
postotak (postotni udio, udio*100)
Numeričke varijable s obzirom na razinu točnosti s kojom je moguće upisati podatak:
diskretne i kontinuiriane
numeričke varijable koje mogu poprimiti samo određene numeričke vrijednosti (npr. dob u godinama, br. radnih dana i sl.) su
diskretne
numeričke varijable koje mogu poprimiti bilo koju numeričku vrijednost su
kontinuirane
(učestalost) pojedinog obilježja se zove?
frekvencija
frekvencija obilježja /ukupni broj podataka je
proporcija
kako možemo prikazivati kategoričke varijable
grafički i tablično
numeričke varijable možemp prikazivati pomoću frekvencija
tablično:frekvencijse tablice
grafički:
– histogram
– poligon frekvencija
– distribucija kumulativnih frekvencija (poligon kumulativnih frekvencija
Kako sažeto prikazati podatke kontinuirane numeričke varijable?
podjela vrijednosti varijable (podataka) u razrede
formiranje histograma
– određivanje frekvencija za pojedine razrede
definiranje funkcije distribucije
Kako opisati distribuciju frekvencija?
- mjerama centralne tendencije
- mjerama rasapa distribucije