Klausimai Flashcards
Kas laikoma efektyviu sprendimu? Pagrindinės efektyvaus sprendimo dalys.
Efektyvūs sprendimai yra pasirinkimai, kurie perkelia organizaciją arčiau prie sutartų tikslų rinkinio per priimtiną laiką.
- Apsibrėžtų konkrečių tikslų, kurių siekiame, rinkinys.
- Būdas įvertinti ir išmatuoti: einama link ar tolstama nuo tikslų?
- Matavimų info turi būti teikiama sprendimų priėmėjams laiku.
Dešifruokite šią tikslų metodiką: SMART.
Specific
Measurable
Assignable / Achievable / Attainable
Realistic / Relevant
Time-bound;
Dešifruokite šią tikslų metodiką: FAST.
Frequently discussed
Ambitious
Specific
Transparent
Dešifruokite šią tikslų metodiką: CLEAR.
Collaborative
Limited
Emotional
Appreciable
Refinable
Kokios technologijos tinka sprendimo priėmimui paremti ir sprendimo priėmimo procesui tobulinti?
o duomenų saugyklos (data warehousing)
o OLAP kubai (on-line analytical processing)
o duomenų tyryba (data mining),
o prognozavimas (forecasting)
Kaip apibūdintumėte veiklos analitiką? Kuo dirbtinio intelekto (DI) taikymai skiriasi nuo veiklos analitikos (VA)?
o Veiklos analitika (business intelligence) yra tikslios, naudingos informacijos pateikimas tinkamiems sprendimus priimantiems asmenims per būtinus terminus, įgalinančius paremti efektyvų sprendimų priėmimą.
o išgauti sprendimų priėmimui naudingas žinias iš duomenų
* duomenų saugyklos – dedikuotos duomenų bazės analizei
* papildomos įžvalgos – mašininis mokymas, prognozavimas.
o DI sistemos atlieka sprendimus automatizuotai (už vartotoją).
* VA įrankiai padeda vartotojui priimti gerą sprendimą, remiantis duomenimis (informacija pateikiama patogia forma)
Kuo ypatingi ir kam naudojami KPI (key performance indicator) matavimai?
Key performance indicator - pagrindiniai veiklos indikatoriai - gyvybiškai svarbių aspektų apibendrinti matavimai
Pagrindinės MS Access programos dalys.
o Access – įrankių, skirtų sukurti ir palaikyti DB, rinkinys
galima Access naudoti kaip apvalkalą darbui su nutolusia DB
o DB – struktūrizuota informacija kompiuteryje
o lentelė (table) – pagrindinis DB objektas
stulpeliai – atributai, laukai (fields)
eilutės – egzemplioriai, įrašai (records)
o reliacinėje DB egzistuoja ryšiai tarp lentelių
supaprastina informacijos išgavimą iš keleto lentelių
korektiškai sumodeliuota DB leidžia taupyti disko vietą
o kiti DB objektai – formos, ataskaitos, užklausos..
padeda įrašyti ar pateikti informaciją, esančią lentelėse
o kiekvienas DB objektas turi keletą rodymo aspektų
lentelės turinys yra [ Datasheet ], o struktūra [ Design view ]
Kam reikalingi ryšiai realiacinėse duomenų bazėse?
Tai leidžia gauti duomenis iš kelių lentelių vienu metu ir padeda užtikrinti, kad duomenų bazėse esantys duomenys būtų nuoseklūs ir atnaujinami.
Kokie pagrindiniai duomenų tipai naudojami duomenų bazės lentelės laukams?
BINARY, VARBINARY 1
Šio tipo lauke gali būti saugomi bet kurio tipo duomenys
BIT 1
Reikšmės Taip ir Ne ir laukai, kuriuose yra tik vieną arba dvi reikšmės.
TINYINT 1
Sveikojo skaičiaus reikšmė nuo 0 iki 255.
SMALLINT 2
Trumpas sveikasis skaičius nuo -32 768 iki 32 767.
INTEGER 4
Ilgasis sveikasis skaičius nuo -2 147 483 648 iki 2 147 483 647. INTEGER LONG, INT, INTEGER4.
MONEY 8
Sveikojo skaičiaus skalė tarp -922 337 203
DATETIME (DOUBLE *) 8
Data arba laiko reikšmė nuo 100 iki 9999 metų.
UNIQUEIDEN TIFIER 128
Unikalus identifikavimo numeris, naudojamas nuotolinėms procedūroms iškviesti.
CHARACTER 2 *
Nuo nulio iki 255 simbolių.
REAL 4
Viengubo tikslumo slankiojo kablelio reikšmė, turinti intervalą nuo -3,402823E38 iki -1,401298E-45 skirtą neigiamoms reikšmėms, o teigiamoms – nuo 1,401298E-45 iki 3,402823E38 ir 0.
FLOAT 8
Dvigubo tikslumo slankiojo kablelio reikšmė, turinti
intervalą nuo -1,79769313486232E308 iki -
4,94065645841247E-324 skirtą neigiamoms
reikšmėms, o teigiamoms – nuo 4,94065645841247E-324 iki 1,79769313486232E308 ir 0.
DECIMAL 17
Tikslus skaičiaus duomenų tipas, kuris saugo
reikšmes nuo 1028 - 1 iki -1028 - 1. Galite nurodyti
ir tikslumą (1 – 28), ir skalę (0 – nurodytas
tikslumas).
TEXT 2 *
Nuo nulio iki 2,14 gigabaitų.
IMAGE ∞
Nuo nulio iki 2,14 gigabaitų. Naudojamas OLE
objektams.
Kaip reliacinėse duomenų bazėse modeliuojamas (išsprendžiamas) “daug-su-daug” ryšio atvejas?
- ryšys išskaidomas per tarpinę lentelę
- gaunami du nauji vienas-su-daug ryšiai (su-daug prie tarpinės lentelės)
Kam naudojama SQL kalba? Kokia sintaksės struktūra pasižymi SELECT sakinys?
SQL (Structured Query Language) yra standartizuota releacinių duomenų bazių kalba duomenims aprašyti ir manipuliuoti jais.
SQL sakinys SELECT yra pagrindis sakinys DB-je esantiems duomenis išgauti, turintis tokią užklausos forma:
SELECT [Distinct] <stulpelių>
from <lentelės>
[where <paieškos>]
[group by <stulpelių> [having <paieškos>]]
[order by < stulpelių vardai> ]
[save to temp <lentelės> (stulpelių sąrašas)
[keep]]</lentelės></paieškos></stulpelių></paieškos></lentelės></stulpelių>
Kam SELECT sakinyje naudojama WHERE komanda ir kokiu būdu ji leidžia apjungti lenteles?
WHERE nurodo sąlygas, pagal kurias atrenkami kortežai. WHERE sąlygoje galima panaudoti tokias logines jungtis (pirmumo tvarka):
* NOT - išrenka kortežus, kurie netenkina pateiktos sąlygos;
* AND - tenkina abi sąlygas;
* OR - tenkina bent vieną sąlygą.
pvz WHERE A.name = “Jonas” AND B.name = “Jonas”
Ką atlieka šios SELECT sakinio sintaksės komandos - ORDER BY (ASC, DESC), GROUP BY, HAVING?
Norint gauti išrūšiuotus pagal tam tikrą kriterijų duomenis, SELECT sakinys pabaigiamas ORDER BY.
Pagal nutylėjimą rikiuojama didėjančia (ASC) tvarka, bet galima rikiuoti mažėjančia (DESC) tvarka, nurodant
gale.
Eilučių grupavimą realizuoja konstrukcija GROUP BY.
Sąlygotos eilučių grupės nurodomos HAVING sakiniu (analogiškai WHERE sakiniui).
Kokios agregavimo funkcijos galimos SELECT sakinio pradžioje kai naudojame GROUP BY?
Užklausa, kurios gale naudojamas GROUP BY paprastai pradžioje turi turėti COUNT, AVG, SUM.
Kokia SQL sintaksės komanda atitiktų WHERE filtravimą pagal sąlygas po GROUP BY panaudojimo?
Having
Kas yra koreliuotos užklausos? Kodėl jų reikėtų vengti?
Koreliuota užklausa - tokia užklausa, kurios dalinės užklausos rezultatas priklauso nuo išorinės užklausos rezultato.
Koreliuotų užklausų reiktų vengti, kadangi sunku tikėtės, jog jos bus vykdomos efektyviai.
Kokios SELECT sakinio WHERE dalyje naudojamos komandos neišsiverčia be koreliuotų užklausų?
FROM?
Unknown IS THIS RIGHT?
Kurį JOIN variantą dviejų lentelių apjungimui atitiktų toks SQL sakinys: SELECT * FROM Table1, Table2 ?
FULL OUTER JOIN?
Unknown IS THIS RIGHT?
Pagrindiniai darbo eigos su Power BI įrankiu žingsniai.
o įkeliame duomenis į Power BI Desktop, aptvarkome su Query Editor, sukuriame pradinę ataskaitą (report)
o galimybė analizuoti duomenis rašant klausimus (QA)
o sukurtą ataskaitą publikuojame į Power BI servisą
o Power BI servise galima ataskaitą papildyti
o vizualizacijom, vizualizacijas iškelti į švieslentę
įdomių vizualizacijų generavimas (get insights)
o dalinamės sukurtom ataskaitom ir švieslentėm su kitais, pvz. daug keliaujančiais žmonėmis
o vėliau galima interaktyviai peržiūrėti sukurtas ataskaitas ir švieslentes su Power BI Mobile
o pasikeitus duomenims vizualizacijos atsinaujina
Kokie duomenų šaltiniai gali būti naudojami įkeliant duomenis į Power BI?
Excel, SQL, Access, Oracle, Azure, SharePoint
Kokius alternatyvius įrankius žinote švieslenčių kūrimui be Power BI?
flexdashboard, Google Data Studio, Periscope Data, Chartio, Kibana, BIRT, Pentaho, ClicData, SpagoBI, Yellowfin
Kokie pagrindiniai duomenų tipai yra palaikomi Power BI / Power Query Editor ekosistemoje?
Unknown
Kokios duomenų tvarkymo galimybės yra Power Query Editor lango meniu juostoje?
Unknown
Apjungiant (Merge komanda) lenteles per Power Query Editor su PowerBI kokie apjungimo tipai (join type) yra galimi?
Left Outer
Right Outer
Full Outer
Inner
Left Anti
Right Anti
Kokio tipo (kardinalumo) ryšiai galimi tarp lentelių?
one-to-one
one-to-many
many-to-one
many-to-many
Unknown IS THIS RIGHT?
Kuris ryšio kardinalumo tipas populiariausias reliacinėse DB? Kada praverčia “vienas-su-vienu” atvejas?
Populiariausias one-to-many.
Kiekvienam lentelės įrašui taikomas įrašo dydžio apribojimas. Kartais lentelės dalijamos į dvi dalis (pagrindinėje lentelėje pateikiama dažniausiai užklausa informacija), kad įrašo dydis nebūtų per didelis.
Unknown IS THIS RIGHT?
Kuo skiriasi išorinis raktas (foreign key) nuo pirminio rakto (primary key)? Kurio tipo ryšiui jie būdingi?
Pirminis raktas užtikrina, kad konkretaus stulpelio reikšmės būtų unikalios. Išorinis raktas yra stulpelis arba stulpelių grupė reliacinės duomenų bazės lentelėje, kuri suteikia ryšį tarp dviejų lentelių duomenų. Jis vienareikšmiškai identifikuoja įrašą reliacinės duomenų bazės lentelėje.
vienas-su-daug, vienas prie pirminio ir daug prie išorinio
Kuo skiriasi faktų lentelė nuo dimensijos lentelės?
o dimensijos su pirminiu raktu
o faktai su išoriniu raktu
Kokius žinote pagrindinius DB schemų tipus?
o žvaigždė
o snaigė
o faktų žvaigždynas
Kuo skiriasi “snaigės” schema nuo “žvaigždės” schemos? Pagrindiniai privalumai ir trūkumai.
o žvaigždė – vienas faktas ir dimensijos (greitos užklausos ir skaičiavimai, labai paskirstomos; specializuotas vaizdas, netaupoma saugyklų vieta)
o snaigė – vienas faktas ir multidimensijos (taupoma saugyklų vieta, labai normalizuotas modelis; lėtėja užklausos ir skaičiavimai, sunkiau paskirstoma)
Kokiam interaktyvumui PowerBI vizualizacijose naudojamos datos (arba kategorijų) hierarchijos?
o detalizavimui
Koks DAX sintaksės simbolis naudojamas tekstinių stulpelių apjungimui (pvz. iki unikalaus rakto)?
o kablelis
Koks skirtumas tarp skaičiuojamo mato / lauko (New measure / New field) ir skaičiuojamo stulpelio (New column)?
o matas – apibendrinta reikšmė visai lentelei‘ reikšmių nebūtinai tiek, kiek eilučių lentelėje
o stulpelis – lentelė tiesiog papildoma nauju stulpeliu; reikšmių būtinai tiek, kiek eilučių
Kuriant skaičiuojamą stulpelį, kaip skiriasi DAX funkcijų RELATED ir RELATEDTABLE taikymas? Kurioje ryšio pusėje jos yra taikomos?
o RELATED paima stulpelį iš kitos lentelės, laukas kuriamas faktų lentelėje
o RELATEDTABLE kai kuriame lauką dimensijų lentelėje
Ką skaičiuoja DAX funkcija TOTALYTD? Kurios lentelės datos lauką reikėtų naudoti vizualizacijose, kai TOTALYD parametru nurodome datas iš dimensijų lentelės?
o skaičiuoja funkciją nuo metų pradžios iki einamosios datos (ketvirčio, mėnesio) pagal datos stulpelį
Kokias žinote darbui su duomenimis laike DAX sintaksės funkcijas, kurios gali būti nurodomos CALCULATE antruoju parametru?
o PREVIOUSMONTH, SAMEPERIODLASTYEAR
Kokias žinote naujos lentelės (New table) kūrimo funkcijas DAX sintaksėje? Kada gali prireikti naujos lentelės?
o distinct
o select
Kokios žinote kitas panašias į TOTALYTD laiko intelektikos funkcijas kaupiamąjai sumai skaičiuoti?
o TOTALMTD, TOTALQTD
Kuo ypatinga DAX funkcija CALCULATE ir kokia jos sintaksė?
o skaičiuoja išraišką, naudodama filtrus
CALCULATE(<expression>[, <filter1> [, <filter2> [, …]]])</filter2></filter1></expression>
Kokios yra apibendrinančios (agregavimo) funkcijos, nurodomos CALCULATE arba TOTALYTD pirmuoju parametru?
o sum, countrows, count
Kokie filtravimo variantai egzistuoja Power BI vertikalioje filtrų juostoje?
o Basic filters on: visual / page / all pages.
o Slicers, Sync-slicers
o Cross-highlighting, cross-filtering
o Advanced filters
o Top N filters, Relative date
o Include / Exclude filters
Kokias pagrindines standartines PowerBI vizualizacijas (grafikus) žinote?
o stulpelinės diagramos (stacked bar, stacked column, clustered bar chart, clustered column, 100%stacked bar..)
o linijinės (line, area, stacked, line and stacked, line and clustered column, ribbon)
o žiedinė
o waterfall
o funnel
o scatter
o treemap
o žemėlapiai
o kortelės
o slicer, matrix, table, R script…
Kuri iš standartinių vizualizacijų turi animacijos (Play Axis) galimybę?
o išsibarstymo grafikas (scatter chart)
Kokiu eiliškumu pagal suprantamumą galima išrikiuoti vizualizacijų tipus?
o stulpelinės
o linijinės
o žiedinė
o žemėlapis
o kortelės
o pjaustyklės
o lentelės
o sukiniai
Su kuriuo iš duomenų tipų (Nominal, Ordinal, Interval, Ratio) įmanoma daugiausia matematinių operacijų? Su kuriuo iš tipų įmanoma mažiausia matematinių operacijų?
Daugiausiai Ratio, o mažiausiai Nominal
Kokias iš pagrindinių skaitinių duomenų charakteristikų žinote padėčiai ir kokias sklaidai įvertinti?
o padėtis – vidurkis, mediana, moda, kvartiliai
o sklaida – maksimumas, minimumas, dispersija, standr. nuokrypis, imties plotis, kvartilio plotis, variacijos koeficientas
Ką parodo standartinis nuokrypis (standard deviation) ir ką standartinė vidurkio paklaida (standard error of the mean)?
o nuokrypis – matuoja sklaidą apie vidurkį
o paklaida – matuoja vidurkio tikslumą
Kaip apskaičiuojami z-taškai ir į kokį klausimą jie atsako (koks jų matavimo vienetas)?
o M/s=z, per kiek standartinių nuokrypių mes nutolę nuo vidurkio
Kokia koreliacijos nulinė hipotezė ir kokia p-reikšmė indikuoja statistiškai reikšmingą koreliaciją?
o p-value <0,1
Koks statistinis testas naudojamas korektiškai palyginti du vidurkius ir kokia jo nulinė hipotezė?
o t-kriterijaus testas
Laiko eilutės dekompozicija išskaido dinamiką į komponentus - į kokius?
o trendas
o sezoninis
o cikliškumas
o klaidos
Kokius paprastus vienmačių laiko eilučių prognozavimo metodus žinote?
o vidurkis, naivus, sezon-naivus, naivus su drift’u
Kokius sudėtingus vienmačių laiko eilučių prognozavimo metodus žinote?
o regresija - tiesinis/kvadratinis trendas, sezoniniai dummy
Kokie yra pagrindiniai laiko eilučių prognozavimo klaidų variantai?
o RMSE (root mean square error)
o MAPE (mean absolute percentage error)
o MASE (mean absolute scaled error)
Kada labiau tinka naudoti MAPE arba MASE prognozavimo klaidą vietoje RMSE? Kuo MASE pranašesnė už MAPE?
o tinka lyginti skirtingoms prognozėms
o MAPE trūkumas – netinka, kai artėja prie 0
Kokiomis esminėmis savybėmis pasižymi blokų grandinė?
o patikimumas
o decentralizuota struktūra
o duomenys įrašomi nepakeičiamai
o saugumas
Kokiu tikslu tranzakcijos bloke koduojamos Merkel medžiu?
o leidžia patikrinti transakcijos faktą
Kokia programavimo kalba rašomas Ethereum išmanusis kontraktas?
o solidity
Kuo skiriasi privati blokų grandinė (private) nuo viešos (public)?
o Vieša – anonimiška, nėra admin, apsaugota, bet lėta
o Privati – prisijungimas pakviečiant į konsorciumą, egzistuoja teisės ir admin
Kada blokų grandinė tinkamesnė už reliacinę duomenų bazę?
o patikimumas
o decentralizuota struktūra
Koks blokų grandinės pritaikymas yra ‘timestamping’ paslauga?
o notaro lygio įrodymas, kad dokumentas jau egzistavo nurodytu laiku
Kokias alternatyvias (t.y. išskyrus Bitcoin) kriptovaliutas žinote?
o Litecoin
o Ethereum
o Zcash
o Dash
o Monero
Duomenų tyrybos procesas: 6 CRISP-DM žingsniai pagal Microsoft, 5 SEMMA žingsniai pagal SAS.
o Pagal MS:
1. Problemos suformulavimas (defining problem)
2. Duomenų parengimas (preparing data)
3. Duomenų tyrinėjimas (exploring data)
4. Modelių parinkimas ir kūrimas (building models)
5. Modelių derinimas ir validavimas (validating models)
6. Modelių implementavimas realiam naudojimui ir atnaujinimas deploying and updating models)
——————
- veiklos suvokimas
- duomenų suvokimas
- duomenų paruošimas
- modeliavimas (modelio derinimas)
- modelio įvertinimas (testavimas)
- pritaikymas, įdiegimas
o SEMMA
Sample from dataset
partition into training, validation and test datasets
Explore dataset
statistically (summary) and graphically (visualization)
Modify, pre-process data
transform variables, impute missing values
Model data
fit predictive models, e.g. regression, tree, k-NN, etc. using test dataset: parameter tuning, feature selection
Assess model
compare models using validation dataset
Kokie yra pagrindiniai duomenų tyrybos uždaviniai, t.y. kokie mašininio mokymosi tipai yra žinomi?
be mokytojo – neprižiūrimas (unsupervised)
* taisyklių išgavimas, klasterizavimo uždavinys,
dimensionalumo mažinimas (pvz. vizualizavimui)
su mokytoju – prižiūrimas (supervised)
* klasifikavimo bei regresijos uždaviniai
dalinai su mokytoju (semi-supervised)
* kada kai kurios išėjimo reikšmės nežinomos
su grįžtamuoju ryšiu (reinforcement)
* kada modelis tobulinamas realiu laiku
Kokie 3-4 pagrindiniai taisyklių gerumo įverčiai naudojami susietumo taisyklių išgavimo uždavinyje (pirkinių krepšelio analizėje)? Žinoti įverčių formules.
o palaikymas P(A,B,C)
o pasikliovimas P(C|A,B)
o pranašumas pasikliovimas / P(C)
o svertas P(A,B,C) – P(A,B)*P(C)
Ką duomenyse randa klasterizavimo uždavinys? Kada jis gali praversti verslo duomenų analizei?
Objektų grupių radimas duomenyse.
Klasterizacijos algoritmai padeda geriau suprasti klientus tiek statinės demografinės, tiek dinaminės elgsenos požiūriu. Panašių savybių klientai dažnai sąveikauja su verslu panašiai, todėl verslas gali gauti naudos iš šios technikos sukurdamas kiekvienam segmentui pritaikytas rinkodaros strategijas.
Unknown IS THIS RIGHT?
Kokius pagrindinius algoritmus klasterizavimo uždaviniui spręsti žinote?
o k-vidurkių, k-medoidų, hierarchinis, DBScan, affinity propagation, spektrinis (k-vidurkiai po PCA)
Kokius vidinius kriterijus, skirtus įvertinti klasterizavimo gerumui, žinote?
o max vidutinis silueto plotis (silhouette > 0.25)
o max atotrūkis (gap, Tibshirani-Walther-Hastie)
o max Dunn indeksas (min atstumas tarp klasterių / max atstumas klasteryje)
o min nutolimas nuo centro kvadratu (WithinSS)
o max Calinski-Harabasz, min Davies-Bouldin..
Kokie dimensionalumo mažinimo pritaikymai? Kokie algoritmai naudojami šiam uždaviniui spręsti?
o PCA – principinių komponenčių analizė
o ICA – nepriklausomų komponenčių analizė
o t-SNE – stochastinio kaimynų įterpimo algoritmas
o kiti algoritmai: SOM, CCA, Isomap, Sammon, LLE..
Kuo mokyme su mokytoju skiriasi regresijos uždavinys nuo klasifikavimo uždavinio?
o tikslo kintamasis- prognozuojama reikšmė:
tolydi – regresija
diskreti - klasifikavimas
Kada klasifikavimo uždavinį galime vadinti detekcijos uždaviniu?
o kai 2 klasės
Kokie modeliai / algoritmai žinomi klasifikavimo uždaviniui spręsti?
o logistinė regresija, tiesinė (bei kvadratinė) diskriminantinė analizė, naivaus Bajeso algoritmas, k-artimiausių kaimynų, sprendimų medžiai, atsitiktinis miškas
Kokios kreivės padeda palyginti detekcijos gerumą tarp skirtingų modelių?
o Didesnė ROC „burė“ – geresnis detektorius
Kokie skaitiniai įverčiai naudojami apibendrinti detekcijos gerumui?
Unknown
Kaip gaunama ir kam naudojama sumaišymų matrica (confusion matrix)?
o Išėjimo reikšmė diskreti arba uždavinys yra klasifikacijos > 2 klasės, tai sumaišymų matrica.
Sumaišymo matrica suteikia galimybę pamatyti ir įvertinti klasifikatoriaus prognozavimo klaidas.
Kas mokyme su mokytoju laikoma persimokymo problema?
o Persimokymas = modelio klaida apmokymo duomenims yra žymiai mažesnė negu testavimo.
Kam reikia duomenų padalinimo į apmokymo ir testavimo imtis?
Modelio gerumui įvertinti stebėjimai padalinami į:
apmokymo ir testavimo.
Unknown IS THIS RIGHT?
Kaip atliekamas kryžminis patikrinimas mokymo su mokytoju sėkmingumo įvertinimui?
Unknown