exam Flashcards
Sprendimai nulemia
išlaidas, pardavimus ir pelną.
Sprendimai priimami dėl/kam
dėl gamybos, rinkodaros ir personalo
Efektyvių sprendimų priėmėjų reikia kokiuose lygmenyse
visuose
Efektyvūs sprendimai
pasirinkimai, kurie perkelia organizaciją arčiau prie sutartų tikslų rinkinio per priimtiną laiką.
Efektyvių sprendimų dalys
konkretūs tikslai;
konkretūs matavimai;
laiku parengiama pradinė ir grįžtamojo ryšio informacija.
Tikslų kėlimo evoliucija
Vadovautis siekantis tikslais - >
SMART (specif, išmat, pasiek, realist/svarb, laiko apr) ->
FAST (diskut, ambicing, spec, galima sekti pokyti)->
CLEAR ->
Objectives and Key results (google, netflix)
technologijos tinkančios sprendimo priėmimui paremti ir procesui tobulinti
- Duomenų saugyklos (data warehousing).
- OLAP klubai (on-line analytical processing).
- Duomenų tyryba (data mining), prognozavimas (forecasting).
Veiklos analitika
(business intelligence) yra tikslios, naudingos informacijos pateikimas tinkamiems sprendimus priimantiems asmenims per būtinus terminus, įgalinančius paremti efektyvų sprendimų priėmimą.
išgauti sprendimų priėmimui naudingas žinias iš duomenų
duomenų saugyklos - dedikuotos DB analizei
papildomos įžvalgos - masininis mokymas, prognozavimas.
Dirbtinis intelektas (DI) ar veiklos analitika (VA)
DI sistemos atlieka sprendimus automatizuotai (už vartotoja)
VA sistemos padeda vartotojui priimti gera sprendima, remiantis duomenimis (informaciją pateikiama patogia forma)
KPI
Pagrindiniai veiklos indikatoriai - gyvybiškai svarbių aspektų apibendrinti matavimai, būklės įvertinimui.
Pagrindinės MS Access programos dalys
Access - įrankių, skirtų sukurti ir palaikyti DB, rinkinys (naudojamas kaip apvalkalas darbui su nutolusia DB)
DB - struktūrizuota informacija kompiuteryje
lentelė (table) - pagrindinis DB objektas, saugomi duomenys
stulpeliai - atributai, laukai (fields)
eilutės - egzemplioriai, įrašai (records)
reliacinėje DB egzistuoja ryšiai tarp lentelių (1-, 1-1, -(tarp.l->2nauji 1-)
Lentelės turi raktinius atributus, reikšmės unikalios, raktai gali būti sudėtiniai (raktą sudaro keli atributai/reikšmių kombinacija unikali)
supaprastina informacijos išgavima iš keleto lentelių
korektiskai sumodeliuota DB leidzia taupyti disko vieta
kiti DB objektai - formos, ataskaitos, uzklausos..
padeda įrašyti ar pateikti informacija, esancia lentelėse
kiekvienas DB objektas turi keletą rodymo aspektu
lentelės turinys yra [ Datasheet ], o struktūra [ Design view ]
Kam reikalingi ryšiai realiacinėse duomenų bazėse?
Supaprastina informacijos išgavimą iš keleto lentelių. Korektiškai sumodeliuota DB taupyti disko vietai.
Kaip reliacinėse DB modeliuojamas (išsprendžiamas) “daug-su-daug” ryšio atvejas?
Ryšys išskaidomas per tarpinę lentelę;
Gaunami du nauji vienas-su-daug ryšiai;
pagrindiniai duomenų tipai naudojami duomenų bazės lentelės laukams
BINARY.VARBINARY BIT REAL FLOAT DECIMAL INTEGER SMALLINT TINYINT MONEY TEXT IMAGE DATETIME(DOUBLE *) UNIQUEIDENTIFIER CHARACTER
SQL
standartizuota releacinių duomenų bazių kalba duomenims aprašyti ir manipuliuoti jais
SELECT sakinys
DBVS suformuoja užklausos rezultatą - laikiną lentelę, kuri egzistuoja tik užklausos peržiūrėjimo metu (bet ją įmanoma išsaugoti su save to temp arba select..into)
WHERE
WHERE – nurodo sąlygas, pagal kurias atrenkami kortežai. WHERE sąlygoje galima panaudoti tokias logines jungtis (pirmumo tvarka): NOT AND OR
ORDER BY
Norint gauti isrūšiuotus pagal tam tikra kriteriju
duomenis, SELECT sakinys pabaigiamas ORDER BY.
Po bazinio žodžio šioje frazėje vartojama stulpelių
vardai arba eilės numeriai SELECT frazėje,
atskiriant jus kableliais.
Pagal nutylėjima rikiuojama didėjančia (ASC) tvarka, bet
galima rikiuoti mažejanęia (DESC) tvarka, nurodant
gale.
Kaip gauti visų detalių numerius ir ju svorius, išrūšiuotus
pagal svorj didejimo tvarka, ir papildomai pagal numeri
mažėjancia tvarka, kai svoriai sutampa?
SELECT Nr, Svoris FROM Detalės Order by 2, Nr DESC
DISTINCT
SELECT DISTINCT A. Pavarde, A. Būsena FROM Tiekėjai AS A
WHERE A.Miestas=’Vilnius’
agregavimo funkcijos SELECT sakinio pradžioje kai naudojame GROUP BY
COUNT, AVG, SUM
SQL sintaksės komanda atitiktų WHERE filtravimą pagal sąlygas po GROUP BY panaudojimo
HAVING
GROUP BY
Eilučių grupavimą realizuoja konstrukcija GROUP BY:
SELECT DetNr, SUM (Kiekis) AS Kiekiai FROM Tiekimai
Group by DetNr DESC
Užklausa, kurios gale naudojamas GROUP BY
paprastai pradžioje turi turėti COUNT, AVG, SUM.
Pvz. COUNT(laukas, pagal kurį nėra grupuojama)
Numeriai detalių, kurias tiekia daugiau kaip vienas
tiekejas:
SELECT Detr FROM Tiekimai
Group by DetNr having count (*) > 1
JOIN variantas dviejų lentelių apjungimui atitiktų toks SQL sakinys: SELECT * FROM Table1, Table2
SELECT * FROM
A CROSS JOIN B
JOIN variantai
CROSS(OUTER) JOIN • INNER(NATURAL) JOIN • RIGHT/LEFT JOIN
UNION
SELECT Name AVG (Mark) AS Average FROM Grades GROUP BY Name UNION SELECT 'Total' as Name, AVG (Mark) AS Average FROM Grades
SELECT * FROM A, B WHERE A.col1 = B.coll AND A.co12 = B.co12 AND . . .
SELECT * FROM
A NATURAL JOIN B
SELECT * FROM A,
B
WHERE ‹condition>
SELECT * FROM
A INNER JOIN B
ON/USING ‹condition>
IN
SELECT FROM Employee WHERE Department IN ( 'Marketing' , 'Sales')
EXISTS
Select From Employee E Where Exists ( Select * From Manager M Where E. Name = M. Name And E.Dept = M. Dept
AS
SELECT column
AS newName…
SELECT
FROM table
AS newName
Pagrindiniai darbo eigos su Power BI įrankiu žingsniai.
-Įkeliame duomenis | Power BI Desktop, aptvarkomes su Query Editor, sukuriame pradine ataskaita (report)
-sukurta ataskaita publikuojame į Power BI servisą
-Power BI servise galima ataskaita papildyti
vizualizacijom, vizualizacijas iškelti į švieslentę
–galimybe analizuoti duomenis rašant klausimus
–įdomių vizualizaciju generavimas (get insights)
-dalinames sukurtom ataskaitom ir švieslentėm su
kitais, vėliau galima interaktyviai peržiūrėti sukurtas ataskaitas ir švieslentes su Power BI Mobile
-pasikeitus duomenims vizualizacijos atsinaujina
duomenų šaltiniai naudojami įkeliant duomenis į Power BI
All File Database Power Platform Azure Online Services Other
Exel Text/CSV XML JSON Folder PDF SharePoint folder SQL server Orachle database PostgresSQL
alternatyvūs įrankiai švieslenčių kūrimui be Power BI
Qlik View Personal Edition, Periscope Data
BIRT, Pentaho, ClicData,, JasperReports Server, Helical Insight, ELK Stack, Style Scope AE, Keen Dashboard,
Re:Dash,
Google Data Studio, Tableau Public, Chartio, Kibana, Yellowfin, Zoho Reports, Seal Report, Mozaik, flexdashboard
SpagoBI, ReportServer
skirstoma rinka P. Kotler modelyje
įmonės siūloma kaina,
reklamos išlaidos,
paskirstymo išlaidos (prekybos atstovų kiekio),
kredito klientams dydžio.
Kurios tipinės finansinės ataskaitos nusako įmonės padėtį konkrečiu laiko momentu?
Pelno (nuostolio) ataskaita,
Finansinės būklės pokyčių ataskaita (pinigų srautų ataskaita),
Pelno paskirstymas (nepaskirstyto pelno ataskaita),
Balansas.
Galbūt dar šitie: Rinkoje, nuo bendrosios paklausos Kaina, nuo vidurkio Reklamos islaidos, nuo vidurkio Kreditas klientams, nuo vidurkio Prekybos atstovai, nuo vidurkio
kokia seka skaičiuojami Pelno (nuostolio) ataskaitoje esami pelnai
- Bendrasis pelnas
- Veiklos pelnas
- Ataskaitinių metų pelnas (nuostolis) prieš apmokestinimą
- Grynasis pelnas
įmonės rodiklių reikšmės keisis, jei didinsite išlaidas reklamai
Parduotos produkcijos apimtis, prekių savikaina ( ir kaina), finansinės išlaidos (pajamos, pelnas).
įrengimų panaudojimo koeficientas lygus 0,1
Tai reiškia, jog įrenginiai panaudojami tik 10 %. Tokio mažo panaudojimo galimos priežastys: nepakankamai darbuotojų (taip pat galimai jų atlyginimai maži/socialinis biudžetas mažas, darbuotojų našumas), įrenginių nusidėvėjimas
Kokie racionalūs vadybiniai sprendimai rodo gerą marketingo (rinkodaros) specialisto darbą (kas turi įtakos pardavimų didinimui)
Produkcijos apimties padidėjimas (konkurencinga įrenginių rinkos kaina), tinkamos reklamos išlaidos ir prekybos atstovų skaičius.
Ar marketingo specialistas savo sprendimais įtakoja gamybos savikainos reikšmės kitimą
Taip. Reklamos išlaidos ir prekybos atstovų skaičius įeina į prekių savikainą ir kainą, tad būtinas adekvatus minėtų išlaidų paskirstymas.
įtaka gamybos savikainos didėjimui/mažėjimui
Atsargos sandėlyje metų pradzioje Likutis sandelyje metų pabaigoje Produkcijos vertė sandelyje Sandėliavimo išlaidos Pagaminta Parduota Gamybos savikaina Pilnoji savikaina Marketingo rodiklis
įtaka pilnosios savikainos didėjimui/mažėjimui
Pagrindinės medžiagos
Darbininkų atlyginimas, samda, atleidimas
Socialinis biudžetas
įrengimu amortizacija, išlaikymas
Prekybos atstovų atlyginimas, samda ir atleidimas
Reklama
Rinkos tyrimas
Administracijos sanaudos
Pilnoji savikaina, Eur/vnt. (vieneto savikaina
Kam įmonės administracijai naudinga duomenų analitika?
įvertinant įmonės padėtį rinkoje (įmonės rodikliai - paklausa, konkurencija, marketingas ir pan.)
pagrindiniai duomenų tipai yra palaikomi Power BI
o .csv o .xslx – Excel o Dar: Decimal Number Fixed decimal number Whole Number Percentage Date/Time Date Time Date/Time/Timezone Duration Text True/False Binary
duomenų tvarkymo galimybės yra Power Query Editor lango meniu juostoje
o Rename column – stulpelio pavadinimo keitimas
o Convert column type – stulpelio tipo keitimas
o Format column values – formatas (%, kiek skaičių po ,?)
o Reoder columns – stulpelių sukeitimas vietomis
o Replace column values – reikšmės pakeitimas kita
o Expanding related columns – stulpelių išplėtimas
o Splitting columns – stulpelio išskaidymas į 2 atskirus
o Merging columns – atskirų stulpelių apjungimas į vieną
o Adding custom column – naujo stulpelio sukūrimas
o Group by – grupavimas pagal stulpelio reikšmes
o Append – lentelės eilučių prijungimas prie kitos lentelės
o Merge – lentelės stulpelių prijungimas prie kitos lentelės
o Pivot column – eilučių perkėlimas į atskirus stulpelius
Apjungiant (Merge komanda) lenteles per Power Query Editor su PowerBI kokie apjungimo tipai (join type) yra galimi
o Left Outer (all from first, matching from second)
o Right Outer (all from second, matching from first)
o Full Outer (all rows from both)
o Inner (only matching rows)
o Left Anti (rows only in first)
o Right Anti (rows only in second)
tipo (kardinalumo) ryšiai galimi tarp lentelių
o Vienas-su-daug (1:)
o Daug-su-vienu (:1)
o Vienas-su-vienu (1:1)
o Daug-su-daug (:)
ryšio kardinalumo tipas populiariausias reliacinėse DB
Vienas-su-daug (1:*)
praverčia “vienas-su-vienu” atvejas
„vienas su vienu“ ryšio duomenų bazėje scenarijus yra vienos lentelės padalijimas į dvi: viena su privalomais, kita - su neprivalomais stulpeliais.
Kuo skiriasi išorinis raktas (foreign key) nuo pirminio rakto (primary key)? Kurio tipo ryšiui jie būdingi
Pirminis raktas (primary key) unikaliai identifikuoja lentelės eilutę, o išorinis raktas (foreign key) pasiekia kitų susijusių lentelių duomenis. Pirminis raktas dažnai yra nepriklausomas nuo turinio ir automatiškai generuojamas duomenų bazės, kad būtų lengviau atnaujinti duomenis. Išorinis raktas visada gaunamas iš ryšio su kitomis lentelėmis.
Kuo skiriasi faktų lentelė nuo dimensijos lentelės
Faktų lentelėje yra išorinis raktas (foreign key).
Dimensijų lentelėje yra pirminis raktas (primary key)
pagrindiniai DB schemų tipai
o žvaigždės (star) – vienas faktas ir dimensijos
o snaigės (snowflake) – vienas faktas ir multidimensijos
o faktų žvaigždynas (fact constelation) – daug faktų
• Kuo skiriasi “snaigės” schema nuo “žvaigždės” schemos? Pagrindiniai privalumai ir trūkumai.
Snaigės (snowflake) schema
taupoma saugyklų vieta, labiau normalizuotas modelis
lėteja užklausos ir skaičiavimai, sunkiau paskirstoma
Zvaigzdès (star) schema
• greiteja uzklausos ir skaiciavimai, labia paskirstoma
spacializuotas vaizdas, netaupoma saugyklų vieta
Kokiam interaktyvumui PowerBI vizualizacijose naudojamos datos (arba kategorijų) hierarchijos
Datos – pasirinktų duomenų intervalo pradžia ir pabaiga, taip pat naudojamos drill-down ar apibendrinimui.
Detalizavimas (drill-down) ir apibendrinimas (-up)
detalizuoti gilyn pasirinktinai (su pele) Click to turn on Drill Down
apibendrinti aukstyn Drill Up
detalizuoti gilyn apjungiant viska to Go to the next level in hierarchy
detalizuoti gilyn išsleidziant viską Expand all down one level in the hierarchy
DAX sintaksės simbolis naudojamas tekstinių stulpelių apjungimui (pvz. iki unikalaus rakto)
Text concatenation operator
& (concatenation)
Koks skirtumas tarp skaičiuojamo mato / lauko (New measure / New field) ir skaičiuojamo stulpelio (New column)
Measure - skaičiuojamas matas
apibendrinta reikšmė visai lentelei
reikšmių nebūtinai tiek, kiek eilučiu lentelėje
Column - skaičiuojamas stulpelis
lentelė tiesiog papildoma nauju stulpeliu
reiksmių būtinai tiek, kiek eilučių lentelėje
Kuriant skaičiuojamą stulpelį, kaip skiriasi DAX funkcijų RELATED ir RELATEDTABLE taikymas? Kurioje ryšio pusėje jos yra taikomos?
Kuriame nauja lauka faktų lentelėje (* pus.), kurį pasiimam iš lentelės (1, gali buti toli, netureti tiesioginio rysio) su RELATED()
Gross Margin = [SalePrice]-RELATED(Stock[Direct Costs])
Kuriame nauja lauką dimensijos lentelėje (1 pus), susijusia lentele pasiimti su RELATEDTABLE()
patogu kombinuoti su COUNTROWS() funkcija
Clients Per Country =
COUNTROWS(RELATEDTABLE(Clients))
Ką skaičiuoja DAX funkcija TOTALYTD? Kurios lentelės datos lauką reikėtų naudoti vizualizacijose, kai TOTALYD parametru nurodome datas iš dimensijų lentelės?
TOTALYTD – skaičiuoja funkciją (pvz. SUM) nuo metų pradžios iki einamos datos (ketvirčio, mėnesio) pagal datos stulpelį. Datos lauką galima naudoti iš tos pačios lentelės, bet lankstesnis sprendimas būtų imti datos lauką iš datų dimensijos lentelės (DatesRange arba DatesAuto).
Kokias žinote darbui su duomenimis laike DAX sintaksės funkcijas, kurios gali būti nurodomos CALCULATE antruoju parametru?
Sales Total = SUM([Sales]) MoM (month-over-month)
MoM Prev = CALCULATE([Sales Total],
PREVIOUSMONTH(financials[Date])
MoM Ratio = DIVIDE([Sales Total] [MoM Prev], blank())
MoM % Delta = IF(ISBLANK ([MoM Ratio]), blank(),[MoM Ratio]-1)
Kokias žinote naujos lentelės (New table) kūrimo funkcijas DAX sintaksėje? Kada gali prireikti naujos lentelės
Table - skaičiuojama lentelė
Skaičiavimams naudojama DAX sintaksė:
-dalis funkciju yra identiškos kaip ir Excel’yje
-Excel koordinatės (A1: B2) nėra naudojamos
-koordinates nurodomos lentelių ir stulpelių vardais
–pVz. lentelė[stulpelis]
–nenurodant lentelės, tik [stulpeli] bus bandoma ieškoti lentelėje, kurioje skaičiuojamas matas ar laukas yra išsaugotas
Lentelių kūrimas su DAX (calculated table)
DAX formulės rezultatas gali buti - nauja lentele
-SQL SELECT sakinio rezultatas daZniausiai primena lentele
- pvz. su DISTINCT galime sukurti dimensija is stulpelio
VALUES, UNION, INTERSECT, CALENDAR, CALENDARAUTO
CROSSJOIN, NATURALINNERJOIN, NATURALLEFTOUTERJOIN
Kokios žinote kitas panašias į TOTALYTD laiko intelektikos funkcijas kaupiamąjai sumai skaičiuoti?
Laiko funkcijos:
TOTALYTD, TOTALMTD. TOTALQTD
CALCULATE(SUM(lentelës_laukas), datos_laukas)
datos lauka galima naudoti iS tos pačios lentelės, bet lankstesnis sprendimas būtų imti datos lauka iš datų dimensijos lentelės (DatesRange arba DatesAuto)
datu dimensija leistų naudoti datos hierarchijas grafikuose tas aktualu Year-over-Year atveju: SAMEPERIODLASTYEAR bet keblumai naudojant pjaustykle (Slicer), pvz. pagal šalį
Kuo ypatinga DAX funkcija CALCULATE ir kokia jos sintaksė
Funkcija CALCULATE
=CALCULATE(lšraiska; [Filtras1]: [Filtras2]; …; [FiltrasN])
suskaičiuoja israiską, naudodama nurodytus filtrus, tokia tvarka:
Filtro kontekstas modifikuojamas, naudojant argumentus [Filtras1]; [Filtras2]; …;[FiltrasN]
Jei yra eilutės kontekstas, jis perkeliamas prie filtro konteksto
Išraiska skaičiuojama naujame filtro kontekste
DealerSales = CALCULATE(SUM(InvoiceLines[SalePrice]),
Clients[ClientType]=”Dealer”) Make SalePrice DealerS
LowPrice Sales = CALCULATE(SUM(InvoiceLines[SalePrice]),
InvoiceLines[SalePrice] < 50000)
Kokios yra apibendrinančios (agregavimo) funkcijos, nurodomos CALCULATE arba TOTALYTD pirmuoju parametru?
MINX() MAXX() SUMX() AVERAGEX() COUNTX() COUNTAX() GEOMEANX() MEDIANX() PERCENTILEX.EXC() PERCENTILEX.INC() RANKX() STDEVX.P() STDEVX.S() VARX.S() VARX.P()
Kokias pagrindines standartines PowerBI vizualizacijas (grafikus) žinote?
- Stacked bar chart - naudokite tai, kai norite palyginti skirtingas to paties mato vertes greta arba kai reikia parodyti skirtingus matus, kurie yra tos pačios visumos dalis. Stulpeliai yra horizontaliai orientuotos eilutės.
- Stacked column chart - tas pats kaip sudedama juostinė diagrama, bet vertikaliai
- Clustered bar chart - panašiai kaip sudedama juostinė diagrama, tačiau užuot palyginę skirtingus matmenis toje pačioje juostoje, naudodami sugrupuotą juostinę diagramą, galite palyginti skirtingus matmenis vienas šalia kito.
- Clustered column chart - tas pats, kaip klasifikuota juostinė diagrama, bet vertikaliai
- 100% Stacked bar chart - panašus į sukrautų juostų diagramą, tačiau naudojant kiekvieną matą, reikia naudoti kiekvienos juostos gabaliuką, kuris visada atitiktų visą galimą plotį (100%)
- 100% Stacked column chart - tokia pati kaip 100% sudedama kolonų diagrama, bet vertikaliai
- Line chart - naudokite tai, norėdami parodyti tam tikrų matmenų tendencijas bėgant laikui. Paprastai y ašies diapazonas neapima nulio.
- Area chart - panašiai kaip linijų diagramą, naudokite tai, kai norite rodyti kaupiamuosius duomenis, o ne taškų sekas. Paprastai y ašies diapazonas prasideda nuo nulio, ir yra tik vienas matas. Tai atrodo kaip linijų diagrama, kurioje sritys užpildytos spalvų sluoksniais.
- Stacked area chart - panašus į plotų diagramą, tačiau kiekviena reikšmė pridedama prie kitų.
- Line and stacked column chart - naudokite tai, kai jums reikia rodyti matavimo vienetus su skirtingais masteliais, tokiais kaip valiuta ir procentas arba skirtingi vertės diapazonai
- Line and clustered column chart - tas pats, kaip eilutės ir sukrautų stulpelių diagrama, tačiau vietoj sukrautų stulpelių naudojami suskirstyti stulpeliai.
- Waterfall chart - naudokite tai, jei norite rodyti kaupiamuosius duomenis, paryškindami kiekvienos vertės teigiamą ar neigiamą vertę. Pradinės ir galutinės vertės stulpeliai paprastai prasideda horizontalioje prieigoje, o tarp jų yra spalvotos slankiosios kolonos, todėl jos atrodo kaip krioklys ar tiltas
- Scatter chart - naudokite tai, kai norite parodyti galimą dviejų matavimų koreliaciją
- Treemap - panašu į skritulinę diagramą, tačiau naudojant gana skirtingą grafinį atvaizdą, kai vertės puslapyje pateikiamos spalvotais stačiakampiais. Tai gali būti skritulinės diagramos alternatyva, tačiau ji taip pat neįskaitoma, kai joje yra daug elementų
- Map - naudokite tai norėdami Bing žemėlapiuose rodyti geografinius duomenis su kintamo dydžio apskritimo formomis.
- Pie chart - naudokite tai norėdami parodyti vienos ar daugiau matų verčių pasiskirstymą. Vertės pateikiamos kaip pyrago gabaliukai, o didesnės vertės užima didesnius gabaliukus. Tačiau pyragų lentelių naudojimas nėra geriausia praktika
- Table - naudokite tai, kad pateiktumėte duomenis tekstine forma kaip paprastą lentelę, kur kiekvienas požymis ir kiekviena priemonė yra vienas rezultato stulpelis.
- Matrix - tai praplečia lentelę ir suteikia galimybę sugrupuoti matus pagal eilutes ir stulpelius
- Filled map - panašus į žemėlapį, tačiau duomenis vaizduoja spalvotos perdangos sritys
- Funnel - panašus į sukrautą juostinę diagramą, tačiau turintis vieną matą ir skirtingą grafinį atvaizdą, kai eilutės sukrautos eilės tvarka, todėl diagrama atrodo kaip piltuvas
- Gauge - naudokite tai parodyti reikšmę, kad palyginti su galutine (didžiausia) reikšmę. Ši diagrama primena automobilio spidometrą
- Multi-row card - naudokite tai, norėdami parodyti skirtingus matmenis ir atributus kiekvienam subjekto egzemplioriui, kiekvienam pritaikant skirtingų spalvų ir grafikų korteles
- Card - naudokite tai, jei norite parodyti vieną skaitmeninę matavimo vertę tekstiškai, įdėtą į spalvotą ir grafinę kortelę
- KPI - naudokite tai, jei norite rodyti vieną vertę su tendencijų linijos diagrama fone, paryškindami jos veikimą spalvomis
- Slicer - naudokite tai, jei norite filtruoti vieną ar daugiau diagramų, pasirinkdami atributo reikšmes
- Donut chart - panašus į pyrago diagramą, bet su spurga ar padangą primenančiu grafiniu vaizdu. Tačiau spurgų lentelių naudojimas nėra geriausia praktika
- R script visual - naudokite tai rodydami diagramas, sukurtas pagal R kalbos kodą
standartinių vizualizacijų turi animacijos (Play Axis) galimybę
❖ Pjaustyklė (Slicer), nes pats PlayAxis yra DinamicSlicer.
❖ Jei animuojama pasirinkus tašką - gausime trajektoriją.
❖ patogu pamatyti kitimą;
❖ Naudojamas su Scatter chart.
eiliškumu pagal suprantamumą galima išrikiuoti vizualizacijų tipus
- Position along a common scale: scatter chart.
- Position on identical but nonaligned scales: multiple scatter charts.
- Length & height: bar chart, column chart.
- Angle & slope: pie chart.
- Area: area chart, scatter with bubbles.
- Volume, density, and color saturation: treemap, heatmap.
- Shading, color hue: newsmap
Su kuriuo iš duomenų tipų (Nominal, Ordinal, Interval, Ratio) įmanoma daugiausia matematinių operacijų? Su kuriuo iš tipų įmanoma mažiausia matematinių operacijų
Daugiausia su RATIO Mažiausia su NOMINAL
Kokias iš pagrindinių skaitinių duomenų charakteristikų žinote padėčiai ir kokias sklaidai įvertinti
Padėties –vidurkis, mediana, kvantiliai (kvar-,%), moda, min, max.
Sklaidos – dispersija, standartinis nuokrypis, imties plotis (max - min), kvartilinis plotis (Q0.75 - Q0.25).
• Ką parodo standartinis nuokrypis (standard deviation) ir ką standartinė vidurkio paklaida (standard error of the mean)?
standard deviation ≠ standard error of the mean (SEM)
- SD (standartinis nuokrypis) matuoja sklaidą apie vidurkį (68% duomenų telpa į M+-SD)
• didėjant imties dydžiui SD artėja prie populiacijos sklaidos σ
- SEM (standartinė vidurkio paklaida) matuoja vidurkio tikslumą (68% vidurkių telpa į M+-SEM)
• didėjant imties dydžiui SEM artėja prie 0
• Kaip apskaičiuojami z-taškai ir į kokį klausimą jie atsako (koks jų matavimo vienetas)?
z taškai gaunami tiesiškai transformuojant duomenis.
- Teigiama standartizuota reikšmė parodo geresnį nei vidurkis rezultatą, neigiama – blogesnį.
- Z taškas apie originalią (netransformuotą) reikšmę atsako į klausimą:
• Per kiek standartinių nuokrypių mes nutolę nuo vidurkio?
Labiausiai paplites standartizavimas - z reikšmių skaidiavimas. duomenu aibe l1, l2,…, in.
Standartizave duomenis, gauname nauja duomenu aibe 21, 22, . . ., 2n, kurios vidurkis visada lygus 0 (z = 0), o standartinis nuokrypis visada lygus 1 (s. = 1).
Kokia koreliacijos nulinė hipotezė ir kokia p-reikšmė indikuoja statistiškai reikšmingą koreliaciją?
Nulinė koreliacija - tarp kintamųjų poros nėra koreliacijos. p-reikšmė turi būti <0.1 (su ~90 proc. patikimumu)
Koks statistinis testas naudojamas korektiškai palyginti du vidurkius ir kokia jo nulinė hipotezė?
Vidurkiai lyginami atliekant t-kriterijaus testą/ Stjudento t- kriterijus. Vidutiniškai skiriasi, kai 95% SE nepersidengia, p-reikšmė <0,05.
Kuo t kriterijus didesnis, tuo didesnis skirtumas tarp lyginamųjų grupių. Kuo t kriterijus didesnis tuo mažesnė tikimybė, kad padaryta klaida analizuojant duomenis.
Nulinė hipotezė sako, skirtumo nėra ( abu vidutiniškai lygūs).
Laiko eilutės dekompozicija išskaido dinamiką į komponentus - į kokius?
Dekompozicija išskaido eilutę į komponentus:
- trendo komponentas (level, trend)
- ilgalaikis augimas arba kritimas, kryptis - sezoninis komponentas (seasonal)
- periodiškumas (ketvirčio, mėnesio, savaitės dienos)
- įmanomas vienkartinis metuose (pagal švenčių dienas) - cikliškumas (verslo arba ekonomikos)
- nefiksuoto periodo pasikartojimai
- periodo ilgis paprastai ilgesnis nei sezoniškume
- eilutės reikšmė keičiasi stipriau nei sezoniškume - klaidos komponentas – liekanos (error, residual)
- nesumodeliuoti, nepaaiškinami svyravimai
- tai ko nepavyksta sumodeliuoti trendu ir sezoniškumu
- nusezoninta (de-seasonalized) eilutė = trendas + liekanos
Kokius paprastus vienmačių laiko eilučių prognozavimo metodus žinote?
Modeliai vienmačių laiko eilučių prognozavimui:
- paprasti: vidurkis (dažnai pasiteisina, kai duomenys sunkiai prognozuojami. Apskaičiavus visas reikšmes,, galima brėžti horizontalią liniją), naivus (naudojama tik paskutinė duomenų reikšmė ir ją atkartoja į priekį. Horizontali linija), sezoninis-naivus (atkartoja dinamiką praeitų metų. Horizontali linija), naivus su drift’u (jau nebe horizontali linija. Sujungiama pirma duomenų reikšmė su paskutine ir ta linija pratęsiama (linija gaunasi su kampu))
- regresija: tiesinis/kvadratinis trendas, sezoniniai dummy (sezoniškumo modeliavimui naudojami kintamieji, kuriuos galima įtraukti į regresijos pusę, jie žymimi kaip 0 (kai nėra to laikotarpio) ir 1 (kai yra tas laikotarpis), yra kaip indikatoriai to ketvirčio
- autoregresinis (AR) • kai istorinė dinamika (Y vėlavimai) įtraukiama į dešinę pusę
Kokius sudėtingus vienmačių laiko eilučių prognozavimo metodus žinote?
- autoregresinis integruotas slenkantis vidurkis (ARIMA) - duoda “triukšmo nuėmimą”, kai grafikas vis vidurkinasi. Autoregresinė dalis duoda trendo (inercijos) pagavimą. Vidurinė dalis (d) - susijusi su laiko eilutės stacionarumu, skaičių d (integravimo lygį) apskaičiuojama pirmiausiai.
• paprastas ARIMA(p,d,q), sezoninis ARIMA(p,d,q) (p,d,q)12
ARIMA modeliui reikia skaičių arba parametrų su kuriais jis yra derinamas. - Theta modelis – eksponentinis glodinimas su drift’u
• Assimakopoulos & Nikolopoulos (2000) - ETS – eksponentinio glodinimo generalizacija
- BATS – ARMA ir eksponentinio glodinimo hibridas
• exponential smoothing state space model with Box-Cox transformation, - ARMA errors, Trend and Seasonal components
• DeLivera-Hyndman-Snyder (2011) – sudėtingam sezoniškumui
Kokie yra pagrindiniai laiko eilučių prognozavimo klaidų variantai?
Kad turėti klaidą, reikia turėti duomenis, kuriuos prognozuoji.
Prognozės įvertinimui naudojami klaidų tipai:
- RMSE (root mean square error) - absoliuti klaida. Kvadratas sureikšmina dideles klaidas (“išpučia” tą klaidą)
• šaknis iš vidutinės kvadratinės paklaidos
• privalumas – kvadratas “baudžia” dideles klaidas
- MAPE (mean absolute percentage error) - reliatyvi klaida. Procentinė klaida,
• absoliučių paklaidų, išreikštų procentais, vidurkis
• privalumas – tinka lyginti skirtingoms prognozėms
- MASE (mean absolute scaled error) = [0..1..∞] - reliatyvi klaida. Kuo reikšmė artimesnė 0, tuo kiekviena klaida atrodys labai didelė - yra nepatikima.
Kada labiau tinka naudoti MAPE arba MASE prognozavimo klaidą vietoje RMSE? Kuo MASE pranašesnė už MAPE?
o Labiau tinka naudoti MAPE, kur lyginamos skirtingos prognozės. Pvz.: ką labiau sekasi naudoti? Leistinas MAPE
o MASE pranašesnė kai reikšmės arti nulio, nes klaida tokiems skaičiams atrodys milžiniška (MAPE netinka)
o MAPE - žingsnį prognozuoja į priekį, ištaiso trūkumas, kai reikšmės arti nulio
Duomenų tyrybos proceso žingsniai
CRISP-DM 6 žingsniai:
- veiklos suvokimas
- duomenų suvokimas
- duomenų paruošimas
- modeliavimas (modelio derinimas)
- modelio įvertinimas (testavimas)
- pritaikymas, įdiegimas
SEMMA metodologija pagal SAS
1) Pavyzdys iš duomenų rinkinio – padalijimas į mokymo, patvirtinimo ir testavimo duomenų rinkinius.
2) Naršyti duomenų rinkinį – statistiškai (santrauka) ir grafiškai (vizualizacija)
3) Modifikuoti, iš anksto apdoroti duomenis – transformuoti kintamąjį, priskirti trūkstamas reikšmes
4) Modelio duomenys – pritaikyti nuspėjamuosius modelius, naudojant testavimo duomenų rinkinį: parametrų derinimas, funkcijų pasirinkimas
5) Įvertinkite modelį – palyginkite modelius naudodami patvirtinimo duomenų rinkinį
Kokie yra pagrindiniai duomenų tyrybos uždaviniai, t.y. kokie mašininio mokymosi tipai yra žinomi?
o Mokymasis su mokytoju, prižiūrima (supervised learning)
Uždavinys: klasifikavimo ir regresijos uždaviniai
o Mokymasis be mokytojo, neprižiūrima (unsupervised learning)
Uždavinys: taisyklių išgavimas, klasterizavimo uždavinys, dimensionalumo mažinimas (pvz. vizualizavimas)
o Dalinai su mokytoju (semi- supervised)
Uždavinys: kada kai kurios išėjimo reikšmės nežinomos
o Su grįžtamuoju ryšiu (reinforcement)
Uždavinys: kada modelis tobulinamas realiu laiku
Kokie pagrindiniai taisyklių gerumo įverčiai naudojami susietumo taisyklių IŠGAVIMO uždavinyje (pirkinių krepšelio analizėje)? Žinoti įverčių formules.
Taisyklių išgavimas: kiek stipri {A, B}→C Taisyklė
Taisyklių įverčiai:
Palaikymas (populiarumas) – support=P(A,B,C), parodo kiek prekių kombinacija yra populiari, apskaičiuojama procentais
Pasikliovimas (arba →) – confidence=P(C|A, B), parodo kiek žmonių pirkusių tam tikrą populiariausią kombinaciją (pvz. pienas ir duona), pirko ir sviestą
Pranašumas (nuostaba) – lift=confidence/P(C), nuostaba parodo kiek netikėta, kad tam tikra taisyklė duomenyse atsirado
Svertas (nuostaba) – leverage=P(A,B,C)-P(A, B)*P(C) nuostaba parodo kiek netikėta, kad tam tikra taisyklė duomenyse atsirado
Ką duomenyse randa klasterizavimo uždavinys? Kada jis gali praversti verslo duomenų analizei?
o Klasterizavimas – objektų grupių radimas duomenyse
Klasteris – objektų rinkinys arba grupė, duomenų „spiečius“
Objektas klasteryje panašūs ir skiriasi nuo kito klasterio objektų
o Profiliavimas – centras (kintamųjų reikšmės), prototipas
Klasterizavimo uždavinys gali praversti verslo duomenų analizei, kai norime suprasti savo klientų portfelį, kokie klientai, kokio amžiaus ir t.t. Kitaip tariant klientų bazės analizavimui
Kokius pagrindinius algoritmus KLASTERIZAVIMO uždaviniui spręsti žinote?
o K-vidurkių algoritmai – suskirsto duomenis į nurodytą grupių (klasterių) kiekį
o Hierarchinis algoritmas – suformuoja dendogramą, medį, kurį pjaunant pasirinktame aukštyje gauname konkretų klasterių skaičių
o Particijų – ieško nurodyto skaičiaus klasterių (flat partitioning)
o DBSCan – tai duomenų tankiu pagrįstas klasterizavimo metodas, kaimyninius duomenis grupuojantis į klasterius pagal objektų tankį.
o k-medoidų
Kokius vidinius kriterijus, skirtus įvertinti KLASTERIZAVIMO gerumui, žinote?
(grupės nežinomos)
o Max vidutinis silueto plotis (silhouette >0,25)
o Max atotrūkis (gap, Tibshirani-Walther-Hastie)
o Max Dunn indeksas (min atstumas tarp klasterių/ max atstumas klasteryje)
o Min nutolimas nuo centro kvadratu (WithinSS)
o Max Calinski-Harabasz, min Davies-Bouldin
Kokie dimensionalumo mažinimo pritaikymai? Kokie algoritmai naudojami šiam uždaviniui spręsti?
Naudojamas duomenų vaizdavimui, vizualizavimui
Uždavinys: suspausti N kintamųjų iki 2 arba 3 esminių. Praverčia kai kintamieji yra koreliuoti (panašūs). Spaudžiant stengiamasi išlaikyti pradinius N-mačius atstumus
Naudojami algoritmai: PCA – principinių komponenčių analizė ICA – nepriklausomų komponenčių analizė t-SNE – stochastinio kaimynų algoritmas kiti algoritmai: SOM, CCA, Isomap, Sammon, LLE
Kuo mokyme su mokytoju skiriasi regresijos uždavinys nuo klasifikavimo uždavinio?
o Tikslo kintamasis – prognozuojama reikšmė
Tolydi (skaičius su kableliu) – regresija
Diskreti (kategorinis atributas) – klasifikavimas
Šie uždaviniai skiriasi tuo, kad turėdami modeliuojamą stulpelį žiūrime kokiais duomenimis jis užpildytas, jei tai yra skaičiai, tada bus regresijos uždavinys, jei bus kategorijos (taip/ne ar panašiai) bus klasifikavimo uždavinys.
Kada klasifikavimo uždavinį galime vadinti detekcijos uždaviniu?
kai jis turi 2 klases
Kokie modeliai / algoritmai žinomi KLASIFIKAVIMO uždaviniui spręsti?
-Logistinė regresija, probit regresija
-Tiesinė (bei kvadratinė) diskriminantinė analizė (randa nauja ašį, įkurią suprojektavus duomenis (max atskyrimas tarp klasių centrų, min sklaida kiekvienos klasės vid.)
-Naivaus Bajeso algoritmas (įėjimo kintamieji diskretūs)
- k-artimiausių kaimynų
- sprendimų medžiai
• populiariausi – CART (classifikation and regression tree)
• kiti variantai – ID3, CHAID, C4.5
- atsitiktinis miškas – CART kolektyvas
- atraminių vektorių (SVM, support vector machine)
• naudoja įvairius branduolius, universaliausias-Gauso (RBF)
- daugiasluoksnis perceptronas – neuroninis tinklas
• gilus mokymas (deep learning), konvoliuciniai tinklai
Kokios kreivės padeda palyginti DETEKCIJOS gerumą tarp skirtingų modelių?
- DET kreivė, lygių klaidų lygis (EER)
- ROC kreivė, plotas po kreive (AUC)
- Precision-Recal kreivė, F-measure
- Koncentracijos, pranašumas (lift), pelno (profit) kreivės
Kokie skaitiniai įverčiai naudojami apibendrinti detekcijos gerumui?
Detekcijos gerumui įvertinti naudojamas slenkstis. Pagal nutylėjimą slenkstis parenkamas 0,5 ir gaunama sumaišymo matrica, tačiau slenkstį galima didinti, mažinti, tokiu atveju gaunamos kreivės(4 klausimas).
Kaip gaunama ir kam naudojama sumaišymų matrica (confusion matrix)?
Klasifikavimo modelis yra suskirstomas į tris klases (>2 klases) ir gaunama sumaišymo matrica
Naudojama nustatant kiek % klasės atvejų pavyko suklasifikuoti teisingai (recall), kiek % klasės spėjimų iš tiesų pataikė į ją.
Sumaišymo matrica parodo teisingai ar neteisingai suklasifikuotų duomenų atvejų skaičių. Šios matricos paskirtis identifikuoti, kokios rūšies klaidos būdingos prognozavimo modeliui
Kas mokyme su mokytoju laikoma persimokymo problema?
Kuo ilgiau mes mokome modelį, jį derinam, tuo iškyla didesnė rizika perderinti svorius, tai yra kuo ilgiau mokome modelį apmokymo klada krenta, tačiau testavimo klaida kyla.
Kam reikia duomenų padalinimo į apmokymo ir testavimo imtis?
Duomenys padalinami į apmokymo ir testavimo norint įvertinti modelio gerumą
Prie testavimo nežinome stulpelio Class reikšmių, todėl jas bandome atspėti. Kai testavimas yra atliekamas yra lyginama kiek reikšmių teisingai atspėjo ir nustatomas tikslumas %.
Kaip atliekamas kryžminis patikrinimas mokymo su mokytoju sėkmingumo įvertinimui?
Mokymo tikslumo įvertinimui naudojamas kryžminis patikrinimas. Duomenys atsitiktinai padalinami į 5 dalis ir kiekviena iš dalių gali būti testuojama, leidžia visiems duomenims, kiekvienai daliai, pabūti testuojamiems. 5 kartus apmokom modelį ant apmokymo dalies, kiekvieną kartą skirtingai ir tokiu būdu galime tiksliau įvertinti modelio gerumą.
Kaip tikrinamas klasifikavimo tikslumas?
atsitiktinis skėlimas | (apmok. / test.) dalis
K-daliy kryžminis patikrinimas (K-fold CV)
ar reikia stratifikavimo (daliy panasumo)?
galima pakartoti validaciją keletą kartų
SQL kalbą sudaro
SQL abėcėlę sudaro raidės, skaitmenys, specialieji simboliai bei baziniai žodžiai.
SQL kalbą sudaro keletas sakinių grupių:
• duomenų apibrėžimo sakiniai
• manipuliavimo duomenimis sakiniai
• duomenų valdymo sakiniai.