exam Flashcards

1
Q

Sprendimai nulemia

A

išlaidas, pardavimus ir pelną.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Sprendimai priimami dėl/kam

A

dėl gamybos, rinkodaros ir personalo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Efektyvių sprendimų priėmėjų reikia kokiuose lygmenyse

A

visuose

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Efektyvūs sprendimai

A

pasirinkimai, kurie perkelia organizaciją arčiau prie sutartų tikslų rinkinio per priimtiną laiką.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Efektyvių sprendimų dalys

A

konkretūs tikslai;
konkretūs matavimai;
laiku parengiama pradinė ir grįžtamojo ryšio informacija.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Tikslų kėlimo evoliucija

A

Vadovautis siekantis tikslais - >
SMART (specif, išmat, pasiek, realist/svarb, laiko apr) ->
FAST (diskut, ambicing, spec, galima sekti pokyti)->
CLEAR ->
Objectives and Key results (google, netflix)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

technologijos tinkančios sprendimo priėmimui paremti ir procesui tobulinti

A
  1. Duomenų saugyklos (data warehousing).
  2. OLAP klubai (on-line analytical processing).
  3. Duomenų tyryba (data mining), prognozavimas (forecasting).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Veiklos analitika

A

(business intelligence) yra tikslios, naudingos informacijos pateikimas tinkamiems sprendimus priimantiems asmenims per būtinus terminus, įgalinančius paremti efektyvų sprendimų priėmimą.

išgauti sprendimų priėmimui naudingas žinias iš duomenų

duomenų saugyklos - dedikuotos DB analizei

papildomos įžvalgos - masininis mokymas, prognozavimas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Dirbtinis intelektas (DI) ar veiklos analitika (VA)

A

DI sistemos atlieka sprendimus automatizuotai (už vartotoja)

VA sistemos padeda vartotojui priimti gera sprendima, remiantis duomenimis (informaciją pateikiama patogia forma)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

KPI

A

Pagrindiniai veiklos indikatoriai - gyvybiškai svarbių aspektų apibendrinti matavimai, būklės įvertinimui.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Pagrindinės MS Access programos dalys

A

Access - įrankių, skirtų sukurti ir palaikyti DB, rinkinys (naudojamas kaip apvalkalas darbui su nutolusia DB)
DB - struktūrizuota informacija kompiuteryje
lentelė (table) - pagrindinis DB objektas, saugomi duomenys
stulpeliai - atributai, laukai (fields)
eilutės - egzemplioriai, įrašai (records)
reliacinėje DB egzistuoja ryšiai tarp lentelių (1-, 1-1, -(tarp.l->2nauji 1-)
Lentelės turi raktinius atributus, reikšmės unikalios, raktai gali būti sudėtiniai (raktą sudaro keli atributai/reikšmių kombinacija unikali)
supaprastina informacijos išgavima iš keleto lentelių
korektiskai sumodeliuota DB leidzia taupyti disko vieta
kiti DB objektai - formos, ataskaitos, uzklausos..
padeda įrašyti ar pateikti informacija, esancia lentelėse
kiekvienas DB objektas turi keletą rodymo aspektu
lentelės turinys yra [ Datasheet ], o struktūra [ Design view ]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Kam reikalingi ryšiai realiacinėse duomenų bazėse?

A

Supaprastina informacijos išgavimą iš keleto lentelių. Korektiškai sumodeliuota DB taupyti disko vietai.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Kaip reliacinėse DB modeliuojamas (išsprendžiamas) “daug-su-daug” ryšio atvejas?

A

Ryšys išskaidomas per tarpinę lentelę;

Gaunami du nauji vienas-su-daug ryšiai;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

pagrindiniai duomenų tipai naudojami duomenų bazės lentelės laukams

A
BINARY.VARBINARY
BIT
REAL
FLOAT
DECIMAL
INTEGER
SMALLINT
TINYINT
MONEY
TEXT
IMAGE
DATETIME(DOUBLE *)
UNIQUEIDENTIFIER
CHARACTER
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

SQL

A

standartizuota releacinių duomenų bazių kalba duomenims aprašyti ir manipuliuoti jais

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

SELECT sakinys

A

DBVS suformuoja užklausos rezultatą - laikiną lentelę, kuri egzistuoja tik užklausos peržiūrėjimo metu (bet ją įmanoma išsaugoti su save to temp arba select..into)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

WHERE

A

WHERE – nurodo sąlygas, pagal kurias atrenkami kortežai. WHERE sąlygoje galima panaudoti tokias logines jungtis (pirmumo tvarka): NOT AND OR

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

ORDER BY

A

Norint gauti isrūšiuotus pagal tam tikra kriteriju
duomenis, SELECT sakinys pabaigiamas ORDER BY.
Po bazinio žodžio šioje frazėje vartojama stulpelių
vardai arba eilės numeriai SELECT frazėje,
atskiriant jus kableliais.
Pagal nutylėjima rikiuojama didėjančia (ASC) tvarka, bet
galima rikiuoti mažejanęia (DESC) tvarka, nurodant
gale.
Kaip gauti visų detalių numerius ir ju svorius, išrūšiuotus
pagal svorj didejimo tvarka, ir papildomai pagal numeri
mažėjancia tvarka, kai svoriai sutampa?
SELECT Nr, Svoris FROM Detalės Order by 2, Nr DESC

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

DISTINCT

A

SELECT DISTINCT A. Pavarde, A. Būsena FROM Tiekėjai AS A

WHERE A.Miestas=’Vilnius’

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

agregavimo funkcijos SELECT sakinio pradžioje kai naudojame GROUP BY

A

COUNT, AVG, SUM

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

SQL sintaksės komanda atitiktų WHERE filtravimą pagal sąlygas po GROUP BY panaudojimo

A

HAVING

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

GROUP BY

A

Eilučių grupavimą realizuoja konstrukcija GROUP BY:
SELECT DetNr, SUM (Kiekis) AS Kiekiai FROM Tiekimai
Group by DetNr DESC

Užklausa, kurios gale naudojamas GROUP BY
paprastai pradžioje turi turėti COUNT, AVG, SUM.

Pvz. COUNT(laukas, pagal kurį nėra grupuojama)
Numeriai detalių, kurias tiekia daugiau kaip vienas
tiekejas:
SELECT Detr FROM Tiekimai
Group by DetNr having count (*) > 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

JOIN variantas dviejų lentelių apjungimui atitiktų toks SQL sakinys: SELECT * FROM Table1, Table2

A

SELECT * FROM

A CROSS JOIN B

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

JOIN variantai

A

CROSS(OUTER) JOIN • INNER(NATURAL) JOIN • RIGHT/LEFT JOIN

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

UNION

A
SELECT Name
AVG (Mark) AS Average
FROM Grades
GROUP BY Name
UNION
SELECT 'Total' as Name,
AVG (Mark) AS Average
FROM Grades
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q
SELECT * FROM
A, B
WHERE A.col1 = B.coll
AND A.co12 = B.co12
AND . . .
A

SELECT * FROM

A NATURAL JOIN B

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

SELECT * FROM A,
B
WHERE ‹condition>

A

SELECT * FROM
A INNER JOIN B
ON/USING ‹condition>

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

IN

A
SELECT
FROM
Employee
WHERE Department IN
( 'Marketing' ,
'Sales')
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

EXISTS

A
Select
From Employee E
Where Exists ( Select * From Manager M
Where E. Name = M. Name And
E.Dept = M. Dept
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

AS

A

SELECT column
AS newName…

SELECT
FROM table
AS newName

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Pagrindiniai darbo eigos su Power BI įrankiu žingsniai.

A

-Įkeliame duomenis | Power BI Desktop, aptvarkomes su Query Editor, sukuriame pradine ataskaita (report)
-sukurta ataskaita publikuojame į Power BI servisą
-Power BI servise galima ataskaita papildyti
vizualizacijom, vizualizacijas iškelti į švieslentę
–galimybe analizuoti duomenis rašant klausimus
–įdomių vizualizaciju generavimas (get insights)
-dalinames sukurtom ataskaitom ir švieslentėm su
kitais, vėliau galima interaktyviai peržiūrėti sukurtas ataskaitas ir švieslentes su Power BI Mobile
-pasikeitus duomenims vizualizacijos atsinaujina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

duomenų šaltiniai naudojami įkeliant duomenis į Power BI

A
All
File
Database
Power Platform
Azure
Online Services
Other
Exel
Text/CSV
XML
JSON
Folder
PDF
SharePoint folder
SQL server
Orachle database
PostgresSQL
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

alternatyvūs įrankiai švieslenčių kūrimui be Power BI

A

Qlik View Personal Edition, Periscope Data
BIRT, Pentaho, ClicData,, JasperReports Server, Helical Insight, ELK Stack, Style Scope AE, Keen Dashboard,
Re:Dash,

Google Data Studio, Tableau Public, Chartio, Kibana, Yellowfin, Zoho Reports, Seal Report, Mozaik, flexdashboard
SpagoBI, ReportServer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

skirstoma rinka P. Kotler modelyje

A

įmonės siūloma kaina,
reklamos išlaidos,
paskirstymo išlaidos (prekybos atstovų kiekio),
kredito klientams dydžio.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Kurios tipinės finansinės ataskaitos nusako įmonės padėtį konkrečiu laiko momentu?

A

Pelno (nuostolio) ataskaita,
Finansinės būklės pokyčių ataskaita (pinigų srautų ataskaita),
Pelno paskirstymas (nepaskirstyto pelno ataskaita),
Balansas.

Galbūt dar šitie: 
Rinkoje, nuo bendrosios paklausos
Kaina, nuo vidurkio
Reklamos islaidos, nuo vidurkio
Kreditas klientams, nuo vidurkio
Prekybos atstovai, nuo vidurkio
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

kokia seka skaičiuojami Pelno (nuostolio) ataskaitoje esami pelnai

A
  1. Bendrasis pelnas
  2. Veiklos pelnas
  3. Ataskaitinių metų pelnas (nuostolis) prieš apmokestinimą
  4. Grynasis pelnas
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

įmonės rodiklių reikšmės keisis, jei didinsite išlaidas reklamai

A

Parduotos produkcijos apimtis, prekių savikaina ( ir kaina), finansinės išlaidos (pajamos, pelnas).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

įrengimų panaudojimo koeficientas lygus 0,1

A

Tai reiškia, jog įrenginiai panaudojami tik 10 %. Tokio mažo panaudojimo galimos priežastys: nepakankamai darbuotojų (taip pat galimai jų atlyginimai maži/socialinis biudžetas mažas, darbuotojų našumas), įrenginių nusidėvėjimas

39
Q

Kokie racionalūs vadybiniai sprendimai rodo gerą marketingo (rinkodaros) specialisto darbą (kas turi įtakos pardavimų didinimui)

A

Produkcijos apimties padidėjimas (konkurencinga įrenginių rinkos kaina), tinkamos reklamos išlaidos ir prekybos atstovų skaičius.

40
Q

Ar marketingo specialistas savo sprendimais įtakoja gamybos savikainos reikšmės kitimą

A

Taip. Reklamos išlaidos ir prekybos atstovų skaičius įeina į prekių savikainą ir kainą, tad būtinas adekvatus minėtų išlaidų paskirstymas.

41
Q

įtaka gamybos savikainos didėjimui/mažėjimui

A
Atsargos sandėlyje metų pradzioje
Likutis sandelyje metų pabaigoje
Produkcijos vertė sandelyje
Sandėliavimo išlaidos
Pagaminta
Parduota
Gamybos savikaina
Pilnoji savikaina
Marketingo rodiklis
42
Q

įtaka pilnosios savikainos didėjimui/mažėjimui

A

Pagrindinės medžiagos
Darbininkų atlyginimas, samda, atleidimas
Socialinis biudžetas
įrengimu amortizacija, išlaikymas
Prekybos atstovų atlyginimas, samda ir atleidimas
Reklama
Rinkos tyrimas
Administracijos sanaudos
Pilnoji savikaina, Eur/vnt. (vieneto savikaina

43
Q

Kam įmonės administracijai naudinga duomenų analitika?

A

įvertinant įmonės padėtį rinkoje (įmonės rodikliai - paklausa, konkurencija, marketingas ir pan.)

44
Q

pagrindiniai duomenų tipai yra palaikomi Power BI

A
o	.csv
o	.xslx – Excel
o	Dar: 
Decimal Number
Fixed decimal number
Whole Number
Percentage
Date/Time
Date
Time
Date/Time/Timezone
Duration
Text
True/False
Binary
45
Q

duomenų tvarkymo galimybės yra Power Query Editor lango meniu juostoje

A

o Rename column – stulpelio pavadinimo keitimas
o Convert column type – stulpelio tipo keitimas
o Format column values – formatas (%, kiek skaičių po ,?)
o Reoder columns – stulpelių sukeitimas vietomis
o Replace column values – reikšmės pakeitimas kita
o Expanding related columns – stulpelių išplėtimas
o Splitting columns – stulpelio išskaidymas į 2 atskirus
o Merging columns – atskirų stulpelių apjungimas į vieną
o Adding custom column – naujo stulpelio sukūrimas
o Group by – grupavimas pagal stulpelio reikšmes
o Append – lentelės eilučių prijungimas prie kitos lentelės
o Merge – lentelės stulpelių prijungimas prie kitos lentelės
o Pivot column – eilučių perkėlimas į atskirus stulpelius

46
Q

Apjungiant (Merge komanda) lenteles per Power Query Editor su PowerBI kokie apjungimo tipai (join type) yra galimi

A

o Left Outer (all from first, matching from second)
o Right Outer (all from second, matching from first)
o Full Outer (all rows from both)
o Inner (only matching rows)
o Left Anti (rows only in first)
o Right Anti (rows only in second)

47
Q

tipo (kardinalumo) ryšiai galimi tarp lentelių

A

o Vienas-su-daug (1:)
o Daug-su-vienu (
:1)
o Vienas-su-vienu (1:1)
o Daug-su-daug (:)

48
Q

ryšio kardinalumo tipas populiariausias reliacinėse DB

A

Vienas-su-daug (1:*)

49
Q

praverčia “vienas-su-vienu” atvejas

A

„vienas su vienu“ ryšio duomenų bazėje scenarijus yra vienos lentelės padalijimas į dvi: viena su privalomais, kita - su neprivalomais stulpeliais.

50
Q

Kuo skiriasi išorinis raktas (foreign key) nuo pirminio rakto (primary key)? Kurio tipo ryšiui jie būdingi

A

Pirminis raktas (primary key) unikaliai identifikuoja lentelės eilutę, o išorinis raktas (foreign key) pasiekia kitų susijusių lentelių duomenis. Pirminis raktas dažnai yra nepriklausomas nuo turinio ir automatiškai generuojamas duomenų bazės, kad būtų lengviau atnaujinti duomenis. Išorinis raktas visada gaunamas iš ryšio su kitomis lentelėmis.

51
Q

Kuo skiriasi faktų lentelė nuo dimensijos lentelės

A

Faktų lentelėje yra išorinis raktas (foreign key).

Dimensijų lentelėje yra pirminis raktas (primary key)

52
Q

pagrindiniai DB schemų tipai

A

o žvaigždės (star) – vienas faktas ir dimensijos
o snaigės (snowflake) – vienas faktas ir multidimensijos
o faktų žvaigždynas (fact constelation) – daug faktų

53
Q

• Kuo skiriasi “snaigės” schema nuo “žvaigždės” schemos? Pagrindiniai privalumai ir trūkumai.

A

Snaigės (snowflake) schema
taupoma saugyklų vieta, labiau normalizuotas modelis
lėteja užklausos ir skaičiavimai, sunkiau paskirstoma
Zvaigzdès (star) schema
• greiteja uzklausos ir skaiciavimai, labia paskirstoma
spacializuotas vaizdas, netaupoma saugyklų vieta

54
Q

Kokiam interaktyvumui PowerBI vizualizacijose naudojamos datos (arba kategorijų) hierarchijos

A

Datos – pasirinktų duomenų intervalo pradžia ir pabaiga, taip pat naudojamos drill-down ar apibendrinimui.

Detalizavimas (drill-down) ir apibendrinimas (-up)

detalizuoti gilyn pasirinktinai (su pele) Click to turn on Drill Down

apibendrinti aukstyn Drill Up

detalizuoti gilyn apjungiant viska to Go to the next level in hierarchy

detalizuoti gilyn išsleidziant viską Expand all down one level in the hierarchy

55
Q

DAX sintaksės simbolis naudojamas tekstinių stulpelių apjungimui (pvz. iki unikalaus rakto)

A

Text concatenation operator

& (concatenation)

56
Q

Koks skirtumas tarp skaičiuojamo mato / lauko (New measure / New field) ir skaičiuojamo stulpelio (New column)

A

Measure - skaičiuojamas matas
apibendrinta reikšmė visai lentelei
reikšmių nebūtinai tiek, kiek eilučiu lentelėje
Column - skaičiuojamas stulpelis
lentelė tiesiog papildoma nauju stulpeliu
reiksmių būtinai tiek, kiek eilučių lentelėje

57
Q

Kuriant skaičiuojamą stulpelį, kaip skiriasi DAX funkcijų RELATED ir RELATEDTABLE taikymas? Kurioje ryšio pusėje jos yra taikomos?

A

Kuriame nauja lauka faktų lentelėje (* pus.), kurį pasiimam iš lentelės (1, gali buti toli, netureti tiesioginio rysio) su RELATED()

Gross Margin = [SalePrice]-RELATED(Stock[Direct Costs])

Kuriame nauja lauką dimensijos lentelėje (1 pus), susijusia lentele pasiimti su RELATEDTABLE()

patogu kombinuoti su COUNTROWS() funkcija

Clients Per Country =
COUNTROWS(RELATEDTABLE(Clients))

58
Q

Ką skaičiuoja DAX funkcija TOTALYTD? Kurios lentelės datos lauką reikėtų naudoti vizualizacijose, kai TOTALYD parametru nurodome datas iš dimensijų lentelės?

A

TOTALYTD – skaičiuoja funkciją (pvz. SUM) nuo metų pradžios iki einamos datos (ketvirčio, mėnesio) pagal datos stulpelį. Datos lauką galima naudoti iš tos pačios lentelės, bet lankstesnis sprendimas būtų imti datos lauką iš datų dimensijos lentelės (DatesRange arba DatesAuto).

59
Q

Kokias žinote darbui su duomenimis laike DAX sintaksės funkcijas, kurios gali būti nurodomos CALCULATE antruoju parametru?

A

Sales Total = SUM([Sales]) MoM (month-over-month)

MoM Prev = CALCULATE([Sales Total],
PREVIOUSMONTH(financials[Date])

MoM Ratio = DIVIDE([Sales Total] [MoM Prev], blank())

MoM % Delta = IF(ISBLANK ([MoM Ratio]), blank(),[MoM Ratio]-1)

60
Q

Kokias žinote naujos lentelės (New table) kūrimo funkcijas DAX sintaksėje? Kada gali prireikti naujos lentelės

A

Table - skaičiuojama lentelė
Skaičiavimams naudojama DAX sintaksė:
-dalis funkciju yra identiškos kaip ir Excel’yje
-Excel koordinatės (A1: B2) nėra naudojamos
-koordinates nurodomos lentelių ir stulpelių vardais
–pVz. lentelė[stulpelis]
–nenurodant lentelės, tik [stulpeli] bus bandoma ieškoti lentelėje, kurioje skaičiuojamas matas ar laukas yra išsaugotas

Lentelių kūrimas su DAX (calculated table)
DAX formulės rezultatas gali buti - nauja lentele
-SQL SELECT sakinio rezultatas daZniausiai primena lentele
- pvz. su DISTINCT galime sukurti dimensija is stulpelio
VALUES, UNION, INTERSECT, CALENDAR, CALENDARAUTO
CROSSJOIN, NATURALINNERJOIN, NATURALLEFTOUTERJOIN

61
Q

Kokios žinote kitas panašias į TOTALYTD laiko intelektikos funkcijas kaupiamąjai sumai skaičiuoti?

A

Laiko funkcijos:
TOTALYTD, TOTALMTD. TOTALQTD
CALCULATE(SUM(lentelës_laukas), datos_laukas)
datos lauka galima naudoti iS tos pačios lentelės, bet lankstesnis sprendimas būtų imti datos lauka iš datų dimensijos lentelės (DatesRange arba DatesAuto)
datu dimensija leistų naudoti datos hierarchijas grafikuose tas aktualu Year-over-Year atveju: SAMEPERIODLASTYEAR bet keblumai naudojant pjaustykle (Slicer), pvz. pagal šalį

62
Q

Kuo ypatinga DAX funkcija CALCULATE ir kokia jos sintaksė

A

Funkcija CALCULATE
=CALCULATE(lšraiska; [Filtras1]: [Filtras2]; …; [FiltrasN])
suskaičiuoja israiską, naudodama nurodytus filtrus, tokia tvarka:
Filtro kontekstas modifikuojamas, naudojant argumentus [Filtras1]; [Filtras2]; …;[FiltrasN]
Jei yra eilutės kontekstas, jis perkeliamas prie filtro konteksto
Išraiska skaičiuojama naujame filtro kontekste

DealerSales = CALCULATE(SUM(InvoiceLines[SalePrice]),
Clients[ClientType]=”Dealer”) Make SalePrice DealerS
LowPrice Sales = CALCULATE(SUM(InvoiceLines[SalePrice]),
InvoiceLines[SalePrice] < 50000)

63
Q

Kokios yra apibendrinančios (agregavimo) funkcijos, nurodomos CALCULATE arba TOTALYTD pirmuoju parametru?

A
MINX()
MAXX()
SUMX()
AVERAGEX()
COUNTX()
COUNTAX()
GEOMEANX()
MEDIANX()
PERCENTILEX.EXC()
PERCENTILEX.INC()
RANKX()
STDEVX.P()
STDEVX.S()
VARX.S()
VARX.P()
64
Q

Kokias pagrindines standartines PowerBI vizualizacijas (grafikus) žinote?

A
  • Stacked bar chart - naudokite tai, kai norite palyginti skirtingas to paties mato vertes greta arba kai reikia parodyti skirtingus matus, kurie yra tos pačios visumos dalis. Stulpeliai yra horizontaliai orientuotos eilutės.
  • Stacked column chart - tas pats kaip sudedama juostinė diagrama, bet vertikaliai
  • Clustered bar chart - panašiai kaip sudedama juostinė diagrama, tačiau užuot palyginę skirtingus matmenis toje pačioje juostoje, naudodami sugrupuotą juostinę diagramą, galite palyginti skirtingus matmenis vienas šalia kito.
  • Clustered column chart - tas pats, kaip klasifikuota juostinė diagrama, bet vertikaliai
  • 100% Stacked bar chart - panašus į sukrautų juostų diagramą, tačiau naudojant kiekvieną matą, reikia naudoti kiekvienos juostos gabaliuką, kuris visada atitiktų visą galimą plotį (100%)
  • 100% Stacked column chart - tokia pati kaip 100% sudedama kolonų diagrama, bet vertikaliai
  • Line chart - naudokite tai, norėdami parodyti tam tikrų matmenų tendencijas bėgant laikui. Paprastai y ašies diapazonas neapima nulio.
  • Area chart - panašiai kaip linijų diagramą, naudokite tai, kai norite rodyti kaupiamuosius duomenis, o ne taškų sekas. Paprastai y ašies diapazonas prasideda nuo nulio, ir yra tik vienas matas. Tai atrodo kaip linijų diagrama, kurioje sritys užpildytos spalvų sluoksniais.
  • Stacked area chart - panašus į plotų diagramą, tačiau kiekviena reikšmė pridedama prie kitų.
  • Line and stacked column chart - naudokite tai, kai jums reikia rodyti matavimo vienetus su skirtingais masteliais, tokiais kaip valiuta ir procentas arba skirtingi vertės diapazonai
  • Line and clustered column chart - tas pats, kaip eilutės ir sukrautų stulpelių diagrama, tačiau vietoj sukrautų stulpelių naudojami suskirstyti stulpeliai.
  • Waterfall chart - naudokite tai, jei norite rodyti kaupiamuosius duomenis, paryškindami kiekvienos vertės teigiamą ar neigiamą vertę. Pradinės ir galutinės vertės stulpeliai paprastai prasideda horizontalioje prieigoje, o tarp jų yra spalvotos slankiosios kolonos, todėl jos atrodo kaip krioklys ar tiltas
  • Scatter chart - naudokite tai, kai norite parodyti galimą dviejų matavimų koreliaciją
  • Treemap - panašu į skritulinę diagramą, tačiau naudojant gana skirtingą grafinį atvaizdą, kai vertės puslapyje pateikiamos spalvotais stačiakampiais. Tai gali būti skritulinės diagramos alternatyva, tačiau ji taip pat neįskaitoma, kai joje yra daug elementų
  • Map - naudokite tai norėdami Bing žemėlapiuose rodyti geografinius duomenis su kintamo dydžio apskritimo formomis.
  • Pie chart - naudokite tai norėdami parodyti vienos ar daugiau matų verčių pasiskirstymą. Vertės pateikiamos kaip pyrago gabaliukai, o didesnės vertės užima didesnius gabaliukus. Tačiau pyragų lentelių naudojimas nėra geriausia praktika
  • Table - naudokite tai, kad pateiktumėte duomenis tekstine forma kaip paprastą lentelę, kur kiekvienas požymis ir kiekviena priemonė yra vienas rezultato stulpelis.
  • Matrix - tai praplečia lentelę ir suteikia galimybę sugrupuoti matus pagal eilutes ir stulpelius
  • Filled map - panašus į žemėlapį, tačiau duomenis vaizduoja spalvotos perdangos sritys
  • Funnel - panašus į sukrautą juostinę diagramą, tačiau turintis vieną matą ir skirtingą grafinį atvaizdą, kai eilutės sukrautos eilės tvarka, todėl diagrama atrodo kaip piltuvas
  • Gauge - naudokite tai parodyti reikšmę, kad palyginti su galutine (didžiausia) reikšmę. Ši diagrama primena automobilio spidometrą
  • Multi-row card - naudokite tai, norėdami parodyti skirtingus matmenis ir atributus kiekvienam subjekto egzemplioriui, kiekvienam pritaikant skirtingų spalvų ir grafikų korteles
  • Card - naudokite tai, jei norite parodyti vieną skaitmeninę matavimo vertę tekstiškai, įdėtą į spalvotą ir grafinę kortelę
  • KPI - naudokite tai, jei norite rodyti vieną vertę su tendencijų linijos diagrama fone, paryškindami jos veikimą spalvomis
  • Slicer - naudokite tai, jei norite filtruoti vieną ar daugiau diagramų, pasirinkdami atributo reikšmes
  • Donut chart - panašus į pyrago diagramą, bet su spurga ar padangą primenančiu grafiniu vaizdu. Tačiau spurgų lentelių naudojimas nėra geriausia praktika
  • R script visual - naudokite tai rodydami diagramas, sukurtas pagal R kalbos kodą
65
Q

standartinių vizualizacijų turi animacijos (Play Axis) galimybę

A

❖ Pjaustyklė (Slicer), nes pats PlayAxis yra DinamicSlicer.
❖ Jei animuojama pasirinkus tašką - gausime trajektoriją.
❖ patogu pamatyti kitimą;
❖ Naudojamas su Scatter chart.

66
Q

eiliškumu pagal suprantamumą galima išrikiuoti vizualizacijų tipus

A
  1. Position along a common scale: scatter chart.
  2. Position on identical but nonaligned scales: multiple scatter charts.
  3. Length & height: bar chart, column chart.
  4. Angle & slope: pie chart.
  5. Area: area chart, scatter with bubbles.
  6. Volume, density, and color saturation: treemap, heatmap.
  7. Shading, color hue: newsmap
67
Q

Su kuriuo iš duomenų tipų (Nominal, Ordinal, Interval, Ratio) įmanoma daugiausia matematinių operacijų? Su kuriuo iš tipų įmanoma mažiausia matematinių operacijų

A

Daugiausia su RATIO Mažiausia su NOMINAL

68
Q

Kokias iš pagrindinių skaitinių duomenų charakteristikų žinote padėčiai ir kokias sklaidai įvertinti

A

Padėties –vidurkis, mediana, kvantiliai (kvar-,%), moda, min, max.
Sklaidos – dispersija, standartinis nuokrypis, imties plotis (max - min), kvartilinis plotis (Q0.75 - Q0.25).

69
Q

• Ką parodo standartinis nuokrypis (standard deviation) ir ką standartinė vidurkio paklaida (standard error of the mean)?

A

standard deviation ≠ standard error of the mean (SEM)
- SD (standartinis nuokrypis) matuoja sklaidą apie vidurkį (68% duomenų telpa į M+-SD)
• didėjant imties dydžiui SD artėja prie populiacijos sklaidos σ
- SEM (standartinė vidurkio paklaida) matuoja vidurkio tikslumą (68% vidurkių telpa į M+-SEM)
• didėjant imties dydžiui SEM artėja prie 0

70
Q

• Kaip apskaičiuojami z-taškai ir į kokį klausimą jie atsako (koks jų matavimo vienetas)?

A

z taškai gaunami tiesiškai transformuojant duomenis.
- Teigiama standartizuota reikšmė parodo geresnį nei vidurkis rezultatą, neigiama – blogesnį.
- Z taškas apie originalią (netransformuotą) reikšmę atsako į klausimą:
• Per kiek standartinių nuokrypių mes nutolę nuo vidurkio?

Labiausiai paplites standartizavimas - z reikšmių skaidiavimas. duomenu aibe l1, l2,…, in.

Standartizave duomenis, gauname nauja duomenu aibe 21, 22, . . ., 2n,
kurios vidurkis visada lygus 0 (z = 0), o standartinis nuokrypis visada
lygus 1 (s. = 1).
71
Q

Kokia koreliacijos nulinė hipotezė ir kokia p-reikšmė indikuoja statistiškai reikšmingą koreliaciją?

A

Nulinė koreliacija - tarp kintamųjų poros nėra koreliacijos. p-reikšmė turi būti <0.1 (su ~90 proc. patikimumu)

72
Q

Koks statistinis testas naudojamas korektiškai palyginti du vidurkius ir kokia jo nulinė hipotezė?

A

Vidurkiai lyginami atliekant t-kriterijaus testą/ Stjudento t- kriterijus. Vidutiniškai skiriasi, kai 95% SE nepersidengia, p-reikšmė <0,05.
Kuo t kriterijus didesnis, tuo didesnis skirtumas tarp lyginamųjų grupių. Kuo t kriterijus didesnis tuo mažesnė tikimybė, kad padaryta klaida analizuojant duomenis.
Nulinė hipotezė sako, skirtumo nėra ( abu vidutiniškai lygūs).

73
Q

Laiko eilutės dekompozicija išskaido dinamiką į komponentus - į kokius?

A

Dekompozicija išskaido eilutę į komponentus:

  1. trendo komponentas (level, trend)
    - ilgalaikis augimas arba kritimas, kryptis
  2. sezoninis komponentas (seasonal)
    - periodiškumas (ketvirčio, mėnesio, savaitės dienos)
    - įmanomas vienkartinis metuose (pagal švenčių dienas)
  3. cikliškumas (verslo arba ekonomikos)
    - nefiksuoto periodo pasikartojimai
    - periodo ilgis paprastai ilgesnis nei sezoniškume
    - eilutės reikšmė keičiasi stipriau nei sezoniškume
  4. klaidos komponentas – liekanos (error, residual)
    - nesumodeliuoti, nepaaiškinami svyravimai
    - tai ko nepavyksta sumodeliuoti trendu ir sezoniškumu
    - nusezoninta (de-seasonalized) eilutė = trendas + liekanos
74
Q

Kokius paprastus vienmačių laiko eilučių prognozavimo metodus žinote?

A

Modeliai vienmačių laiko eilučių prognozavimui:

  • paprasti: vidurkis (dažnai pasiteisina, kai duomenys sunkiai prognozuojami. Apskaičiavus visas reikšmes,, galima brėžti horizontalią liniją), naivus (naudojama tik paskutinė duomenų reikšmė ir ją atkartoja į priekį. Horizontali linija), sezoninis-naivus (atkartoja dinamiką praeitų metų. Horizontali linija), naivus su drift’u (jau nebe horizontali linija. Sujungiama pirma duomenų reikšmė su paskutine ir ta linija pratęsiama (linija gaunasi su kampu))
  • regresija: tiesinis/kvadratinis trendas, sezoniniai dummy (sezoniškumo modeliavimui naudojami kintamieji, kuriuos galima įtraukti į regresijos pusę, jie žymimi kaip 0 (kai nėra to laikotarpio) ir 1 (kai yra tas laikotarpis), yra kaip indikatoriai to ketvirčio
  • autoregresinis (AR) • kai istorinė dinamika (Y vėlavimai) įtraukiama į dešinę pusę
75
Q

Kokius sudėtingus vienmačių laiko eilučių prognozavimo metodus žinote?

A
  • autoregresinis integruotas slenkantis vidurkis (ARIMA) - duoda “triukšmo nuėmimą”, kai grafikas vis vidurkinasi. Autoregresinė dalis duoda trendo (inercijos) pagavimą. Vidurinė dalis (d) - susijusi su laiko eilutės stacionarumu, skaičių d (integravimo lygį) apskaičiuojama pirmiausiai.
    • paprastas ARIMA(p,d,q), sezoninis ARIMA(p,d,q) (p,d,q)12
    ARIMA modeliui reikia skaičių arba parametrų su kuriais jis yra derinamas.
  • Theta modelis – eksponentinis glodinimas su drift’u
    • Assimakopoulos & Nikolopoulos (2000)
  • ETS – eksponentinio glodinimo generalizacija
  • BATS – ARMA ir eksponentinio glodinimo hibridas
    • exponential smoothing state space model with Box-Cox transformation,
  • ARMA errors, Trend and Seasonal components
    • DeLivera-Hyndman-Snyder (2011) – sudėtingam sezoniškumui
76
Q

Kokie yra pagrindiniai laiko eilučių prognozavimo klaidų variantai?

A

Kad turėti klaidą, reikia turėti duomenis, kuriuos prognozuoji.
Prognozės įvertinimui naudojami klaidų tipai:
- RMSE (root mean square error) - absoliuti klaida. Kvadratas sureikšmina dideles klaidas (“išpučia” tą klaidą)
• šaknis iš vidutinės kvadratinės paklaidos
• privalumas – kvadratas “baudžia” dideles klaidas
- MAPE (mean absolute percentage error) - reliatyvi klaida. Procentinė klaida,
• absoliučių paklaidų, išreikštų procentais, vidurkis
• privalumas – tinka lyginti skirtingoms prognozėms
- MASE (mean absolute scaled error) = [0..1..∞] - reliatyvi klaida. Kuo reikšmė artimesnė 0, tuo kiekviena klaida atrodys labai didelė - yra nepatikima.

77
Q

Kada labiau tinka naudoti MAPE arba MASE prognozavimo klaidą vietoje RMSE? Kuo MASE pranašesnė už MAPE?

A

o Labiau tinka naudoti MAPE, kur lyginamos skirtingos prognozės. Pvz.: ką labiau sekasi naudoti? Leistinas MAPE
o MASE pranašesnė kai reikšmės arti nulio, nes klaida tokiems skaičiams atrodys milžiniška (MAPE netinka)
o MAPE - žingsnį prognozuoja į priekį, ištaiso trūkumas, kai reikšmės arti nulio

78
Q

Duomenų tyrybos proceso žingsniai

A

CRISP-DM 6 žingsniai:

  1. veiklos suvokimas
  2. duomenų suvokimas
  3. duomenų paruošimas
  4. modeliavimas (modelio derinimas)
  5. modelio įvertinimas (testavimas)
  6. pritaikymas, įdiegimas

SEMMA metodologija pagal SAS

1) Pavyzdys iš duomenų rinkinio – padalijimas į mokymo, patvirtinimo ir testavimo duomenų rinkinius.
2) Naršyti duomenų rinkinį – statistiškai (santrauka) ir grafiškai (vizualizacija)
3) Modifikuoti, iš anksto apdoroti duomenis – transformuoti kintamąjį, priskirti trūkstamas reikšmes
4) Modelio duomenys – pritaikyti nuspėjamuosius modelius, naudojant testavimo duomenų rinkinį: parametrų derinimas, funkcijų pasirinkimas
5) Įvertinkite modelį – palyginkite modelius naudodami patvirtinimo duomenų rinkinį

79
Q

Kokie yra pagrindiniai duomenų tyrybos uždaviniai, t.y. kokie mašininio mokymosi tipai yra žinomi?

A

o Mokymasis su mokytoju, prižiūrima (supervised learning)
Uždavinys: klasifikavimo ir regresijos uždaviniai
o Mokymasis be mokytojo, neprižiūrima (unsupervised learning)
Uždavinys: taisyklių išgavimas, klasterizavimo uždavinys, dimensionalumo mažinimas (pvz. vizualizavimas)
o Dalinai su mokytoju (semi- supervised)
Uždavinys: kada kai kurios išėjimo reikšmės nežinomos
o Su grįžtamuoju ryšiu (reinforcement)
Uždavinys: kada modelis tobulinamas realiu laiku

80
Q

Kokie pagrindiniai taisyklių gerumo įverčiai naudojami susietumo taisyklių IŠGAVIMO uždavinyje (pirkinių krepšelio analizėje)? Žinoti įverčių formules.

A

Taisyklių išgavimas: kiek stipri {A, B}→C Taisyklė

Taisyklių įverčiai:
Palaikymas (populiarumas) – support=P(A,B,C), parodo kiek prekių kombinacija yra populiari, apskaičiuojama procentais
Pasikliovimas (arba →) – confidence=P(C|A, B), parodo kiek žmonių pirkusių tam tikrą populiariausią kombinaciją (pvz. pienas ir duona), pirko ir sviestą
Pranašumas (nuostaba) – lift=confidence/P(C), nuostaba parodo kiek netikėta, kad tam tikra taisyklė duomenyse atsirado
Svertas (nuostaba) – leverage=P(A,B,C)-P(A, B)*P(C) nuostaba parodo kiek netikėta, kad tam tikra taisyklė duomenyse atsirado

81
Q

Ką duomenyse randa klasterizavimo uždavinys? Kada jis gali praversti verslo duomenų analizei?

A

o Klasterizavimas – objektų grupių radimas duomenyse
 Klasteris – objektų rinkinys arba grupė, duomenų „spiečius“
 Objektas klasteryje panašūs ir skiriasi nuo kito klasterio objektų
o Profiliavimas – centras (kintamųjų reikšmės), prototipas
Klasterizavimo uždavinys gali praversti verslo duomenų analizei, kai norime suprasti savo klientų portfelį, kokie klientai, kokio amžiaus ir t.t. Kitaip tariant klientų bazės analizavimui

82
Q

Kokius pagrindinius algoritmus KLASTERIZAVIMO uždaviniui spręsti žinote?

A

o K-vidurkių algoritmai – suskirsto duomenis į nurodytą grupių (klasterių) kiekį
o Hierarchinis algoritmas – suformuoja dendogramą, medį, kurį pjaunant pasirinktame aukštyje gauname konkretų klasterių skaičių
o Particijų – ieško nurodyto skaičiaus klasterių (flat partitioning)
o DBSCan – tai duomenų tankiu pagrįstas klasterizavimo metodas, kaimyninius duomenis grupuojantis į klasterius pagal objektų tankį.
o k-medoidų

83
Q

Kokius vidinius kriterijus, skirtus įvertinti KLASTERIZAVIMO gerumui, žinote?

(grupės nežinomos)

A

o Max vidutinis silueto plotis (silhouette >0,25)
o Max atotrūkis (gap, Tibshirani-Walther-Hastie)
o Max Dunn indeksas (min atstumas tarp klasterių/ max atstumas klasteryje)
o Min nutolimas nuo centro kvadratu (WithinSS)
o Max Calinski-Harabasz, min Davies-Bouldin

84
Q

Kokie dimensionalumo mažinimo pritaikymai? Kokie algoritmai naudojami šiam uždaviniui spręsti?

A

Naudojamas duomenų vaizdavimui, vizualizavimui
Uždavinys: suspausti N kintamųjų iki 2 arba 3 esminių. Praverčia kai kintamieji yra koreliuoti (panašūs). Spaudžiant stengiamasi išlaikyti pradinius N-mačius atstumus

Naudojami algoritmai:
PCA – principinių komponenčių analizė		
ICA – nepriklausomų komponenčių analizė
t-SNE – stochastinio kaimynų algoritmas	
kiti algoritmai: 
SOM, CCA, Isomap, Sammon, LLE
85
Q

Kuo mokyme su mokytoju skiriasi regresijos uždavinys nuo klasifikavimo uždavinio?

A

o Tikslo kintamasis – prognozuojama reikšmė
 Tolydi (skaičius su kableliu) – regresija
 Diskreti (kategorinis atributas) – klasifikavimas
Šie uždaviniai skiriasi tuo, kad turėdami modeliuojamą stulpelį žiūrime kokiais duomenimis jis užpildytas, jei tai yra skaičiai, tada bus regresijos uždavinys, jei bus kategorijos (taip/ne ar panašiai) bus klasifikavimo uždavinys.

86
Q

Kada klasifikavimo uždavinį galime vadinti detekcijos uždaviniu?

A

kai jis turi 2 klases

87
Q

Kokie modeliai / algoritmai žinomi KLASIFIKAVIMO uždaviniui spręsti?

A

-Logistinė regresija, probit regresija
-Tiesinė (bei kvadratinė) diskriminantinė analizė (randa nauja ašį, įkurią suprojektavus duomenis (max atskyrimas tarp klasių centrų, min sklaida kiekvienos klasės vid.)
-Naivaus Bajeso algoritmas (įėjimo kintamieji diskretūs)
- k-artimiausių kaimynų
- sprendimų medžiai
• populiariausi – CART (classifikation and regression tree)
• kiti variantai – ID3, CHAID, C4.5
- atsitiktinis miškas – CART kolektyvas
- atraminių vektorių (SVM, support vector machine)
• naudoja įvairius branduolius, universaliausias-Gauso (RBF)
- daugiasluoksnis perceptronas – neuroninis tinklas
• gilus mokymas (deep learning), konvoliuciniai tinklai

88
Q

Kokios kreivės padeda palyginti DETEKCIJOS gerumą tarp skirtingų modelių?

A
  • DET kreivė, lygių klaidų lygis (EER)
  • ROC kreivė, plotas po kreive (AUC)
  • Precision-Recal kreivė, F-measure
  • Koncentracijos, pranašumas (lift), pelno (profit) kreivės
89
Q

Kokie skaitiniai įverčiai naudojami apibendrinti detekcijos gerumui?

A

Detekcijos gerumui įvertinti naudojamas slenkstis. Pagal nutylėjimą slenkstis parenkamas 0,5 ir gaunama sumaišymo matrica, tačiau slenkstį galima didinti, mažinti, tokiu atveju gaunamos kreivės(4 klausimas).

90
Q

Kaip gaunama ir kam naudojama sumaišymų matrica (confusion matrix)?

A

Klasifikavimo modelis yra suskirstomas į tris klases (>2 klases) ir gaunama sumaišymo matrica
Naudojama nustatant kiek % klasės atvejų pavyko suklasifikuoti teisingai (recall), kiek % klasės spėjimų iš tiesų pataikė į ją.
Sumaišymo matrica parodo teisingai ar neteisingai suklasifikuotų duomenų atvejų skaičių. Šios matricos paskirtis identifikuoti, kokios rūšies klaidos būdingos prognozavimo modeliui

91
Q

Kas mokyme su mokytoju laikoma persimokymo problema?

A

Kuo ilgiau mes mokome modelį, jį derinam, tuo iškyla didesnė rizika perderinti svorius, tai yra kuo ilgiau mokome modelį apmokymo klada krenta, tačiau testavimo klaida kyla.

92
Q

Kam reikia duomenų padalinimo į apmokymo ir testavimo imtis?

A

Duomenys padalinami į apmokymo ir testavimo norint įvertinti modelio gerumą
Prie testavimo nežinome stulpelio Class reikšmių, todėl jas bandome atspėti. Kai testavimas yra atliekamas yra lyginama kiek reikšmių teisingai atspėjo ir nustatomas tikslumas %.

93
Q

Kaip atliekamas kryžminis patikrinimas mokymo su mokytoju sėkmingumo įvertinimui?

A

Mokymo tikslumo įvertinimui naudojamas kryžminis patikrinimas. Duomenys atsitiktinai padalinami į 5 dalis ir kiekviena iš dalių gali būti testuojama, leidžia visiems duomenims, kiekvienai daliai, pabūti testuojamiems. 5 kartus apmokom modelį ant apmokymo dalies, kiekvieną kartą skirtingai ir tokiu būdu galime tiksliau įvertinti modelio gerumą.

Kaip tikrinamas klasifikavimo tikslumas?
atsitiktinis skėlimas | (apmok. / test.) dalis
K-daliy kryžminis patikrinimas (K-fold CV)
ar reikia stratifikavimo (daliy panasumo)?
galima pakartoti validaciją keletą kartų

94
Q

SQL kalbą sudaro

A

SQL abėcėlę sudaro raidės, skaitmenys, specialieji simboliai bei baziniai žodžiai.
SQL kalbą sudaro keletas sakinių grupių:
• duomenų apibrėžimo sakiniai
• manipuliavimo duomenimis sakiniai
• duomenų valdymo sakiniai.