exam Flashcards

Question

UNION

Answer 1

``` SELECT Name AVG (Mark) AS Average FROM Grades GROUP BY Name UNION SELECT 'Total' as Name, AVG (Mark) AS Average FROM Grades ```

Answer 2

SELECT * FROM | A NATURAL JOIN B

Answer 3

SELECT * FROM A INNER JOIN B ON/USING ‹condition>

Answer 4

``` SELECT FROM Employee WHERE Department IN ( 'Marketing' , 'Sales') ```

Answer 5

``` Select From Employee E Where Exists ( Select * From Manager M Where E. Name = M. Name And E.Dept = M. Dept ```

Answer 6

SELECT column AS newName... SELECT FROM table AS newName

Answer 7

-Įkeliame duomenis | Power BI Desktop, aptvarkomes su Query Editor, sukuriame pradine ataskaita (report) -sukurta ataskaita publikuojame į Power BI servisą -Power BI servise galima ataskaita papildyti vizualizacijom, vizualizacijas iškelti į švieslentę --galimybe analizuoti duomenis rašant klausimus --įdomių vizualizaciju generavimas (get insights) -dalinames sukurtom ataskaitom ir švieslentėm su kitais, vėliau galima interaktyviai peržiūrėti sukurtas ataskaitas ir švieslentes su Power BI Mobile -pasikeitus duomenims vizualizacijos atsinaujina

Answer 8

``` All File Database Power Platform Azure Online Services Other ``` ``` Exel Text/CSV XML JSON Folder PDF SharePoint folder SQL server Orachle database PostgresSQL ```

Answer 9

Qlik View Personal Edition, Periscope Data BIRT, Pentaho, ClicData,, JasperReports Server, Helical Insight, ELK Stack, Style Scope AE, Keen Dashboard, Re:Dash, Google Data Studio, Tableau Public, Chartio, Kibana, Yellowfin, Zoho Reports, Seal Report, Mozaik, flexdashboard SpagoBI, ReportServer

Answer 10

įmonės siūloma kaina, reklamos išlaidos, paskirstymo išlaidos (prekybos atstovų kiekio), kredito klientams dydžio.

Answer 11

Pelno (nuostolio) ataskaita, Finansinės būklės pokyčių ataskaita (pinigų srautų ataskaita), Pelno paskirstymas (nepaskirstyto pelno ataskaita), Balansas. ``` Galbūt dar šitie: Rinkoje, nuo bendrosios paklausos Kaina, nuo vidurkio Reklamos islaidos, nuo vidurkio Kreditas klientams, nuo vidurkio Prekybos atstovai, nuo vidurkio ```

Answer 12

1. Bendrasis pelnas 2. Veiklos pelnas 3. Ataskaitinių metų pelnas (nuostolis) prieš apmokestinimą 4. Grynasis pelnas

Answer 13

Parduotos produkcijos apimtis, prekių savikaina ( ir kaina), finansinės išlaidos (pajamos, pelnas).

Answer 14

Tai reiškia, jog įrenginiai panaudojami tik 10 %. Tokio mažo panaudojimo galimos priežastys: nepakankamai darbuotojų (taip pat galimai jų atlyginimai maži/socialinis biudžetas mažas, darbuotojų našumas), įrenginių nusidėvėjimas

Answer 15

Produkcijos apimties padidėjimas (konkurencinga įrenginių rinkos kaina), tinkamos reklamos išlaidos ir prekybos atstovų skaičius.

Answer 16

Taip. Reklamos išlaidos ir prekybos atstovų skaičius įeina į prekių savikainą ir kainą, tad būtinas adekvatus minėtų išlaidų paskirstymas.

Answer 17

``` Atsargos sandėlyje metų pradzioje Likutis sandelyje metų pabaigoje Produkcijos vertė sandelyje Sandėliavimo išlaidos Pagaminta Parduota Gamybos savikaina Pilnoji savikaina Marketingo rodiklis ```

Answer 18

Pagrindinės medžiagos Darbininkų atlyginimas, samda, atleidimas Socialinis biudžetas įrengimu amortizacija, išlaikymas Prekybos atstovų atlyginimas, samda ir atleidimas Reklama Rinkos tyrimas Administracijos sanaudos Pilnoji savikaina, Eur/vnt. (vieneto savikaina

Answer 19

įvertinant įmonės padėtį rinkoje (įmonės rodikliai - paklausa, konkurencija, marketingas ir pan.)

Answer 20

``` o .csv o .xslx – Excel o Dar: Decimal Number Fixed decimal number Whole Number Percentage Date/Time Date Time Date/Time/Timezone Duration Text True/False Binary ```

Answer 21

o Rename column – stulpelio pavadinimo keitimas o Convert column type – stulpelio tipo keitimas o Format column values – formatas (%, kiek skaičių po ,?) o Reoder columns – stulpelių sukeitimas vietomis o Replace column values – reikšmės pakeitimas kita o Expanding related columns – stulpelių išplėtimas o Splitting columns – stulpelio išskaidymas į 2 atskirus o Merging columns – atskirų stulpelių apjungimas į vieną o Adding custom column – naujo stulpelio sukūrimas o Group by – grupavimas pagal stulpelio reikšmes o Append – lentelės eilučių prijungimas prie kitos lentelės o Merge – lentelės stulpelių prijungimas prie kitos lentelės o Pivot column – eilučių perkėlimas į atskirus stulpelius

Answer 22

o Left Outer (all from first, matching from second) o Right Outer (all from second, matching from first) o Full Outer (all rows from both) o Inner (only matching rows) o Left Anti (rows only in first) o Right Anti (rows only in second)

Answer 23

o Vienas-su-daug (1:*) o Daug-su-vienu (*:1) o Vienas-su-vienu (1:1) o Daug-su-daug (*:*)

Answer 24

Vienas-su-daug (1:*)

Answer 25

„vienas su vienu“ ryšio duomenų bazėje scenarijus yra vienos lentelės padalijimas į dvi: viena su privalomais, kita - su neprivalomais stulpeliais.

Answer 26

Pirminis raktas (primary key) unikaliai identifikuoja lentelės eilutę, o išorinis raktas (foreign key) pasiekia kitų susijusių lentelių duomenis. Pirminis raktas dažnai yra nepriklausomas nuo turinio ir automatiškai generuojamas duomenų bazės, kad būtų lengviau atnaujinti duomenis. Išorinis raktas visada gaunamas iš ryšio su kitomis lentelėmis.

Answer 27

Faktų lentelėje yra išorinis raktas (foreign key). | Dimensijų lentelėje yra pirminis raktas (primary key)

Answer 28

o žvaigždės (star) – vienas faktas ir dimensijos o snaigės (snowflake) – vienas faktas ir multidimensijos o faktų žvaigždynas (fact constelation) – daug faktų

Answer 29

Snaigės (snowflake) schema taupoma saugyklų vieta, labiau normalizuotas modelis lėteja užklausos ir skaičiavimai, sunkiau paskirstoma Zvaigzdès (star) schema • greiteja uzklausos ir skaiciavimai, labia paskirstoma spacializuotas vaizdas, netaupoma saugyklų vieta

Answer 30

Datos – pasirinktų duomenų intervalo pradžia ir pabaiga, taip pat naudojamos drill-down ar apibendrinimui. Detalizavimas (drill-down) ir apibendrinimas (-up) detalizuoti gilyn pasirinktinai (su pele) Click to turn on Drill Down apibendrinti aukstyn Drill Up detalizuoti gilyn apjungiant viska to Go to the next level in hierarchy detalizuoti gilyn išsleidziant viską Expand all down one level in the hierarchy

Answer 31

Text concatenation operator | & (concatenation)

Answer 32

Measure - skaičiuojamas matas apibendrinta reikšmė visai lentelei reikšmių nebūtinai tiek, kiek eilučiu lentelėje Column - skaičiuojamas stulpelis lentelė tiesiog papildoma nauju stulpeliu reiksmių būtinai tiek, kiek eilučių lentelėje

Answer 33

Kuriame nauja lauka faktų lentelėje (* pus.), kurį pasiimam iš lentelės (1, gali buti toli, netureti tiesioginio rysio) su RELATED() Gross Margin = [SalePrice]-RELATED(Stock[Direct Costs]) Kuriame nauja lauką dimensijos lentelėje (1 pus), susijusia lentele pasiimti su RELATEDTABLE() patogu kombinuoti su COUNTROWS() funkcija Clients Per Country = COUNTROWS(RELATEDTABLE(Clients))

Answer 34

TOTALYTD – skaičiuoja funkciją (pvz. SUM) nuo metų pradžios iki einamos datos (ketvirčio, mėnesio) pagal datos stulpelį. Datos lauką galima naudoti iš tos pačios lentelės, bet lankstesnis sprendimas būtų imti datos lauką iš datų dimensijos lentelės (DatesRange arba DatesAuto).

Answer 35

Sales Total = SUM([Sales]) MoM (month-over-month) MoM Prev = CALCULATE([Sales Total], PREVIOUSMONTH(financials[Date]) MoM Ratio = DIVIDE([Sales Total] [MoM Prev], blank()) MoM % Delta = IF(ISBLANK ([MoM Ratio]), blank(),[MoM Ratio]-1)

Answer 36

Table - skaičiuojama lentelė Skaičiavimams naudojama DAX sintaksė: -dalis funkciju yra identiškos kaip ir Excel'yje -Excel koordinatės (A1: B2) nėra naudojamos -koordinates nurodomos lentelių ir stulpelių vardais --pVz. lentelė[stulpelis] --nenurodant lentelės, tik [stulpeli] bus bandoma ieškoti lentelėje, kurioje skaičiuojamas matas ar laukas yra išsaugotas Lentelių kūrimas su DAX (calculated table) DAX formulės rezultatas gali buti - nauja lentele -SQL SELECT sakinio rezultatas daZniausiai primena lentele - pvz. su DISTINCT galime sukurti dimensija is stulpelio VALUES, UNION, INTERSECT, CALENDAR, CALENDARAUTO CROSSJOIN, NATURALINNERJOIN, NATURALLEFTOUTERJOIN

Answer 37

Laiko funkcijos: TOTALYTD, TOTALMTD. TOTALQTD CALCULATE(SUM(lentelës_laukas), datos_laukas) datos lauka galima naudoti iS tos pačios lentelės, bet lankstesnis sprendimas būtų imti datos lauka iš datų dimensijos lentelės (DatesRange arba DatesAuto) datu dimensija leistų naudoti datos hierarchijas grafikuose tas aktualu Year-over-Year atveju: SAMEPERIODLASTYEAR bet keblumai naudojant pjaustykle (Slicer), pvz. pagal šalį

Answer 38

Funkcija CALCULATE =CALCULATE(lšraiska; [Filtras1]: [Filtras2]; ...; [FiltrasN]) suskaičiuoja israiską, naudodama nurodytus filtrus, tokia tvarka: Filtro kontekstas modifikuojamas, naudojant argumentus [Filtras1]; [Filtras2]; ...;[FiltrasN] Jei yra eilutės kontekstas, jis perkeliamas prie filtro konteksto Išraiska skaičiuojama naujame filtro kontekste DealerSales = CALCULATE(SUM(InvoiceLines[SalePrice]), Clients[ClientType]="Dealer") Make SalePrice DealerS LowPrice Sales = CALCULATE(SUM(InvoiceLines[SalePrice]), InvoiceLines[SalePrice] < 50000)

Answer 39

``` MINX() MAXX() SUMX() AVERAGEX() COUNTX() COUNTAX() GEOMEANX() MEDIANX() PERCENTILEX.EXC() PERCENTILEX.INC() RANKX() STDEVX.P() STDEVX.S() VARX.S() VARX.P() ```

Answer 40

- Stacked bar chart - naudokite tai, kai norite palyginti skirtingas to paties mato vertes greta arba kai reikia parodyti skirtingus matus, kurie yra tos pačios visumos dalis. Stulpeliai yra horizontaliai orientuotos eilutės. - Stacked column chart - tas pats kaip sudedama juostinė diagrama, bet vertikaliai - Clustered bar chart - panašiai kaip sudedama juostinė diagrama, tačiau užuot palyginę skirtingus matmenis toje pačioje juostoje, naudodami sugrupuotą juostinę diagramą, galite palyginti skirtingus matmenis vienas šalia kito. - Clustered column chart - tas pats, kaip klasifikuota juostinė diagrama, bet vertikaliai - 100% Stacked bar chart - panašus į sukrautų juostų diagramą, tačiau naudojant kiekvieną matą, reikia naudoti kiekvienos juostos gabaliuką, kuris visada atitiktų visą galimą plotį (100%) - 100% Stacked column chart - tokia pati kaip 100% sudedama kolonų diagrama, bet vertikaliai - Line chart - naudokite tai, norėdami parodyti tam tikrų matmenų tendencijas bėgant laikui. Paprastai y ašies diapazonas neapima nulio. - Area chart - panašiai kaip linijų diagramą, naudokite tai, kai norite rodyti kaupiamuosius duomenis, o ne taškų sekas. Paprastai y ašies diapazonas prasideda nuo nulio, ir yra tik vienas matas. Tai atrodo kaip linijų diagrama, kurioje sritys užpildytos spalvų sluoksniais. - Stacked area chart - panašus į plotų diagramą, tačiau kiekviena reikšmė pridedama prie kitų. - Line and stacked column chart - naudokite tai, kai jums reikia rodyti matavimo vienetus su skirtingais masteliais, tokiais kaip valiuta ir procentas arba skirtingi vertės diapazonai - Line and clustered column chart - tas pats, kaip eilutės ir sukrautų stulpelių diagrama, tačiau vietoj sukrautų stulpelių naudojami suskirstyti stulpeliai. - Waterfall chart - naudokite tai, jei norite rodyti kaupiamuosius duomenis, paryškindami kiekvienos vertės teigiamą ar neigiamą vertę. Pradinės ir galutinės vertės stulpeliai paprastai prasideda horizontalioje prieigoje, o tarp jų yra spalvotos slankiosios kolonos, todėl jos atrodo kaip krioklys ar tiltas - Scatter chart - naudokite tai, kai norite parodyti galimą dviejų matavimų koreliaciją - Treemap - panašu į skritulinę diagramą, tačiau naudojant gana skirtingą grafinį atvaizdą, kai vertės puslapyje pateikiamos spalvotais stačiakampiais. Tai gali būti skritulinės diagramos alternatyva, tačiau ji taip pat neįskaitoma, kai joje yra daug elementų - Map - naudokite tai norėdami Bing žemėlapiuose rodyti geografinius duomenis su kintamo dydžio apskritimo formomis. - Pie chart - naudokite tai norėdami parodyti vienos ar daugiau matų verčių pasiskirstymą. Vertės pateikiamos kaip pyrago gabaliukai, o didesnės vertės užima didesnius gabaliukus. Tačiau pyragų lentelių naudojimas nėra geriausia praktika - Table - naudokite tai, kad pateiktumėte duomenis tekstine forma kaip paprastą lentelę, kur kiekvienas požymis ir kiekviena priemonė yra vienas rezultato stulpelis. - Matrix - tai praplečia lentelę ir suteikia galimybę sugrupuoti matus pagal eilutes ir stulpelius - Filled map - panašus į žemėlapį, tačiau duomenis vaizduoja spalvotos perdangos sritys - Funnel - panašus į sukrautą juostinę diagramą, tačiau turintis vieną matą ir skirtingą grafinį atvaizdą, kai eilutės sukrautos eilės tvarka, todėl diagrama atrodo kaip piltuvas - Gauge - naudokite tai parodyti reikšmę, kad palyginti su galutine (didžiausia) reikšmę. Ši diagrama primena automobilio spidometrą - Multi-row card - naudokite tai, norėdami parodyti skirtingus matmenis ir atributus kiekvienam subjekto egzemplioriui, kiekvienam pritaikant skirtingų spalvų ir grafikų korteles - Card - naudokite tai, jei norite parodyti vieną skaitmeninę matavimo vertę tekstiškai, įdėtą į spalvotą ir grafinę kortelę - KPI - naudokite tai, jei norite rodyti vieną vertę su tendencijų linijos diagrama fone, paryškindami jos veikimą spalvomis - Slicer - naudokite tai, jei norite filtruoti vieną ar daugiau diagramų, pasirinkdami atributo reikšmes - Donut chart - panašus į pyrago diagramą, bet su spurga ar padangą primenančiu grafiniu vaizdu. Tačiau spurgų lentelių naudojimas nėra geriausia praktika - R script visual - naudokite tai rodydami diagramas, sukurtas pagal R kalbos kodą

Answer 41

❖ Pjaustyklė (Slicer), nes pats PlayAxis yra DinamicSlicer. ❖ Jei animuojama pasirinkus tašką - gausime trajektoriją. ❖ patogu pamatyti kitimą; ❖ Naudojamas su Scatter chart.

Answer 42

1. Position along a common scale: scatter chart. 2. Position on identical but nonaligned scales: multiple scatter charts. 3. Length & height: bar chart, column chart. 4. Angle & slope: pie chart. 5. Area: area chart, scatter with bubbles. 6. Volume, density, and color saturation: treemap, heatmap. 7. Shading, color hue: newsmap

Answer 43

Daugiausia su RATIO Mažiausia su NOMINAL

Answer 44

Padėties –vidurkis, mediana, kvantiliai (kvar-,%), moda, min, max. Sklaidos – dispersija, standartinis nuokrypis, imties plotis (max - min), kvartilinis plotis (Q0.75 - Q0.25).

Answer 45

standard deviation ≠ standard error of the mean (SEM) - SD (standartinis nuokrypis) matuoja sklaidą apie vidurkį (68% duomenų telpa į M+-SD) • didėjant imties dydžiui SD artėja prie populiacijos sklaidos σ - SEM (standartinė vidurkio paklaida) matuoja vidurkio tikslumą (68% vidurkių telpa į M+-SEM) • didėjant imties dydžiui SEM artėja prie 0

Answer 46

z taškai gaunami tiesiškai transformuojant duomenis. - Teigiama standartizuota reikšmė parodo geresnį nei vidurkis rezultatą, neigiama – blogesnį. - Z taškas apie originalią (netransformuotą) reikšmę atsako į klausimą: • Per kiek standartinių nuokrypių mes nutolę nuo vidurkio? Labiausiai paplites standartizavimas - z reikšmių skaidiavimas. duomenu aibe l1, l2,..., in. ``` Standartizave duomenis, gauname nauja duomenu aibe 21, 22, . . ., 2n, kurios vidurkis visada lygus 0 (z = 0), o standartinis nuokrypis visada lygus 1 (s. = 1). ```

Answer 47

Nulinė koreliacija - tarp kintamųjų poros nėra koreliacijos. p-reikšmė turi būti <0.1 (su ~90 proc. patikimumu)

Answer 48

Vidurkiai lyginami atliekant t-kriterijaus testą/ Stjudento t- kriterijus. Vidutiniškai skiriasi, kai 95% SE nepersidengia, p-reikšmė <0,05. Kuo t kriterijus didesnis, tuo didesnis skirtumas tarp lyginamųjų grupių. Kuo t kriterijus didesnis tuo mažesnė tikimybė, kad padaryta klaida analizuojant duomenis. Nulinė hipotezė sako, skirtumo nėra ( abu vidutiniškai lygūs).

Answer 49

Dekompozicija išskaido eilutę į komponentus: 1. trendo komponentas (level, trend) - ilgalaikis augimas arba kritimas, kryptis 2. sezoninis komponentas (seasonal) - periodiškumas (ketvirčio, mėnesio, savaitės dienos) - įmanomas vienkartinis metuose (pagal švenčių dienas) 3. cikliškumas (verslo arba ekonomikos) - nefiksuoto periodo pasikartojimai - periodo ilgis paprastai ilgesnis nei sezoniškume - eilutės reikšmė keičiasi stipriau nei sezoniškume 4. klaidos komponentas – liekanos (error, residual) - nesumodeliuoti, nepaaiškinami svyravimai - tai ko nepavyksta sumodeliuoti trendu ir sezoniškumu - nusezoninta (de-seasonalized) eilutė = trendas + liekanos

Answer 50

Modeliai vienmačių laiko eilučių prognozavimui: - paprasti: vidurkis (dažnai pasiteisina, kai duomenys sunkiai prognozuojami. Apskaičiavus visas reikšmes,, galima brėžti horizontalią liniją), naivus (naudojama tik paskutinė duomenų reikšmė ir ją atkartoja į priekį. Horizontali linija), sezoninis-naivus (atkartoja dinamiką praeitų metų. Horizontali linija), naivus su drift’u (jau nebe horizontali linija. Sujungiama pirma duomenų reikšmė su paskutine ir ta linija pratęsiama (linija gaunasi su kampu)) - regresija: tiesinis/kvadratinis trendas, sezoniniai dummy (sezoniškumo modeliavimui naudojami kintamieji, kuriuos galima įtraukti į regresijos pusę, jie žymimi kaip 0 (kai nėra to laikotarpio) ir 1 (kai yra tas laikotarpis), yra kaip indikatoriai to ketvirčio - autoregresinis (AR) • kai istorinė dinamika (Y vėlavimai) įtraukiama į dešinę pusę

Answer 51

- autoregresinis integruotas slenkantis vidurkis (ARIMA) - duoda “triukšmo nuėmimą”, kai grafikas vis vidurkinasi. Autoregresinė dalis duoda trendo (inercijos) pagavimą. Vidurinė dalis (d) - susijusi su laiko eilutės stacionarumu, skaičių d (integravimo lygį) apskaičiuojama pirmiausiai. • paprastas ARIMA(p,d,q), sezoninis ARIMA(p,d,q) (p,d,q)12 ARIMA modeliui reikia skaičių arba parametrų su kuriais jis yra derinamas. - Theta modelis – eksponentinis glodinimas su drift’u • Assimakopoulos & Nikolopoulos (2000) - ETS – eksponentinio glodinimo generalizacija - BATS – ARMA ir eksponentinio glodinimo hibridas • exponential smoothing state space model with Box-Cox transformation, - ARMA errors, Trend and Seasonal components • DeLivera-Hyndman-Snyder (2011) – sudėtingam sezoniškumui

Answer 52

Kad turėti klaidą, reikia turėti duomenis, kuriuos prognozuoji. Prognozės įvertinimui naudojami klaidų tipai: - RMSE (root mean square error) - absoliuti klaida. Kvadratas sureikšmina dideles klaidas (“išpučia” tą klaidą) • šaknis iš vidutinės kvadratinės paklaidos • privalumas – kvadratas “baudžia” dideles klaidas - MAPE (mean absolute percentage error) - reliatyvi klaida. Procentinė klaida, • absoliučių paklaidų, išreikštų procentais, vidurkis • privalumas – tinka lyginti skirtingoms prognozėms - MASE (mean absolute scaled error) = [0..1..∞] - reliatyvi klaida. Kuo reikšmė artimesnė 0, tuo kiekviena klaida atrodys labai didelė - yra nepatikima.

Answer 53

o Labiau tinka naudoti MAPE, kur lyginamos skirtingos prognozės. Pvz.: ką labiau sekasi naudoti? Leistinas MAPE o MASE pranašesnė kai reikšmės arti nulio, nes klaida tokiems skaičiams atrodys milžiniška (MAPE netinka) o MAPE - žingsnį prognozuoja į priekį, ištaiso trūkumas, kai reikšmės arti nulio

Answer 54

CRISP-DM 6 žingsniai: 1. veiklos suvokimas 2. duomenų suvokimas 3. duomenų paruošimas 4. modeliavimas (modelio derinimas) 5. modelio įvertinimas (testavimas) 6. pritaikymas, įdiegimas SEMMA metodologija pagal SAS 1) Pavyzdys iš duomenų rinkinio – padalijimas į mokymo, patvirtinimo ir testavimo duomenų rinkinius. 2) Naršyti duomenų rinkinį – statistiškai (santrauka) ir grafiškai (vizualizacija) 3) Modifikuoti, iš anksto apdoroti duomenis – transformuoti kintamąjį, priskirti trūkstamas reikšmes 4) Modelio duomenys – pritaikyti nuspėjamuosius modelius, naudojant testavimo duomenų rinkinį: parametrų derinimas, funkcijų pasirinkimas 5) Įvertinkite modelį – palyginkite modelius naudodami patvirtinimo duomenų rinkinį

Answer 55

o Mokymasis su mokytoju, prižiūrima (supervised learning) Uždavinys: klasifikavimo ir regresijos uždaviniai o Mokymasis be mokytojo, neprižiūrima (unsupervised learning) Uždavinys: taisyklių išgavimas, klasterizavimo uždavinys, dimensionalumo mažinimas (pvz. vizualizavimas) o Dalinai su mokytoju (semi- supervised) Uždavinys: kada kai kurios išėjimo reikšmės nežinomos o Su grįžtamuoju ryšiu (reinforcement) Uždavinys: kada modelis tobulinamas realiu laiku

Answer 56

Taisyklių išgavimas: kiek stipri {A, B}→C Taisyklė Taisyklių įverčiai: Palaikymas (populiarumas) – support=P(A,B,C), parodo kiek prekių kombinacija yra populiari, apskaičiuojama procentais Pasikliovimas (arba →) – confidence=P(C|A, B), parodo kiek žmonių pirkusių tam tikrą populiariausią kombinaciją (pvz. pienas ir duona), pirko ir sviestą Pranašumas (nuostaba) – lift=confidence/P(C), nuostaba parodo kiek netikėta, kad tam tikra taisyklė duomenyse atsirado Svertas (nuostaba) – leverage=P(A,B,C)-P(A, B)*P(C) nuostaba parodo kiek netikėta, kad tam tikra taisyklė duomenyse atsirado

Answer 57

o Klasterizavimas – objektų grupių radimas duomenyse  Klasteris – objektų rinkinys arba grupė, duomenų „spiečius“  Objektas klasteryje panašūs ir skiriasi nuo kito klasterio objektų o Profiliavimas – centras (kintamųjų reikšmės), prototipas Klasterizavimo uždavinys gali praversti verslo duomenų analizei, kai norime suprasti savo klientų portfelį, kokie klientai, kokio amžiaus ir t.t. Kitaip tariant klientų bazės analizavimui

Answer 58

o K-vidurkių algoritmai – suskirsto duomenis į nurodytą grupių (klasterių) kiekį o Hierarchinis algoritmas – suformuoja dendogramą, medį, kurį pjaunant pasirinktame aukštyje gauname konkretų klasterių skaičių o Particijų – ieško nurodyto skaičiaus klasterių (flat partitioning) o DBSCan – tai duomenų tankiu pagrįstas klasterizavimo metodas, kaimyninius duomenis grupuojantis į klasterius pagal objektų tankį. o k-medoidų

Answer 59

o Max vidutinis silueto plotis (silhouette >0,25) o Max atotrūkis (gap, Tibshirani-Walther-Hastie) o Max Dunn indeksas (min atstumas tarp klasterių/ max atstumas klasteryje) o Min nutolimas nuo centro kvadratu (WithinSS) o Max Calinski-Harabasz, min Davies-Bouldin

Answer 60

Naudojamas duomenų vaizdavimui, vizualizavimui Uždavinys: suspausti N kintamųjų iki 2 arba 3 esminių. Praverčia kai kintamieji yra koreliuoti (panašūs). Spaudžiant stengiamasi išlaikyti pradinius N-mačius atstumus ``` Naudojami algoritmai: PCA – principinių komponenčių analizė ICA – nepriklausomų komponenčių analizė t-SNE – stochastinio kaimynų algoritmas kiti algoritmai: SOM, CCA, Isomap, Sammon, LLE ```

Answer 61

o Tikslo kintamasis – prognozuojama reikšmė  Tolydi (skaičius su kableliu) – regresija  Diskreti (kategorinis atributas) – klasifikavimas Šie uždaviniai skiriasi tuo, kad turėdami modeliuojamą stulpelį žiūrime kokiais duomenimis jis užpildytas, jei tai yra skaičiai, tada bus regresijos uždavinys, jei bus kategorijos (taip/ne ar panašiai) bus klasifikavimo uždavinys.

Answer 62

kai jis turi 2 klases

Answer 63

-Logistinė regresija, probit regresija -Tiesinė (bei kvadratinė) diskriminantinė analizė (randa nauja ašį, įkurią suprojektavus duomenis (max atskyrimas tarp klasių centrų, min sklaida kiekvienos klasės vid.) -Naivaus Bajeso algoritmas (įėjimo kintamieji diskretūs) - k-artimiausių kaimynų - sprendimų medžiai • populiariausi – CART (classifikation and regression tree) • kiti variantai – ID3, CHAID, C4.5 - atsitiktinis miškas – CART kolektyvas - atraminių vektorių (SVM, support vector machine) • naudoja įvairius branduolius, universaliausias-Gauso (RBF) - daugiasluoksnis perceptronas – neuroninis tinklas • gilus mokymas (deep learning), konvoliuciniai tinklai

Answer 64

* DET kreivė, lygių klaidų lygis (EER) * ROC kreivė, plotas po kreive (AUC) * Precision-Recal kreivė, F-measure * Koncentracijos, pranašumas (lift), pelno (profit) kreivės

Answer 65

Detekcijos gerumui įvertinti naudojamas slenkstis. Pagal nutylėjimą slenkstis parenkamas 0,5 ir gaunama sumaišymo matrica, tačiau slenkstį galima didinti, mažinti, tokiu atveju gaunamos kreivės(4 klausimas).

Answer 66

Klasifikavimo modelis yra suskirstomas į tris klases (>2 klases) ir gaunama sumaišymo matrica Naudojama nustatant kiek % klasės atvejų pavyko suklasifikuoti teisingai (recall), kiek % klasės spėjimų iš tiesų pataikė į ją. Sumaišymo matrica parodo teisingai ar neteisingai suklasifikuotų duomenų atvejų skaičių. Šios matricos paskirtis identifikuoti, kokios rūšies klaidos būdingos prognozavimo modeliui

Answer 67

Kuo ilgiau mes mokome modelį, jį derinam, tuo iškyla didesnė rizika perderinti svorius, tai yra kuo ilgiau mokome modelį apmokymo klada krenta, tačiau testavimo klaida kyla.

Answer 68

Duomenys padalinami į apmokymo ir testavimo norint įvertinti modelio gerumą Prie testavimo nežinome stulpelio Class reikšmių, todėl jas bandome atspėti. Kai testavimas yra atliekamas yra lyginama kiek reikšmių teisingai atspėjo ir nustatomas tikslumas %.

Answer 69

Mokymo tikslumo įvertinimui naudojamas kryžminis patikrinimas. Duomenys atsitiktinai padalinami į 5 dalis ir kiekviena iš dalių gali būti testuojama, leidžia visiems duomenims, kiekvienai daliai, pabūti testuojamiems. 5 kartus apmokom modelį ant apmokymo dalies, kiekvieną kartą skirtingai ir tokiu būdu galime tiksliau įvertinti modelio gerumą. Kaip tikrinamas klasifikavimo tikslumas? atsitiktinis skėlimas | (apmok. / test.) dalis K-daliy kryžminis patikrinimas (K-fold CV) ar reikia stratifikavimo (daliy panasumo)? galima pakartoti validaciją keletą kartų

Answer 70

SQL abėcėlę sudaro raidės, skaitmenys, specialieji simboliai bei baziniai žodžiai. SQL kalbą sudaro keletas sakinių grupių: • duomenų apibrėžimo sakiniai • manipuliavimo duomenimis sakiniai • duomenų valdymo sakiniai.