Test Flashcards

Question 1

Q

Coje datamining?

Answer

A

● vyhledávání / objevování netriviálních závislosti, vzorů a trendů
prozkoumávání velkých objemů dat
● zapomocí matematických a statistických algoritmů

Question 2

Q

Coseskrývá pod zkratkou CRM?

Answer

A

● řízení vztahů se zákazníky
● systémový podnikatelský přístup, který se vyznačuje aktivní tvorbou a
udržováním dlouhodobě prospěšných vztahů se zákazníky <wiki></wiki>

Question 3

Q

Jaké typy úloh DM patří do portfólia problémů CRM?

Answer

A

● udržení si zákazníka
● přebrání zákazníka
● oslovení zákazníka

Question 4

Q

Jaké úlohy DM řeší obvykle finanční instituce?

Answer

A

● skórování žádostí o úvěr
● hodnocení chování splácení úvěrů
● hodnota (bonita) klienta
● podvody při používání platebních karet

Question 5

Q

Kde všude se dá DMuplatnit?

Answer

A

● finanční instituce, genové inženýrství, medicína (diagnostika chorob),
personalistika (přijímání pracovníků), školství (udělování stipendií, predikce
úspěšnosti), obchodní řetězce (nákupní košík), státní sféra, logisitka,
marketing, prevence kriminality, identifikace org. zločinu, průmysl…
● text mining (chatgpt, analýza sentimentu)
● webmining (logy, cookies, personalizovaný web)
● zpracování obrazu (rozpoznávání)

Question 6

Q

Je pravdivé tvrzení, že DM odhalí v datech vše podstatné?

Answer

A

● ne,musíme vědět, co chceme / hledáme

Question 7

Q

Je pravdivé tvrzení, že DM je modelování?

Answer

A

● není jen o modelech-> ale i o přípravě dat (80 % času)
● ne-klasifikace, predikce, regrese, analýza vztahů, detekce anomálií, analýza
časových řad, regresní modely, neuronové sítě, rozhodovací stromy,
asociační pravidla, shluková analýza…
● analýza vztahů-> asociační pravidla (APRIORI)

Question 8

Q

Je pravdivé tvrzení, že DM pracuje pouze s obrovskými datovými
množinami?

Answer

A

● specifický úkol-> zmenšuje množinu

Question 9

Q

Jaké znáte dataminingové nástroje?

Answer

A

● IBMSPSSModeler, KNIME, RapidMiner, Orange, Weka
● knihovny v program. jazycích

Question 10

Q

Jaké programovací jazyky jsou nejpopulárnější pro datovou analýzu, data
mining, strojové učení a umělou inteligenci?

Answer

A

● python, R

Question 11

Q

Co je klasifikace, predikce, seskupování? Uveďte příklad úlohy a příklad
vhodného algoritmu.

Answer

A

● klasifikace-> zatřídění objektů do různých tříd podle jejich vlastností
(rozhodovací stromy- C&RT, random forest…)
● predikce-> předpověď
● seskupování-> shlukovací metody (kmeans…), učení bez učitele- model se
snaží najít podobnosti mezi daty a rozdělit je do skupin (shluků / klastrů),
nemá cílovou proměnnou?

Question 12

Q

Proč a kdy vznikla metodologie CRISP DM, které společnosti stály u
vzniku?

Answer

A

● evropská komise-> grant na vytvoření metodologie DM
● SPSS(modely), NCR (data), OHRA, DAIMLER-CHRYSLER (průmysl)
● 1999

Question 13

Q

Z jakých fází se skládá metodologie CRISP DM, popište co se v jednotlivých
fázích řeší?

Answer

A

● Cross-Industry Standard Process for Data mining
● schéma/ fáze:
○ porozumění problému (nejdůležitější, co budeme dělat, plánujeme jak
to budeme dělat)
○ porozumění datům (sběr dat, první vhled do dat, deskriptivní
charakteristiky dat (četnosti, průměr…))
○ příprava dat (časově nejnáročnější, vytváříme modelovací matici->
jedna velká tabulka, modely z matice extrahují řešení problému)
○ modelování (vytváření predikčních modelů, 1…n modelů, ocenění
modelů)
○ evaluace (hodnotí se úroveň modelu na reálných datech)
○ nasazení do praxe (časově velmi rozdílná)

Question 14

Q

Jaký je základní rozdíl mezi data miningem a statistikou?

Answer

A

● statistika-> data z výběrového šetření
● datamining-> data z praxe

Question 15

Q

Co je vstupní proměnná, prediktor, nezávislá proměnná?

Answer

A

● vstupní = nezávislá = predictor
● tyto data popisují výslednou target variable?
● podle těchto dat rozhoduji o výstupní proměnné

Question 16

Q

Co je výstupní proměnná, cílová proměnná, target field?

Answer

A

to, co chci predikovat

Question 17

Q

Jaký je rozdíl mezi strojovým učením bez učitele a učením s učitelem?

Answer

A

● učení s učitelem-> vím o výsledné hodnotě-> mohu vědět, zda se model
rozhodl správně při predikci…
● učení bez učitele-> nevím o výsledné hodnotě-> model vyhledává
spojitosti mezi vzorky dat

Question 18

Q

K čemu slouží uzly Type, Varfile, Statistics File, Excel, Database, User Input,
Select, Agregate, Sort, Balance, Distinct, Merge, Append, Filter,Partition,
Filed Reorder,Table,Data Audit ; Kde tyto uzly v Modeleru najdete?

Answer

A

● type [field ops]-> definice datových typů sloupců, definice
vstupní/výstupní/obojí/žádné role sloupce
● varfile [sources]-> načtení textového souboru
● statistics file [sources]-> načtení .sav souboru
● excel [sources]-> načtení excel souboru
● database [sources]-> připojení DB?
● user input [sources]-> vložení vlastního vstupu
● select [record ops]-> výběr sloupců
● aggregate [record ops]-> group by
● sort [record ops]-> setřídění
● balance [record ops]-> opravuje inbalances v datech (např ve sloupci
hodnoty true (90%) a false (10%)-> model se spíše naučí rozpoznávat
true-> proto chceme balance)
● distinct [record ops]-> pouze unikátní hodnoty
● merge[record ops]-> spojení dat z různých zdrojů
● append[record ops]-> spojení dat, které mají podobnou strukturu
(sloupce…)
● filter [field ops]-> výběr sloupců
● partition [field ops]-> rozdělení na testovací / trénovací skupiny
● filled reorder [field ops]-> setřídění sloupců
● table [output]-> tabulka šmírovačka
● dataaudit [output]-> jako v pythonu pandas .info()-> dá nám základní
vhled do dat-> histogramy/distribution, statistické ukazatele…

Question 19

Q

Na jaký typ proměnné/proměnných použijete vizualizaci pomocí Plot,,
Distribution, Histogram?

Answer

A

● plot = oba typy?
● distribution = nominální / ordinální (kategoriální)
● histogram = spojité / diskrétní (numerické, kvantitativní)

Question 20

Q

Lze v IBM SPSS Modeler psát skripty a jaké skriptovací jazyky případně
Modeler podporuje?

Answer

A

● python

Question 21

Q

Jaké datové typy rozlišujeme při statistických a DM úlohách?

Answer

A

● statistika-> kategoriální (kvalitativní) / číselné (kvantitativní)
● DM->kvalitativní (nominální, ordinální) / kvantitativní (spojité, diskrétní)

Question 22

Q

Které statistické charakteristiky určují polohu, variabilitu, tvar?

Answer

A

● poloha-> aritemtický průměr, medián, kvantily, modus
● variabilita-> rozptyl, směrodatná odchylka, MAD, IQR, z-skóre, variační
koeficient…
● tvar-> šikmost, špičatost

Question 23

Q

Co je modus pro kategoriální data?

Answer

A

● nejčetnější kategorická hodnota

Question 24

Q

Jak se určí modus pro kvantitativní proměnnou?

Answer

A

● diskrétní-> nejčetnější hodnota
● spojitá-> střed shortu (nejkratší interval, ve kterém leží 50 % hodnot
sledované proměnné)
○ počet dat-> liché-> 50 % souboru se určuje = n/2 + 0.5

Question 25

Q

Co je medián a jakou informaci v sobě nese?

Answer

A

● prostřední hodnota setříděných dat
● nenízatížen odlehlými hodnotami

Question 26

Q

Co jsou kvantily, jak se spočítají?

Answer

A

● vsetříděném souboru najdeme pozici k
● k=round(np + 0.5)-> kvantil = <0,1>
○ n…poslední index
○ p…kvantil (decil, kvintil…)
● vprocentech-> k = round(np/100 + 0.5)

Question 27

Q

Co je horní a dolní kvartil?

Answer

A

● horní = 3 kvartil = 0,75 kvantil
● dolní = 1 kvartil = 0,25 kvantil

Question 28

Q

Co je IQR (interkvartilové rozpětí) a k čemu slouží?

Answer

A

● IQR=Q3-Q1
● vevzorci pro detekci odlehlých hodnot

Question 29

Q

Co je Short?

Answer

A

● nejkratší interval, ve kterém leží 50 % hodnot sledované proměnné

Question 30

Q

Co jsou ODLEHLÁ pozorování, jak je lze najít?

Answer

A

● x_i<Q1-1.5 * IQR || x_i > Q3 + 1.5 * IQR
● abs(Z_i) > 3 (z-skore)
● abs(X_mad) > 3

Question 31

Q

Jak je definován MAD?

Answer

A

● medián absolutních odchylek od mediánu

Question 32

Q

Kdy lze pro popis proměnné (datové sady) použít aritmetický průměr? Kdy
průměr dobře reprezentuje proměnnou?

Answer

A

● když neobsahuje odlehlé hodnoty (outliery)?

Question 33

Q

Proč se definoval Variační koeficient?

Answer

A

● porovnání variability řadově rozdílných hodnot

Question 34

Q

Proč kategorizujeme číselná data a jak to lze udělat?

Answer

A

● určité algoritmy nepočítají s číselnými daty
○ rozhodovací stromy
● kategorizace proměnných
○ převod na intervalovou proměnnou (určíme počet kategorií,
sturgesovo pravidlo)
○ pevnášířka intervalu
○ percentily

Question 35

Q

Jak kategorizovanou proměnnou převést na číselnou a proč?

Answer

A

● určité algoritmy nepočítají s kategorizovanými proměnnými
○ shluková analýza, regrese
● převod na indikátorové proměnné
○ onehotencoding?
○ zakaždou kategorii sloupec-> ve sloupci 1, pokud vzorek nabýval
hodnoty sloupce

Question 36

Q

K čemu slouží Z-skore?

Answer

A

● identifikace odlehlých hodnot
● Z_i=(x_i- mean) / směrodatná odchylka

Question 37

Q

Jaký je rozdíl mezi klasifikační a regresní úlohou?

Answer

A

● klasifikační-> klasifikovat výskyt něčeho do n kategorií
● regresní-> predikce spojité hodnoty

Question 38

Q

Jakého typu je cílová proměnná u regresní úlohy?

Answer

A

● continuous- spojitá

Question 39

Q

Jaký uzel v Modeleru použiju na zobrazení vztahu dvou číselných
proměnných?

Answer

A

● plot?

Question 40

Q

K jakým typům DM úloh se hodí algoritmus C&RT a algoritmus lineární
regrese?

Answer

A

● C&RT->klasifikace a regrese
● lineární regrese-> regrese

Question 41

Q

Co jsme museli provést za operace s datovou maticí, abychom mohli použít
model lineární regrese? Jakého typu proměnné se to týkalo a proč?

Answer

A

● musíme převést kvalitativní proměnné na kvantitativní

Question 42

Q

Jaký typ operace s daty provádí uzel SetToFlag?

Answer

A

● kvalitativní proměnnou-> převede na indikátorovou proměnnou
● kůň, pes-> sloupce IsHorse, IsDog
● pokudje kůň-> IsHorse = 1, IsDog = 0

Question 43

Q

Jaké dva parametry jsme používali pro hodnocení kvality modelu lineární
regrese a algoritmu C&RT?

Answer

A

● lineární regrese-> mean absolute error (čím blíže 0-> tím lépe), lineární
korelace?
● CART->

Question 44

Q

Jakých hodnot může nabývat průměrná absolutní chyba(MAE) a koeficient
korelace? Jaké hodnoty těchto ukazatelů naznačují, že je model lepší či
horší?

Answer

A

● koeficient korelace = <-1,1>
● MAE=<0,nekonečno)

Question 45

Q

Jaký uzlem mohu generovat sadu testovacích dat?

Answer

A

● user input

Question 46

Q

K čemu slouží uzel Sample?

Answer

A

● výběr vzorků z datového zdroje (každý 9. vzorek…)

Question 47

Q

Co je to dendrogram a z jakých částí se skládá?

Answer

A

● diagram znázorňující kroky shlukové analýzy nebo větvení rozh. stromu
● kořen, větev, listy

Question 48

Q

Jaké typy klas. stromů znáte?

Answer

A

● obecné (libovolný počet větví, snadnější interpretace, typicky méně
úrovní, CHAID, C5.0)
● binární (z uzlu vedou 2 větve, rychlejší výpočet, typicky více úrovní, C&RT,
QUEST)

Question 49

Q

Kolik prediktorů má obvykle klas. úloha k dispozici

Answer

A

● není limitováno?-> ale vybírají se nejsilnější prediktory (vybírány na
základě určitého kritéria- každý model jiné)

Question 50

Q

Kdy se zastaví růst stromu?

Answer

A

● a)máme100%zařazení do jedné kategorie
● b)nejsou k dispozici žádné prediktory (nebo významné prediktory)
● c)stop kritéria (uživatel definuje-> přesný počet dat v listu, max hloubka..)

Question 51

Q

Co je to boosting?

Answer

A

● sekvenční vytváření více stromů-> rozhodovací lesy
● případy s chybnou klasifikací v předchozím stromu mají vyšší váhu
● při rozhodování stromy hlasují

Question 52

Q

Co je to pruning?

Answer

A

● prořezávání stromů
● zobecnění příliš specifických stromů
● zhotového stromu se odstraní málo významné větve (podstromy)
● jiný algoritmus než růst stromu

Question 53

Q

K čemu slouží uzel Partition?

Answer

A

● rozdělení dat na trénovací a testovací

Question 54

Q

Pomocí jakých uzlů můžeme vyhodnotit kvalitu vytvořeného modelu?

Answer

A

● Analysis, graf Evaluation (ROC křivka), (Matrix?)

Question 55

Q

K čemu slouží uzel Feature Selection?

Answer

A

● ohodnotí prediktory podle důležitosti (určitá kritéria)
● popřípadě odstranění zbytečných prediktorů

Question 56

Q

Co jsou chyby první a druhého druhu?

Answer

A

● chyba prvního druhu
○ FALSEPOSITIVE (FP)
○ houba je ve skutečnosti jedlá, ale my ji označíme jako jedovatou
● chyba druhého druhu (horší než prvního druhu)
○ FALSENEGATIVE(FN)
○ houba je ve skutečnosti jedovatá, ale my ji označíme jako jedlou

Question 57

Q

Co je to, a jak se spočítá senzitivita a specifičnost

Answer

A

● senzitivita (recall, hit rate, TP rate)
○ TP/P=TP/(TP+FN)
○ procento TP z dat, které označil model jako pozitivní
● specifičnost (selectivity, TN rate)
○ TN/N=TN/(TN+FP)
○ procento TN z dat, které označil model jako negativní

Question 58

Q

Co jsou to transakční data?

Answer

A

● záznamyojednotlivých aktivitách v business procesech organizace
● vtabulce mají samostatný záznam pro každou položku (transakci)
zákazník ; nákup
1 ; Jam
2 ; Mléko
2 ; Chléb
2 ; Sušenky

Question 59

Q

Kterým uzlem provádíme restrukturalizaci dat na indikátorové proměnné?
Pro které datové typy tento druh restrukturalizace přichází do úvahy?

Answer

A

● SetToFlag uzel
● kvalitativní proměnné (nominal například)

Question 60

Q

Které modelovací uzly generují asociační pravidla a čím se liší?

Answer

A

● Apriori
○ vytváří asociační pravidla založená na antecedent supportu?
● Carma
○ vytváří asociační pravidla založená na rule supportu?
○ nepotřebuje input or target fields (stejné jako by Apriori model
pracoval jen s BOTH fields)
○ umožňuje pravidla s více consequents (závěry)

Question 61

Q

Vysvětlete na příkladu antecedent a consequent

Answer

A

● Pokud zákazník koupí chléb a máslo, pak také koupí mléko.
○ Antecedent (předpoklad)
○ Consequent (závěr)
● společně tvoří pravidlo-> vyjadřuje pravděpodobnost určitého vzoru v
datech

Question 62

Q

Vysvětlete na příkladu, co je Confidence?

Answer

A

● spolehlivost-> odhad podmíněné pravděpodobnosti závěru
● počet objektů, pro které pravidlo platí, dělený počtem objektů, pro které
platí předpoklad pravidla
● {párek}-> {hořčice, chleba}
○ počet lidí, co si koupili: párek, hořčici a chleba, dělený počtem lidí,
co si koupili párek

Question 63

Q

Uveďte příklad asociačního pravidla a vysvětlete ho

Answer

A

● {párek}-> {hořčice, chleba}
○ zákazníci nakupující párky mají často ve svém nákupu rovněž
hořčici a chleba

Question 64

Q

Spočítejte Lift asicačního pravidla {pečivo, mraž. výrobky}-> {alkohol}.
Nepodmíněná pravděpodobnost nákupu alkoholu je 39 %, Confidence
daného asociačního pravidla je 75 %

Answer

A

● Lift = relativní zvýšení pravděpodobnosti platnosti závěru, při platnosti
předpokladů
● Lift = CONFIDENCE / NEPODMÍNĚNÁ_PRAVDĚPODOBNOST_ZÁVĚRU
= 0.75 / 0.39 = 1.923

Answer 65

A

● frekventovaná množina = množina položek splňující stanovený práh
minimální podpory (supportu)
● vytváří postupně množiny L1, L2 … Li tak, že z předchozí vygeneruje
množinu novou
● apriori vlastnost = každá neprázdná podmnožina frekventované množiny
je opět frekventovanou množinou
● 2kroky:
○ nagenerování množiny kandidátů s využitím Apriori vlastnosti
frekventovaných množin
○ ořezání množiny kandidátů na množiny, které jsou frekventovanými
množinmi

Answer 66

A

● lepší výkon modelů (když převažuje jedna třída-> dává ji model větší
váhu)
● správná metrika modelu
○ vdatech mám1mužea99žen
■ prediktnu správně 99 žen, muže prediktnu jako ženu
■ sensitivity = 99 / 99 = 1

Answer 67

A

● uzel Balance
● tobylo něco, že to vytáhl z grafu ne?

Answer 68

A

● uzel Database

Answer 69

A

● uzel Database

Answer 70

A

● vytvořit v ODBC Data Source Administrator-> nový User Data Source

Answer 71

A

● ano->ikona SQL vedle uzlu? (chatgpt)

Answer 72

A

● chyba prvního druhu
○ FALSEPOSITIVE (FP)
○ houba je ve skutečnosti jedlá, ale my ji označíme jako jedovatou
● chyba druhého druhu (horší než prvního druhu)
○ FALSENEGATIVE(FN)
○ houba je ve skutečnosti jedovatá, ale my ji označíme jako jedlou

Answer 73

A

● vkontextu úloh ML-> kontingenční matice obsahující v řádcích skutečnou
hodnotu předpovídané proměnné a ve sloupcích předpověď klasfikátoru

Answer 74

A

● (TP+TN) / (TP+FP+TN+FN) = accuracy

Answer 75

A

● (TF+FN) / (TP+FP+TN+FN)

Answer 76

A

● přesnost = precision = TP / (TP + FP)

Answer 77

A

● úplnost = recall = sensitivity = TP / (TP + FN)

Answer 78

A

● senzitivita = sensitivity = recall = TP / (TP + FN)

Answer 79

A

● specificita = specificity = TN / (FP + TN)

Answer 80

A

● zvýší se

Answer 81

A

● zvýší se

Answer 82

A

● Analysis, graf Evaluation (ROC křivka), (Matrix?)

Answer 83

A

● senzitivita (recall), specifičnost, False Positive Rate, accuracy, celková chyba

Answer 84

A

● pro deskriptivní úlohy DM
● vyhledává a utváří shluky ve vstupních datech
● pokud máme cílové shluky-> učení s učitelem
● pokud nemáme cílové shluky-> učení bez učitele
● v závěru-> najít interpretaci shluků
● využití: marketing (segmentace zákazníků), analýza kriminality (hot spots),
příprava dat, redukce počtu proměnných, první krok modelování,
identifikace podezřelých případů

Answer 85

A

● standardizace hodnot atributů
● normalizace hodnot atributů (0-1)
● podle algoritmu-> null hodnoty, outliery, transformace typů atributů

Answer 86

A

● proefektivnější výpočet vzdálenosti, různé číselné rozmezí, velká čísla
potlačí ta malá
● Z-skóre, rozpětí <-1;1>, rozpětí <0;1> = normalizace, logistická funkce,
ArcTg…

Answer 87

A

● hodnocení podobnosti objektů-> pro číselná data
○ Euklidova metrika v n-rozměrném prostoru
○ Hammingova metrika (Manhattan)
○ Čebyševova metrika
● keficienty podobností objektů-> kategoriální data
● pravděpodobnostní přístup

Answer 88

A

● vpřípadě dichotomických dat (true/false)
● Jaccardův koeficient, Sokalův a Michenerův koeficient, Diceův

Answer 89

A

● diagram vyjadřující kroky shlukování (pro hierarchické metody), nebo kroky klas. stromu

Answer 90

A

● Nehierarchické

Answer 91

A

● nejbližší soused
● nejvzdálenější soused
● centroidní (porovnávám centroidy shluků)

Answer 92

A

● KMeans, DBSCAN, Fuzzy K-means, aglomerativní + divizní,

Answer 93

A

pomocí metrik (euklidova, hammingova, čebyševova…)