Pravila pridruzivanja Flashcards

1
Q

Sta su pravila pridruzivanja ?

A

Одређивање правила придруживања jе процес у коме се за
дати скуп трансакциjа (слогова) проналазе правила коjа
предвиђаjу поjављивање ставке (обjекта) на основу
поjављивања осталих ставки (обjеката) у трансакциjама.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Kad je skup cest ?

A

Скуп ставки jе чест ако се у улазним подацима jавља више од
minsup пута, где minsup означава вредност минималног прага
подршке коjи се задаjе унапред

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Kada kazemo da je skup pouzdan ?

A

Скуп ставки jе поуздан ако се у улазним подацима jавља више
од minconf пута, где minconf означава вредност минималног
прага поузданости коjи се задаjе унапред

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Definicija pravila pridruzivanja.

A

Нека су X и Y два скупа ставки. Тада се правило у ознаци X ⇒ Y
назива правило придруживања са минималном подршком minsup и
минималном поузданошћу minconf ако важи:
1. Подршка скупа X ∪ Y jе ≥minsup (oko 5-10%)
2. Поузданост правила X ⇒ Y jе ≥minconf (oko 80%)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Sta znaci visoka podrska skupa ?

A

Висока подршка:
1.значи да се правило често поjављуjе и да jе мање вероватно да се правило случаjно поjавило
2.издваjа правила коjа нуде више могућности за добиjање користих информациjа

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Visoko poverenje(pouzdanost):

A

Високо поверење (поузданост):
1. означава jако правило, коjе указуjе на висок ниво узрочности, и jаку везу придруживања између артикала/елемената
2. указуjе на правило коjе jе од интереса и на коjе треба обратити пажњу

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Koji je proces formiranja pravila pridruzivanja

A

Процес одређивања правила придруживања може се поделити на два
корака:
1.Формирати све скупове ставки код коjих jе подршка ≥minsup
2.Формирати правила из сваког скупа честих ставки са поузданошћу ≥minconf

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Koji su problemi formiranja svih cestih skupova ?

A

1.за d артикала постоjи 2d − 1 могућих скупова (+ празан скуп)
коjи су потенциjално чести и коjе треба испитати
2.ако се апликациjа често извршава (нпр. примена у
хипермаркетима или великим системима) њихову учесталост
треба проверити на основу милиона трансакциjа сваког
дана/сата

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Koje su strategije za povecanje efikasnosti?

A

Ефикасност претраживања се повећава смањењем броjа потребних поређења коjе jе могуће извести:
1.Смањењем броjа кандидатских ставки (М)
2.Смањити броj трансакциjа (Н)
3. Смањити броj поређења (НМ)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Apriori princip i anti-monotonost

A

Априори принцип: ако jе скуп ставки чест, тада су и сви његови
подскупови такође чести

Затворење на ниже (енг. downward closure): сваки
подскуп честог скупа jе такође чест

Особина анти-монотоности: Мера f поседуjе особину
анти-монотоности ако за све скупове ставки X , Y важи:
X ⊂ Y =⇒ f (Y ) ≤ f (X )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Koja je posledica anti-monotonosti?

A

Последица (анти-монотоности): ако неки скуп артикала A ниjе
подржан (ниjе чест), тада ни било коjи скуп B где важи A ⊆ B
ниjе чест −→ не треба да буде разматран

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Algoritam za odredjivanje cestog skupa :metod grube sile

A

Алгоритам коjи показуjе да jе (теориjски) могуће добити скуп правила
придруживања коjа испуњаваjу услов ≥ minsup ∧ ≥ minconf
Алгоритам:
-Сваки скуп ставки у решетки jе кандидат да буде чест
-Преброjати подршку за сваког кандидата прегледањем базе
-Упаруjе се свака трансакциjа са сваким кандидатом

Сложеност O(NMw ) - jако скупо jер jе M = 2d − 1- броj ставки,
w - максимална ширина трансакциjе, N - броj трансакциjа

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Algoritam za odredjivanje cestih skupova :Apriori

A

-Елементи скупова ставки се уређуjу у лексикографски поредак
-Преброjе се све 1-ставке и одбаце оне коjе нису честе
-На основу честих скупова ставки дужине k се формираjу скупове дужине k + 1
-Скупови k ставки се спаjаjу и формираjу скуп k + 1 ставки акко су им jеднаки првих k − 1 елемената
-Одбацуjе се скуп k + 1 ставки ако неки од подскупова k ставки ниjе чест
-За формиране скупове дужине k + 1 одређуjе се подршка
-Одбацуjу се ретки скупови k + 1 ставки и не разматраjу се њихови надскупове (последица затворења на ниже)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Formiranje i potkresivanje skupova kandidata

A

Функциjа формирања нових нових кандидатских скупова у Априори
алгоритму укључуjе
1.Формирање кандидата:
генеришу се нови к-скупови ставки на основу честих скупова ставки дужине (k-1) коjи су формирани у претходноj итерациjи
2.Поткресивање скупа кандидата: елиминишу се одређени кандидатски к-скупови ставки коришћењем стратегиjе поткресивања на основу подршке

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Kako apriori smanjuje broj poredjenja ?

A

-Смешта ставке у решетку у ширину, ниво по ниво
-Групише податке у корпе (енг. buckets) по дужини скупова ставки
-Свака корпа се представља у облику хеш структуре са фиксним броjем
грана у чвору
-На i-том нивоу хеш функциjа се примењуjе на i-ту ставку скупа
-Увећава се броj ставки до коjих се дође у листовима хеш структуре
-Ставке из трансакциjа се пореде са садржаjем своjе (кандидатске) корпе
уместо са целим скупом кандидата чиме се смањуjе броj поређења при
одређивању броjа поjављивања (подршке) скупа ставки

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Sta su maksimalno cesti skupovi stavki ?

A

Дефинициjа: Скуп ставки jе максимално чест ако ни jедан од његових
непосредних надскупова ниjе чест:

1.Ако jе X максимално чест скуп, тада су и сви његови подскупови чести

2.Било коjи од честих скупова ставки jе подскуп неког од максимално честих скупова ставки =⇒ за добиjање било ког честог скупа ставки довољно jе чувати само скуп максимално честих скупова ставки

3.Скуп ставки коjи ниjе подскуп неког од максимално честих скупова ставки ниjе чест и може да се искључи из скупа ставки коjе се користе за
формирање правила придруживања

17
Q

Zatvoreni skupovi stavki

A

Дефинициjа: Скуп ставки jе затворен ако ниjедан од његових непосредних
надскупова нема исту подршку
Последица: Сви подскупови затвореног скупа ставки имаjу исту подршку

18
Q

Kako se kompaktno predstavljaju ceste stavke

A

Налажењем пресека скупа максималних и скупа затворених
скупова ставки добиjаjу се максимални затворени скупови
ставки.

Пошто jе позната информациjа о подршци затворених скупова
ставки, могуће jе одредити подршку свих честих скупова ставки

Уместо чувања свих честих скупова ставки и информациjа о
њиховоj подршци, довољно jе чувати скуп максималних
затворених скупова ставки и њихове подршке

19
Q

Kako se obilazi resetka?

A

од општег ка посебном (лево),
од посебног ка општем (средина)
двосмерно (десно)
прво у ширину (Apriori алгоритам)
прво у висину/дубину

20
Q

Algoritam FP rasta

A

Употребљава компримовану репрезентациjу базе података
помоћу ФП-дрвета (енг. Frequent Pattern)
Што jе већи броj трансакциjа коjе имаjу заjедничке
почетне делове, то jе већи степен компресиjе коjи се
постиже овим алгоритмом
Mоже да буде и вишеструко бржи од алгоритама коjи
конструишу и обилазе решетку ’по ширини’

21
Q

Konstrukcija FP drveta

A

1.Конструкциjа двета почиње од корена коjи не садржи ни jедну ставку

  1. У чворовима дрвета коjи се конструишу уписуjе се ставка и броj њеног
    поjављивања

3.У првом кораку се преброjе све поjединачне ставке и редослед ставки у
трансакциjама сортира у опадаjући редослед према њиховом броjу
поjављивања (овде А,Б,Ц,Д,Е) (у зависности од начина сортирања добиће
се другачиjи изглед дрвета!)

4.На основу прве трансакциjе формираjу се чворови означени са А и Б и уз њих се уписуjе тренутни броj поjављивања сваке ставке на тоj путањи (овде 1)

5.На основу наредне трансакциjе формира се нови скуп чворова (Б, Ц, Д) са одговараjућом граном. Уз сваки чвор се уписуjе 1 као броj поjављивања. Без обзира што у овоj трансакциjи постоjи Б, формира се нова грана jер не постоjи заjеднички префикс са већ постоjећим гранама

6.На краjу конструкциjе добиjа се дрво приказано на слици. Формира се и табела са скупом показивача на листе истоимених ставки у различитим гранама дрвета.

22
Q

Odredjivanje cestih skupova stavki

A

-odozgdo navise(ka sufiksa_
1. preko pokazivaca se izdvoje sve grane koje se zavrsavaju na E
2. ako je skup cest deli se na potprobleme
3. gradi se uslovno FP drvo;
-eleminise E i azurira brojace toi, se broje samo oni koji se zavrsavaju na E

24
Q

Neprekidni i kategoricki atributi

A

Kategoricki atributi —–> asimetricne binarne promenljive
– retko pojavljivanje ako ima mnogo vr.(mala sup) resenje agregacija vr.
–previse cesta stavka -> izbacivanje

Neprekidni atributi:

1.Diskretizacija
2.staticki zavisne metode
3. metode zasnovane na ne-diskretizaciji

25
Opisati diskretizaciju i probleme .
Diskretizacija podela na intervale pa onda binarizacija. -mali intervali->nedovoljna podrska veliki intervali -> pouzdanost moze da bude nedovoljna resenje: ispitivanje svih mogucih intervala
26
Staticki zasnovane metode
posledicno pravilo - neprekidna promenljive karakterisana statistikom Ciljni atribut se izdvoji iz ostatka podataka ,za ostatak se generisu cesti skupovi stavki,cestu stavku se racuna opisna statistika za ucenje ciljne promenljive kao posledicnog pravila validacija:treba proveriti da li je dobijena stavka znacajno razlicita kod podataka bez leve strane pravila
27
Metode zasnovane na ne-diskretizaciji
Interesantnije je naci vezu izmedju neprekidnih atributa nego njihovih diskretnih intervala pr. veza izmedju reci u dokumentima ne zelimo vezu izmedju broja poduljivanja vec izmedju samih reci
28
Kako odrediti podrsku za rec? Min apriori
odredjivanje podrske za rec : normalizacija vektora reci => svaka rec sup = 1 podrska: mera koliko su reci pridruze jedna drugoj , podrska skupa reci u skupu dokumenata -ova mera podrske se naziva min Apriori i ima osobine da podrska: monotono raste kako raste normalizovana frekvencija reci monotono raste kako raste broj dokumenata koji sadrzi reci monotono poada kako raste broh reci u skupu stavki ->anti-monotonost
29
Pravila pridruzivanja izmedju vise nivoa
Правила на нижим нивоима можда немаjу довољну подршку да се jаве у честим скуповима података Приступ 1: Проширити текуће правило придруживања проширивањем сваке трансакциjе са ставком са вишег нивоа problem:Ставке коjе се налазе на вишем нивоу имаjу много виши ниво подршке,Повећава се димензионалност података( veliki broj pravila) Приступ 2: Формирати честе обрасце прво на наjвишем нивоу.Затим формирати цесте обрасце на наредним наjвишим нивоима.\ problemi: visestruko prolazenje kroz podatke,mogu da se izgube veze izmedju obrazaca na razlicitim nivoima
30
Sekvencijalni obrasci
Niska je uredjena lista elemenata gde je svaki element skupa dogadjaja(stavki) -Svakom elementu se dodeljuje odredjeno vreme ili mesto, -broj elemenata u nisci s odredjuje duzinu nista |s| -k-niska je niska koja sadrzi k dogadjaja - niska je podniska niske ako postoji celi broj i1
31
Formiranje sekvencijalnih obrazaca
Корак 1: Направити први пролаз кроз базу ниски D ради добиjања свих 1-елемент честих подниски Корак 2: Понављати поступак све док има нових честих подниски 2.1 Формирање кандидата: споjити парове честих подниски нађених у (к-1)-овом пролазу ради формирања кандидатских ниски коjе садрже к догађаjа 2.2Поткресивање списка кандидата: поткресати скуп кандидатских к-ниски коjе садрже ретке (к-1) подниске 2.3 Израчунавање подршке: направити нови пролаз кроз базу ниски D ради налажења подршке за преостале кандидатске ниске 2.4 Уклањање кандидата: уклонити кандидатске к-ниске чиjа jе подршка мања од minsup
32
Monotonost i pouzdanost? I koja je posledica ovog pravila?
Za pouzdanost ne vazi nikakvo pravilo monotonosti, medjutim ovde imamo novo pravilo: Ако су X1,X2 и I скупови ставки такви да важи X1 ⊂ X2 ⊂ I,тада важи conf(X2 ⇒ I−X2) ≥ conf(X1 ⇒ I−X1) Последица: могућност елиминациjе редундантних правила. Нпр. у случаjу правила {Hleb} ⇒ {Pivo,Mleko} i {Hleb,Pivo} ⇒ {Mleko} прво правило може да се уклони jер има исту подршку, али мању поузданост од првог!