Otkrivanje Anomalija Flashcards

1
Q

Шта представља аномалиjу/елемент ван граница?

A

Податак чиjе су вредности значаjно различите од
вредности осталих података у материjалу
Аномалиjа jе опсервациjа коjа се толико разликуjе од
осталих опсервациjа да се jавља сумња да jе настала
помоћу другачиjег механизма (Хокинсова (Hawkins)
дефинициjа аномалиjе)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Koji su uzroci nastanka

A

Аномалиjе су релативно ретке, али могу значаjно да утичу
на резултат истраживања
Различити узроци настанка:
механичке/људске грешке,
промене у понашању система,
грешке у инструментима коjи формираjу податке,
сакупљени подаци су из различитих извора,

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Sta je sum

A

Шум
погрешна вредност или догађаj са грешком. Нпр.
тежина jе погрешно записана
мерење тежине лимуна /лимета
случаjан догађаj
не мора да произведе неуобичаjене вредности/обjекте
ниjе од интереса у истраживању

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Tehnike otkrivanja anomalija

A

Технике
засноване на формирању модела
са визуелизациjом
засноване на статистици
засноване на одређивању растоjања
засноване на одређивању густине

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Metode zasnovane na formiranju modela

A

Два корака:
1
Направи се модел са ’нормалним’ понашањем на
изабраном скупу
Са надгледањем
Аномалиjе су тачке коjе се не уклапаjу добро у
карактеристике
Аномалиjе су тачке коjе нарушаваjу изглед модела
Ненадгледани модели
Аномалиjе су тачке коjе припадаjу ретким класама
2
Користећи направљен модел налазе се подаци коjи
одскачу

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Методе засноване на визуелизациjи

A

Корисне ако се подаци представљаjу у мањем броjу
димензиjа
Проблем визуелизациjе мултидимензионих података
Ограничење: подложне субjективноj оцени података

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Методе засноване на статистици

A

Елемент ван граница jе обjекат коjи има мању вероватноћу
у односу на вероватноћу у односу на дистрибуциjу
вероватноћа у моделу података
Претпоставља се познавање дистрибуциjе података
Статистички тест зависи од саме дистрибуциjе, њених
параметара, и постављеног прага поузданости
Проблем: дистрибуциjа jе често непозната, или
подаци имаjу мешавину дистрибуциjа

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Z-вредност

A

Унимодалне статистике користе тест поузданости краjева,
односно веровантоћу да се елемент налази на краjевима
вредност за посматрани податак xi jе zi = (xi − μ)/σ
Грубо правило: ако jе |Z | > 3 тада подаци представљаjу
екстемне вредости

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Методе засноване на одређивању растоjања

A

Обjекат jе аномалиjа/ елемент ван граница ако jе цео обjекат или
његов део удаљен више од предвиђене границе
Више техника
К-наjближих суседа (важан избор k)
Рачунање растоjања - Махаланобисово растоjање
Растоjање се одређуjе између тачке x и средине x скупа
података

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Методе засноване на одређивању густине

A

Величина аномалиjе обjекта jе обрнуто пропорционална
густини елемената у његовом окружењу
Више техника
К-наjближих суседа (важан избор k) - инверзно од
растоjања до knn суседа
Инверзно просечном растоjању до k суседа
DBSCAN
друге методе кластеровања
Проблем код региона са различитом густином

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Приступ заснован на кластеровању

A

Обjекат jе аномалиjа/елемент ван граница ако jе очигледно да не припада ни jедном кластеру
Обjекат jе елемент ван граница/аномалиjа
Код метода кластеровања заснованих на прототиповима, ако ниjе близу центру ни jедног од кластера
Код кластера заснованих на густини, ако jе његова густина мала
Код метода заснованих на графовима, ако ниjе добро повезан
Проблем: Неке методе кластеровања формираjу кластере са
малим броjем елемената

How well did you know this?
1
Not at all
2
3
4
5
Perfectly