Otkrivanje Anomalija Flashcards
Шта представља аномалиjу/елемент ван граница?
Податак чиjе су вредности значаjно различите од
вредности осталих података у материjалу
Аномалиjа jе опсервациjа коjа се толико разликуjе од
осталих опсервациjа да се jавља сумња да jе настала
помоћу другачиjег механизма (Хокинсова (Hawkins)
дефинициjа аномалиjе)
Koji su uzroci nastanka
Аномалиjе су релативно ретке, али могу значаjно да утичу
на резултат истраживања
Различити узроци настанка:
механичке/људске грешке,
промене у понашању система,
грешке у инструментима коjи формираjу податке,
сакупљени подаци су из различитих извора,
Sta je sum
Шум
погрешна вредност или догађаj са грешком. Нпр.
тежина jе погрешно записана
мерење тежине лимуна /лимета
случаjан догађаj
не мора да произведе неуобичаjене вредности/обjекте
ниjе од интереса у истраживању
Tehnike otkrivanja anomalija
Технике
засноване на формирању модела
са визуелизациjом
засноване на статистици
засноване на одређивању растоjања
засноване на одређивању густине
Metode zasnovane na formiranju modela
Два корака:
1
Направи се модел са ’нормалним’ понашањем на
изабраном скупу
Са надгледањем
Аномалиjе су тачке коjе се не уклапаjу добро у
карактеристике
Аномалиjе су тачке коjе нарушаваjу изглед модела
Ненадгледани модели
Аномалиjе су тачке коjе припадаjу ретким класама
2
Користећи направљен модел налазе се подаци коjи
одскачу
Методе засноване на визуелизациjи
Корисне ако се подаци представљаjу у мањем броjу
димензиjа
Проблем визуелизациjе мултидимензионих података
Ограничење: подложне субjективноj оцени података
Методе засноване на статистици
Елемент ван граница jе обjекат коjи има мању вероватноћу
у односу на вероватноћу у односу на дистрибуциjу
вероватноћа у моделу података
Претпоставља се познавање дистрибуциjе података
Статистички тест зависи од саме дистрибуциjе, њених
параметара, и постављеног прага поузданости
Проблем: дистрибуциjа jе често непозната, или
подаци имаjу мешавину дистрибуциjа
Z-вредност
Унимодалне статистике користе тест поузданости краjева,
односно веровантоћу да се елемент налази на краjевима
вредност за посматрани податак xi jе zi = (xi − μ)/σ
Грубо правило: ако jе |Z | > 3 тада подаци представљаjу
екстемне вредости
Методе засноване на одређивању растоjања
Обjекат jе аномалиjа/ елемент ван граница ако jе цео обjекат или
његов део удаљен више од предвиђене границе
Више техника
К-наjближих суседа (важан избор k)
Рачунање растоjања - Махаланобисово растоjање
Растоjање се одређуjе између тачке x и средине x скупа
података
Методе засноване на одређивању густине
Величина аномалиjе обjекта jе обрнуто пропорционална
густини елемената у његовом окружењу
Више техника
К-наjближих суседа (важан избор k) - инверзно од
растоjања до knn суседа
Инверзно просечном растоjању до k суседа
DBSCAN
друге методе кластеровања
Проблем код региона са различитом густином
Приступ заснован на кластеровању
Обjекат jе аномалиjа/елемент ван граница ако jе очигледно да не припада ни jедном кластеру
Обjекат jе елемент ван граница/аномалиjа
Код метода кластеровања заснованих на прототиповима, ако ниjе близу центру ни jедног од кластера
Код кластера заснованих на густини, ако jе његова густина мала
Код метода заснованих на графовима, ако ниjе добро повезан
Проблем: Неке методе кластеровања формираjу кластере са
малим броjем елемената