Priprema podataka Flashcards
Дискретизациjа
Трансформациjа непрекидних у категоричке
атрибуте
Обично се примењуjе на атрибуте у класификациjи
или правилима придруживања
одабрати броj категориjа n
интервал броjева се дели на n подинтервала
све вредности из jедног подинтервала се
пресликаваjу у исту категоричку вредност
Начин избора интервала(kod diskretizacije)
Jеднаке ширине интервала
Ако су a и b границе интервала [a, b] тада jе
b − a jеднако за све интервале
За сваки атрибут се интервал [min, max] дели на
n подинтервала
Некоректно ако jе дистрибуциjа елемената
неравномерна по интервалима
Jеднаки log-интервали
Ако су a и b границе интервала [a, b] тада jе
log (b) − log (a) jеднако за све интервале
Ако дистрибуциjа елемената може да се моделира
функционалом f тада се бираjу интервали [a, b] такви
да jе f (b) − f (a) jеднако за све интервале
Jеднак броj елемената у интервалу
Вредности атрибута се преброjе, и добиjени
броj k се подели са n
Вредности атрибута се сортираjу и у сваки
интервал се смешта k/n елемената
Пример - Binning чвор у СПСС Моделеру
Бинаризациjа
Бинаризациjа - трансформациjа непрекидних и
дискретних атрибута у бинарне
Обично се примењуjе на атрибуте у анализи
заснованоj на правилима придруживања
Текстуални у нумеричке податке
Представљање текстуалних података преко ретких нумеричких
вектора ниjе погодно за наjвећи броj ИП метода
Ограничен броj мера
Латентна семантичка анализа (LSA) - текст се преводи у
не-ретку репрезентациjу мање димензиjе
После трансформациjе документ X =(x1,x2,…,xd) се скалира
функциjом 1 (x1 , x2 , …, xd ) d2
∑i=1x
На овако добиjене податке може да се примени Еуклидско
растоjање
У пракси - ИП алгоритми се примењуjу директно на податке добиjене са LSA док се даља трансформациjа не ради
Подаци из временских сериjа у
дискретне ниске
Конверзиjа се врши SAX алгоритмом (симболичка апроксимациjа
агрегата, енг. symbolic aggregate approximation)
У првом кораку се сериjа дели у прозоре величине w за коjе се
рачуна просечна вредност атрибута (временске сериjе) за коjу
jе прозор одређен
]У другом кораку се средње вредности временских сериjа
дискретизуjу помоћу технике са интервалима коjи имаjу исти
броj елемената
Чишћење података
1 Рад са недостаjућим подацима
2 Рад са некоректним подацима
3 Рад са дуплираним подацима
4 Скалирање и нормализациjа
Рад са недостаjућим подацима
Разлози за поjаву
Информациjе нису прикупљене (нпр. људи одбиjаjу да прикажу своjу тежину, старост, величину плате, …)
Атрибути нису применљиви у свим случаjевима (нпр. плата ниjе применљива на децу)
Руковање недостаjућим вредностима
1
Комплетни слогови (цео обjекат) коjи садрже такав податак се
бришу
2
Недостаjућа вредност се процењуjе и уноси (импутациjа)
3
Неки алгоритми могу да обрађуjу слогове/атрибуте са
недостаjућим подацима
4
Замена могућим вредностима (зависи од алгоритма)
Рад са некоректним подацима
1
Откривање некозистентности (нпр. подаци из више извора
коjи се односе на исту ствар су различити)
2
Доменско знање
3
Метода ориjентисана ка подацима
Рад са дуплираним подацима
Наjчешће се jављаjу код спаjања података из
хетерогених извора
Скалирање и нормализациjа
Трансформациjа променљиве означава трансформациjу коjа
се примењуjе на све вредности те променљиве
За сваки обjекат, трансформациjа се примењуjе на вредност
променљиве за таj обjекат
Потреба за нормализациjом - више атрибута коjи су различито
скалирани
Стандардизациjа: нека j-ти атрибут има средњу вредност μj и
jстандардну девиjациjу σj . Тада се вредност xi j-тог атрибута
j
j xi −μj
слога Xi нормализуjе применом израза zi =
σj
За нормалну расподелу добиjене вредности наjчешће се налазе
у интервалу [−3, 3]
Редукциjа и трансформациjа података
Мања количина података - ефикасниjа примена алгоритма
1.Агрегациjа
2.Узимање узорака
3.Избор карактеристика
4.Редукциjа помоћу ротациjе оса
5.Остале методе димензионе редиукциjе
Агрегациjа
Комбиновање два или више атрибута (или обjекта) у jедан
Сврха
1
Редукциjа података (смањивање броjа
атрибута/обjеката)
2
Промена скале (нпр. уместо 365 дана добиjа се 12
месеци)
3
’Стабилниjи’ подаци (агрегирани подаци имаjу
тенденциjу ка мањим одступањима)
Узимањеузорака
Избор узорака jе главна техника коjа се користи у
истраживању података
Често се користи како за прелиминарна истраживања
тако и за коначне резултате анализе података
Статистичари бираjу узорке jер jе добиjање
комплетног скупа података коjи су од интереса jако
скупо и временски захтевно
Узорак jе репрезентативан ако има апроксимативно
исте особине као и оригинални скуп података
Типови узорака
Jедноставан случаjни узорак
Са и без враћања
Пристрасно узорковање
Стратификовано узорковање ( podaci se dele u vise delova i onda se iz svakog dela bira slucajni uzorak)
zasto radimo pripremu(prvo pitanje)
Издваjање карактеристика
Различити извори и формати података
Недостаjући и неконзистентни подаци Неопходна jе припрема (препроцесирање):
#Преносивост типова података #Чишћење података
#Избор и трансформациjа
#Редукциjа података
izbor karakteristika
1
Jедан од начина за смањење димензионалности
2
Елиминациjа редундантних карактеристика
3
Елиминациjа ирелевантних карактеристика
4
Развиjен jе велики броj техника, поготову за класификациjу
5
Често се формираjу нови атрибути коjи укључуjу важне карактеристике због ефикасниjе обраде
6
Пресликавање у нови простор (нпр. Фуриjеова анализа, таласићи)
PCA
Смањење броjа димензиjа података
Налажење образаца у подацима велике димензионалности
Визуелизациjа података велике димензионалности
Основна идеjа: ротациjа података у систем са осама где jе наjвећи броj вариjанси покривен наjмањим броjем димензиjа
Нови систем са осама зависи од корелациjе између атрибута
PCA се (наjчешће) примењуjе после одузимања средње вредности од сваке тачке
Циљ PCA jе налажење трансформациjе података за коjу важи:
1
Сваки пар новодобиjених атрибута има ковариjансу 0
2
Атрибути су уређени (у опадаjућем редоследу) у односу на величину вариjансе коjа jе покривена од стране атрибута
3
Зaхтева се ортогоналност између атрибута, тако да сваки наредни атрибут покрива што jе могуће већи броj преосталих вариjанси