Machine Learning Flashcards
Стъпки от Data cleaning
- попълване на липсващи стойности
- Идентификация на outliers и заглаждане на шумове
Видове клъстеризация
- Агломеративна - bottom up
- Делителна - top down
Глобално учене vs локално
глобалното Използва целия набор от данни
Global Learning: Learning from all instances in
the dataset.
– Naïve Bayes Classifier
* Local Learning: Learning from some of the
instances in the dataset.
– kNN
Lazy vs Eager learning
Мързеливото просто пази данните и чак, когато го попиташ ги достъпва
Любопитното, първо научава данните и преди да е готово за получаване на въпроси за класификация
Кой от следните алгоритми за обучение на машини се определя като
„мързелив“?
a. Индукция на дърво на решенията
b. Учене основано на примери
c. Линейна регресия
d. k-means
e. Наивен Бейсов класификатор
Учене, основано на примери
Принцип на Окам
За пестеливостта
При съществуването на две или повече хипотези избираме по-простата, тази която използва най-малко предположения
Предимство на KNN
Устойчивост при шумни данни - осреднява най-близките съседи
*
Top down induction of decision trees
ID3
- Взимаме всички неизползвани атрибути и смятаме тяхната етнтопия
- Избираме атрибута с най-малка ентропия
- Правим листо с дадения атрибут. ако той разпределя множеството от примери, които имаме на две половини, като във всяка от тях търсения атрибут има една и съща стойност, то тогава приемаме, че дървото има решение. ако в някоя от половините имаме обекти, чиято стойност на търсения атрибут се разминава правим ново дърво с корен даденото листо и точка 1. Смятаме ентропията само за обектите в това листо.
Ентропия
Мярка за impurity на даден възел:
Entropy(S) ≡ H(S) ≡ −p+ log2 p+ − p- log2 p-
Кога ентропията H(S) = 0
При чисти множества - всички са + или всички са -
Кога ентропията H(S) = 1
При 50:50 разпределение на примерите
Information Gain
Entropy(S) - [weighted average] * entropy(children)
Ансамблово учене
Учене на няколко класификатора с различни алгоритми, които взимат накрая решение с гласуване
Условия за ансамблово учене
- Грешките на моделите трябва да са слабо корелирани
- Грешката на всеки класификатор трябва да е не повече от 0.5
Resource Description Framework (RDF)
???
Resource Description Framework (RDF) използва
subject-predicate-object model
Subject: субектът може да бъде ресурс (например уеб страница или част от уеб страница).
Predicate: предикатът описва връзката между субекта и обекта и функционира като атрибут на субекта.
Object: обектът е стойността на атрибута и може да бъде друг ресурс или литерал (например текст, число и т.н.).
Този модел позволява изразяването на семантични изявления за ресурси в формата на граф, като по този начин се създава богата и гъвкава структура за описване на ресурси в интернет.
Частично нареден план
Алгоритъм за планиране, в който могат да бъдат поставени две действия в план без да се уточнява кое се случва първо. Няма строга наредба на действията - някои могат да се изпълнят паралелно с други.
В процеса на действие частично-наредения план се преобразува в пълно нареден
Съвместим/Консистентен план
Ако няма цикли в ограниченията на последователностите, няма конфликти в причинно-следствените връзки. В процеса на действие частично-наредения план се преобразува в пълно нареден
При какви планове се използват Progressive и Regressive търсения
Само за ИЗЦЯЛО наредени планове
C4.5
Класификационен алгоритъм
Разширение на ID3 за генериране на дърво на решенята. Използва ентропията и information gain, като може да се справя и с непрекъснати атрибути, липсващи стойности и отсичане, за да избегне пренагаждане
ЕМ-Алгоритъм
Клъстеризационен алгоритъм
Използва се за клъстеризация подобно на K-means. позовава се на статистика