Machine Learning Flashcards

1
Q

Стъпки от Data cleaning

A
  • попълване на липсващи стойности
  • Идентификация на outliers и заглаждане на шумове
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Видове клъстеризация

A
  • Агломеративна - bottom up
  • Делителна - top down
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Глобално учене vs локално

A

глобалното Използва целия набор от данни

Global Learning: Learning from all instances in
the dataset.
– Naïve Bayes Classifier
* Local Learning: Learning from some of the
instances in the dataset.
– kNN

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Lazy vs Eager learning

A

Мързеливото просто пази данните и чак, когато го попиташ ги достъпва
Любопитното, първо научава данните и преди да е готово за получаване на въпроси за класификация

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Кой от следните алгоритми за обучение на машини се определя като
„мързелив“?
a. Индукция на дърво на решенията
b. Учене основано на примери
c. Линейна регресия
d. k-means
e. Наивен Бейсов класификатор

A

Учене, основано на примери

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Принцип на Окам

За пестеливостта

A

При съществуването на две или повече хипотези избираме по-простата, тази която използва най-малко предположения

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Предимство на KNN

A

Устойчивост при шумни данни - осреднява най-близките съседи

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

*

Top down induction of decision trees

A

ID3

  1. Взимаме всички неизползвани атрибути и смятаме тяхната етнтопия
  2. Избираме атрибута с най-малка ентропия
  3. Правим листо с дадения атрибут. ако той разпределя множеството от примери, които имаме на две половини, като във всяка от тях търсения атрибут има една и съща стойност, то тогава приемаме, че дървото има решение. ако в някоя от половините имаме обекти, чиято стойност на търсения атрибут се разминава правим ново дърво с корен даденото листо и точка 1. Смятаме ентропията само за обектите в това листо.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Ентропия

A

Мярка за impurity на даден възел:
Entropy(S) ≡ H(S) ≡ −p+ log2 p+ − p- log2 p-

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Кога ентропията H(S) = 0

A

При чисти множества - всички са + или всички са -

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Кога ентропията H(S) = 1

A

При 50:50 разпределение на примерите

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Information Gain

A

Entropy(S) - [weighted average] * entropy(children)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Ансамблово учене

A

Учене на няколко класификатора с различни алгоритми, които взимат накрая решение с гласуване

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Условия за ансамблово учене

A
  • Грешките на моделите трябва да са слабо корелирани
  • Грешката на всеки класификатор трябва да е не повече от 0.5
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Resource Description Framework (RDF)

A

???

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Resource Description Framework (RDF) използва

A

subject-predicate-object model

Subject: субектът може да бъде ресурс (например уеб страница или част от уеб страница).
Predicate: предикатът описва връзката между субекта и обекта и функционира като атрибут на субекта.
Object: обектът е стойността на атрибута и може да бъде друг ресурс или литерал (например текст, число и т.н.).
Този модел позволява изразяването на семантични изявления за ресурси в формата на граф, като по този начин се създава богата и гъвкава структура за описване на ресурси в интернет.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Частично нареден план

A

Алгоритъм за планиране, в който могат да бъдат поставени две действия в план без да се уточнява кое се случва първо. Няма строга наредба на действията - някои могат да се изпълнят паралелно с други.

В процеса на действие частично-наредения план се преобразува в пълно нареден

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Съвместим/Консистентен план

A

Ако няма цикли в ограниченията на последователностите, няма конфликти в причинно-следствените връзки. В процеса на действие частично-наредения план се преобразува в пълно нареден

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

При какви планове се използват Progressive и Regressive търсения

A

Само за ИЗЦЯЛО наредени планове

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

C4.5

A

Класификационен алгоритъм
Разширение на ID3 за генериране на дърво на решенята. Използва ентропията и information gain, като може да се справя и с непрекъснати атрибути, липсващи стойности и отсичане, за да избегне пренагаждане

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

ЕМ-Алгоритъм

A

Клъстеризационен алгоритъм
Използва се за клъстеризация подобно на K-means. позовава се на статистика

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

DBSCAN

A

Клъстеризиращ алгоритъм
Групира близки съседи, но аутлайерите остават сами, защото са твърде далеч от клъстерите. Не се подава броя клъстери при стартиране. Използва се за откриване на аномалии.

Density-Based Spatial Clustering of Applications with Noise (DBSCAN) is a clustering algorithm

23
Q

Модел на учене на индукция на дърво на решенята

A

Глобален

24
Q

Модел на учене на Наивен Бейс

A

Глобален

25
Q

Модел на учене на kmeans

A

локален

26
Q

Какъв тип е йерархичния kmeans

A

Разделителен - от горе на долу

27
Q

Модел на учене на невронна мрежа

A

Глобален

28
Q

Може ли персептронът да реализира XOR

A

НЕ

29
Q

Коe от следните алгоритми спадат към йерархичните модели?
- kNN
- KMeans
- Agglomerative learning

A

Agglomerative learning

30
Q

Кои от следните алгоритми спадат към ученето с учител (supervised learning)?
* ID3
* DBSCAN
* kNN
* kMeans
* C4.5

A
  • ID3
  • KNN
  • C4.5
31
Q

Посочете правилното твърдение за обратното разпространение на грешката (Error Backpropagation)
* използва се при обучението на еднослойна невронна мрежа (perception)
* използва се при обучението на еднослойна и многослойна невронна мрежа
* не се използва при обучението на невронни мрежи
* използва се при обучението на многослойна невронна мрежа

A

използва се при обучението на многослойна невронна мрежа

32
Q

Защо се извършва продрязване на дървото?

A

За да се избегне пренагаждане.

Два вида - pre-pruning - по време на изграждането на дървото, post-pruning след като дървото е изградено, премахваме незначимите характеристики

33
Q

Support

A

Дава идея, колко често набор от данни се използва в траназакции. Minimal support се отнася до граница, която трябва да бъде премината, за да се счете даден набор от данни за интересен или важен

Честотата на A=>B

34
Q

Confidence

A

Измерва условната вероятност, P(B|A) или колко често елементи от B се появяват в транзакции, които съдържат А.

P(A|B)

35
Q

Accosiative rules

A

Minimal support, minimum confidence

36
Q

Защо Бейсовият класификатор се нарича наивен

A

Предполага, че всички характеристики са независими

37
Q

P(A|B)

A

ℙ(A ∩ B) / P(B)

P(B|A) * P(A) / P(B)

38
Q

Каква е вероятността събитието да е позитивно, ако знаем, че е червено и кръгло?

A

Очевидно тя е четири пъти по-голяма от
тази да бъде негативно (0.2 срещу 0.05). Т.е., ако вероятността събитието да е негативно е, равна на х, то търсената вероятност ще е 4x. Следотвателно, от 4x+x=100% заключаваме, че x = 20% и 4x=80%

39
Q

Условна вероятност на условно независими характеристики

A

Ако всички характеристики са условно независими помежду си, тогава:

P(x|y1, y2….yn, Ck) = P(X|Ck)

40
Q

При частично наредените планове причинно следствената връзка A p→ B

A

Не може да има действе между а и б, отменящо р

41
Q

Алгоритъмът K-means е:
a. лаком алгоритъм
b. оптимален алгоритъм
c. алгоритъм използващ търсене в дълбочина с възврат
d. глобално търсещ алгоритъм

A

K-means е лаком

42
Q

Изводът чрез изброяване (Inference by enumeration) се основава на:
a. условните вероятности между атомарните събития
b. пълното съвместно разпределение на атомарните събития
c. доказатвлства, получени от атомарни събития
d. единствено на атомарните събития

A

пълното съвместно разпределение на атомарните събития

43
Q

Ако Температура е условно независима от Главоболие при дадена диагноза
Грип, то вярно (t) или невярено (f) е всяко едно от равенствата:
1. P(Главоболие, Температура | Грип) = P(Главоболие | Грип)P(Температура | Грип)
2. P(Температура | Главоболие, Грип) = P(Температура | Грип)
a. 1-f, 2-f
b. 1-f, 2-t
c. 1-t, 2-f
d. 1-t, 2-t

A

И двете са верни

44
Q

PCA (principal component analysis) се използва за:

A

Намаляване на размерността на данните

45
Q

Ученето основано на примери (Instance Based Learning) (kNN) може да бъде
определено като:
a. Учене по аналогия
b. Мързеливо учене

A

И двете

46
Q

Ограничението за наредба при частично наредените планове се очначава с A< B (където A и B са действия) и означава:
Изберете едно:
a. Изпълнението на B не може да започне преди да започне изпъленнието А.
b. Изпълнението на B трябва да започне непосредствено след изпълнението на А.
c. А трябва да бъде изпълнено преди B.
d. Не може да има действие C между A и B, което да отменя резултатите от A.

A

А трябва да бъде изпълнено преди Б

47
Q

Какъв основен формализъм за представяне на знания използват традиционните Експертни системи:
Изберете едно:
a. Понятийни графи
b. Фраймово представяне
c. Продукционни правила
d. Семантини мрежи
e. Пропозиционални логики

A

c. Продукционни правила

48
Q

Логистичната регресия предполага условна независимост на атрибутите/характеристиките

A

Истина

49
Q

Логистичната регресия използва градиентно спускане

A

Истина

50
Q

Алгоритми за CSP

A

MinConflict, Backtracking, ConstraintPropagation, forward checking

51
Q

Структури от данни за обхождане в дълбочина и широчина

A

Ширина - Опашка
Дълбочина - стек

52
Q

Недостатъци на BFS (beam)

A

Не е пълен - локално търсещ е и не е оптимален

53
Q

KNN vs K-means

Class/Cluster
lazy/eager
super/unsuper

A
  • KNN classification Kmeans is clustering
  • KNN is lazy Kmeans is eager
  • KNN is supervised Kmeans is unsupervised