data science Flashcards

1
Q

Критерии нормальности

A
Критерий Шапиро-Уилка
Критерий асимметрии и эксцесса
Критерий Дарбина
Критерий Д’Агостино
Критерий Васичека
Критерий Дэвида-Хартли-Пирсона
Критерий хи-квадрат
Критерий Андерсона-Дарлинга
Критерий Филлибена
Критерий Колмогорова-Смирнова
Критерий Мартинса-Иглевича
Критерий Лина-Мудхолкара
Критерий Шпигельхальтера
Критерий Саркади
Критерий Смирнова-Крамера-фон Мизеса
Критерий Локка-Спурье
Критерий Оя
Критерий Хегази-Грина
Критерий Муроты-Такеучи
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

градиент

A

вектор частных производных

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

куда указывает градиент

A

направление возрастания функции

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

обучение модели и градиентный спуск

A
  1. получаем значения модели
  2. считаем mse или что-то дифференцируемое
  3. получаем градиент
  4. обновляем коэффициенты (веса) и идем в п.1
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

борьба с переобучением

A

аугментация, регулеризация, кроссвалидация, стратификация, фолдирование

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

регулеризация

A

Регуляризация — это способ уменьшить сложность модели чтобы предотвратить переобучение или исправить некорректно поставленную задачу.
штрафы на веса
l1 (lasso) обнуляет незначимые коэфициенты,
l2(ridge, гребневая) уменьшает разброс,
dropout

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

почему случайный лес работает хорошо

A

дерево лучше случайного

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

в каких случаях логистическая регрессия будет работать лучше чем случайный лес?

A

очень шумные данные: деревья обучаются на шуме, а логистическая регрессиия обучается на нескольких но очень релевантных фичах

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

что важно для бизнеса в Data Science

A
  • Интерпретируемость модели
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Важный признак или нет

A
  • Коэффициент корреляции Пирсона (для регрессии и бинарной классификации, для мульти не подходит)
  • Логистическая регрессия, натренировал и по весам ранжировать
  • Добавить признак со случайными значениями
  • Перебором (СБС) от 1 ко всем, от всех ко многим (убираем), убирать быстрее (см. аддиктивная сила)
  • Визуализировать данные (посмотреть глазами)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

методы для категориальных переменных

A
  • one hot encoding
  • label encoding
  • count encoding
  • target encoding (https://medium.com/analytics-vidhya/target-encoding-vs-one-hot-encoding-with-simple-examples-276a7e7b3e64)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Случайный лес, что под капотом, какие признаки, как обучается

A
  • случайные признаки
  • случайная (бутстреп) выборка
  • берутся предсказания каждого дерева и находится среднее арифмитическое
  • если обучалась на положительном таргете, будут выдаваться только положительные значения
  • не рекомендуется, если рабочий диапазон не схож с трейном
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

в чем приемущество медианы над средним

A

более устойчивое к форме распределения

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

feature engineering

A

преобразование существующих признаков в новые комбинацией, сделав их более информативными

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Логистическая регрессия

A

это алгоритм классификации машинного обучения, используемый для прогнозирования вероятности категориальной зависимой переменной. В логистической регрессии зависимая переменная является бинарной переменной, содержащей данные, закодированные как 1 (да, успех и т.п.) или 0 (нет, провал и т.п.). Другими словами, модель логистической регрессии предсказывает P(Y=1) как функцию X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Условия логистической регрессии

A
  1. Бинарная логистическая регрессия требует, чтобы зависимая переменная также была бинарной.
  2. Для бинарной регрессии фактор уровня 1 зависимой переменной должен представлять желаемый вывод.
  3. Использоваться должны только значимые переменные.
  4. Независимые переменные должны быть независимы друг от друга. Это значит, что модель должна иметь малую мультиколлинеарность или не иметь её вовсе.
  5. Независимые переменные связаны линейно с логарифмическими коэффициентами.
  6. Логистическая регрессия требует больших размеров выборки.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Рекурсивное устранение признаков (RFE)

A

Рекурсивное устранение признаков (RFE) основывается на повторяющемся конструировании модели и выборе лучше всех или хуже всех выполняемого признака, отделения этого признака и повторения цикла с оставшимися. Этот процесс применяется, пока в наборе данных не закончатся признаки. Цель RFE заключается в отборе признаков посредством рекурсивного рассмотрения всё меньшего и меньшего их набора.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

непараметрическим критерий — Hкритерием Краскела-Уоллеса.

A

очень похож на критерий МаннаУитни,
Мы точно так же объединяем всех животных в одну группу,
упорядочиваем их от самого большого до самого маленького и присваиваем
им ранги.
Затем они снова делятся на группы, ранги внутри групп складываются,
и их суммы сравниваются между собой. Логика здесь такая: чем сильнее
различаются суммы рангов, тем больше вероятность отвергнуть нулевую
гипотезу. И коэффициент Краскела-Уоллеса как раз и отражает различия
в этих суммах.после вычисления любого из этих
критериев необходимо найти соответствующий им p-уровень значимости.
Именно он и покажет, существует ли связь

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

проблемой множественных

сравнений.

A

К большому сожалению, если мы получили значимые результаты
по дисперсионному анализу, мы не сможем по ним сказать, кто от кого
отличается по размеру: слоники от котиков или песики от слоников. Мало
того — мы не можем просто взять и сравнить их попарно с помощью tкритерия Стьюдента. Истоки этого — в основах теории вероятности, и мы
не будем на них подробно останавливаться. Просто отметим, что с каждым
таким сравнением вы серьезно увеличиваете свои шансы ошибиться
в выводах. Эта неприятная вещь называется проблемой множественных
сравнений.
Поэтому такие сравнения необходимо проводить с помощью других,
так называемых апостериорных критериев (или критериев post hoc).
Простейший из них называется t-критерием Стьюдента с поправкой
Бонферрони.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

t-критерий Стьюдента с поправкой

Бонферрони

A

Вычисляется он как самый обычный t Стьюдента.
Поправка же касается критического значения, с которым мы сравниваем p-
уровень значимости (0,05). Это значение нужно поделить на количество
попарных сравнений.
Если вы сравниваете три вида животных, то таких сравнений тоже
будет три (котики с песиками, песики со слониками и слоники с котиками).
А вот если их четыре, то количество сравнений увеличивается до шести.
И тогда критическое значение будет равно 0,05 / 6.
Помимо t-критерия Стьюдента с поправкой Бонферрони существует
еще, по крайней мере, 17 апостериорных критериев, которые применяются
в различных ситуациях для равных и не равных дисперсий.
Для равных:
1. Поправка Бонферони
2. Критерий Штеффи
3. Критерий Тьюки
Для не равных
1. Критерий Тамхейна
2. С-критерий Даннета
3. Критерий Геймса-Хоуэлла

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Оптимальный размер выборки зависит от нескольких факторов,

A

главными из которых являются критический p-уровень значимости (как
правило, 0,05 или 0,01) и показатель мощности критерия. Последняя
определяется как вероятность того, что этот критерий найдет значимые
различия там, где они действительно есть. Оптимальным считается
показатель мощности в 0,8. Соответственно, в оставшихся 20% случаев
критерий пропустит значимые различия.
Оставшиеся факторы определяются самой природой критерия.

22
Q

наблюдения во временных рядах

A

зависимые наблюдения

23
Q

временной ряд

A

упорядоченная последовательность точек или признаков измеренных через постоянные временные интервалы

24
Q

задачи при работе с временными рядами

A
  1. прогнозирование
  2. классификация
  3. кластеризация
  4. агрегация
  5. поиск аномалий
25
Q

максимальное правдоподобие

A

вероятность того, что процесс, описываемый моделью, производил данные, за которыми велось наблюдение.

26
Q

Precision

A

TP / (TP + FP)
Precision можно интерпретировать как долю объектов, названных классификатором положительными и при этом действительно являющимися положительными.
Precision и recall не зависят, в отличие от accuracy, от соотношения классов и потому применимы в условиях несбалансированных выборок.
Precision и recall также используют для построения кривой и, аналогично AUC-ROC, находят площадь под ней.

27
Q

Recall

A

TP / (TP + FN)
recall показывает, какую долю объектов положительного класса из всех объектов положительного класса нашел алгоритм.
Precision и recall также используют для построения кривой и, аналогично AUC-ROC, находят площадь под ней.

28
Q

Ошибки 1-ого и 2-ого рода.

A

ошибки классификации бывают двух видов: False Positive и False Negative. В статистике первый вид ошибок называют ошибкой I-го рода, а второй — ошибкой II-го рода.
В нашей задаче по определению оттока абонентов, ошибкой первого рода будет принятие здорового за больного, так как наша нулевая гипотеза состоит в том, что никто из ппциентов не болен, а мы эту гипотезу отвергаем. Соответственно, ошибкой второго рода будет являться “пропуск” больного и ошибочное принятие нулевой гипотезы.

29
Q

F-мера

A

— среднее гармоническое precision и recall :
(1 + B) * precision * recall / (B^2 * precision + recall)
beta в данном случае определяет вес точности в метрике, и при beta = 1 это среднее гармоническое (с множителем 2, чтобы в случае precision = 1 и recall = 1 иметь F_1 = 1)
F-мера достигает максимума при полноте и точности, равными единице, и близка к нулю, если один из аргументов близок к нулю.
В sklearn есть удобная функция _metrics.classificationreport, возвращающая recall, precision и F-меру для каждого из классов, а также количество экземпляров каждого класса.
report = classification_report(y_test, lr.predict(X_test), target_names=[‘Non-churned’, ‘Churned’])
print(report)

30
Q

ROC AUC

A

Показывает насколько предсказание лучше случайного (диагонали)
Одним из способов оценить модель в целом, не привязываясь к конкретному порогу, является AUC-ROC (или ROC AUC) — площадь (Area Under Curve) под кривой ошибок (Receiver Operating Characteristic curve ). Данная кривая представляет из себя линию от (0,0) до (1,1) в координатах True Positive Rate (TPR) и False Positive Rate (FPR):
True Positive Rate (TPR) = TP / (TP + FN)

False Positive Rate (FPR) = FP / (FP + TN)
TPR нам уже известна, это полнота, а FPR показывает, какую долю из объектов negative класса алгоритм предсказал неверно. В идеальном случае, когда классификатор не делает ошибок (FPR = 0, TPR = 1) мы получим площадь под кривой, равную единице; в противном случае, когда классификатор случайно выдает вероятности классов, AUC-ROC будет стремиться к 0.5, так как классификатор будет выдавать одинаковое количество TP и FP.
Каждая точка на графике соответствует выбору некоторого порога. Площадь под кривой в данном случае показывает качество алгоритма (больше — лучше), кроме этого, важной является крутизна самой кривой — мы хотим максимизировать TPR, минимизируя FPR, а значит, наша кривая в идеале должна стремиться к точке (0,1).
Критерий AUC-ROC устойчив к несбалансированным классам (спойлер: увы, не всё так однозначно) и может быть интерпретирован как вероятность того, что случайно выбранный positive объект будет проранжирован классификатором выше (будет иметь более высокую вероятность быть positive), чем случайно выбранный negative объект.
https://habr.com/ru/company/ods/blog/328372/

31
Q

Бустинг

A

«ансамблевые методы» в машинном обучении.
Бэггинг. В этом случае часто рассматривают однородных слабых учеников, обучают их параллельно и независимо друг от друга, а затем объединяют их, следуя некоторому детерминированному процессу усреднения.
Бустинг. В этом случае часто рассматривают однородных слабых учеников, обучают их последовательно адаптивным способом (слабый ученик зависит от предыдущих) и объединяет их, следуя детерминированной стратегии.
Стекинг. В этом случае часто учитывают разнородных слабых учеников, изучают их параллельно и объединяют их, обучая метамодель для вывода прогноза, основанного на предсказаниях различных слабых моделей.

32
Q

нужно ли нормировать х и у для линейной регрессии с регуляризацией?

A

Да, для регуляризации обязательно

33
Q

нулевое предположение для модели (для данных)

A

мы собрали именно те данные, которые предполагали, в данных нет ошибок ввода и форматирования.
модель даст нам то, что мы ищем.

34
Q

Random Forest применяется для решения практически любых проблем в области машинного обучения. Назовите 5!

A
Сюда относятся 
1. классификации (RandomForestClassifier)
2. регрессии (RandomForestRegressor), 
а также более сложные задачи, вроде 
3. отбора признаков, 
4. поиска выбросов/аномалий и 
5. кластеризации.
35
Q

Алгоритм случайного леса (Random Forest)

A

Алгоритм случайного леса (Random Forest) — универсальный алгоритм машинного обучения, суть которого состоит в использовании ансамбля решающих деревьев. Само по себе решающее дерево предоставляет крайне невысокое качество классификации, но из-за большого их количества результат значительно улучшается. Также это один из немногих алгоритмов, который можно использовать в абсолютном большинстве задач.

36
Q

для задачи отбора признаков Random Forest мы осуществляем следующий код

A

import pandas as pd

from sklearn.ensemble import RandomForestClassfier

from sklearn.feature_selection import SelectFromModel

X_train,y_train,X_test,y_test = train_test_split(data,test_size=0.3)
sel = SelectFromModel(RandomForestClassifier(n_estimators = 100))

sel.fit(X_train, y_train)

37
Q

Работаем с RAndomForest по стандартному порядку действий, принятому в scikit-learn. Вычисляем AUC-ROC (площадь под кривой ошибок) для тренировочной и тестовой частей модели, чтобы определить ее качество:

A
from sklearn.ensemble import RandomForestRegressor 
from sklearn.metrics import roc_auc_score 
# далее - (X, y) - для обучения, (X2, y2) - для контроля
# модель - регрессор 
model =  RandomForestRegressor(n_estimators=10,                              
                               oob_score=True,
                               random_state=1) 
model.fit(X, y) # обучение 
a = model.predict(X2) # предсказание  
print ("AUC-ROC (oob) = ", roc_auc_score(y, model.oob_prediction_)) 
print ("AUC-ROC (test) = ", roc_auc_score(y2, a))
38
Q

Необходимые параметры Random Forest

A

1, Число деревьев – n_estimators
2, Критерий расщепления – criterion
3. Число признаков для выбора расщепления – max_features
4. Минимальное число объектов для расщепления – min_samples_split
5. Ограничение числа объектов в листьях – min_samples_leaf
6. Максимальная глубина деревьев – max_depth

Число деревьев – n_estimators
Чем больше деревьев, тем лучше качество. Стоит отметить, что время настройки и работы Random Forest будут пропорционально увеличиваться, что может сказаться на производительности.
Часто при большом увеличении n_estimators качество на обучающей выборке может даже доходить до 100%, в то время как качество на тесте выходит на асимптоту, что сигнализирует о переобучении нашей модели. Лучший способ избежать этого – прикинуть, сколько деревьев вам достаточно, зафиксировав момент, когда качество теста еще не становится стабильно-неизменным.

Критерий расщепления – criterion
Также один из самых важных параметров для построения, но без значительной возможности выбора. В библиотеке sklearn для задач классификации реализованы критерии gini и entropy. Они соответствуют классическим критериям расщепления: джини и энтропии.
В свою очередь, для задач регрессии реализованы два критерия (mse и mae), которые являются функциями ошибок Mean Square Error и Mean Absolute Error соответственно. Практически во всех задачах используется критерий mse.

Простой метод перебора поможет выбрать, что использовать для решения конкретной проблемы.

Число признаков для выбора расщепления – max_features
При увеличении max_features увеличивается время построения леса, а деревья становятся похожими друг на друга. В задачах классификации он по умолчанию равен sqrt(n), в задачах регрессии – n/3.

Является одним из самых важных параметров в алгоритме. Он настраивается в первую очередь, после того, как мы определили тип нашей задачи.
Минимальное число объектов для расщепления – min_samples_split
Второстепенный по своему значению параметр, его можно оставить в состоянии по умолчанию.

Ограничение числа объектов в листьях – min_samples_leaf
Аналогично с min_samples_split, но при увеличении данного параметра качество модели на обучении падает, в то время как время построения модели сокращается.

Максимальная глубина деревьев – max_depth
Чем меньше максимальная глубина, тем быстрее строится и работает алгоритм случайного дерева.

При увеличении глубины резко возрастает качество как на обучении модели, так и на ее тестировании. Если у вас есть возможность и время для построения глубоких деревьев, то рекомендуется использовать максимальное значение данного параметра.
Неглубокие деревья рекомендуется использовать в задачах со значительным количеством шумовых объектов (выбросов).

39
Q

Random Forest

Преимущества алгоритма

A

Имеет высокую точность предсказания, которая сравнима с результатами градиентного бустинга.
Не требует тщательной настройки параметров, хорошо работает из коробки.
Практически не чувствителен к выбросам в данных из-за случайного семплирования (random sample).
Не чувствителен к масштабированию и к другим монотонным преобразованиям значений признаков.
Редко переобучается. На практике добавление деревьев только улучшает композицию.
В случае наличия проблемы переобучения, она преодолевается путем усреднения или объединения результатов различных деревьев решений.
Способен эффективно обрабатывать данные с большим числом признаков и классов.
Хорошо работает с пропущенными данными – сохраняет хорошую точность даже при их наличии.
Одинаково хорошо обрабатывает как непрерывные, так и дискретные признаки
Высокая параллелизуемость и масштабируемость.

40
Q

Random Forest

Недостатки алгоритма

A

Для реализации алгоритма случайного дерева требуется значительный объем вычислительных ресурсов.
Большой размер моделей.
Построение случайного леса отнимает больше времени, чем деревья решений или линейные алгоритмы.
Алгоритм склонен к переобучению на зашумленных данных.
Нет формальных выводов, таких как p-values, которые используются для оценки важности переменных.
В отличие от более простых алгоритмов, результаты случайного леса сложнее интерпретировать.
Когда в выборке очень много разреженных признаков, таких как тексты или наборы слов (bag of words), алгоритм работает хуже чем линейные методы.
В отличие от линейной регрессии, Random Forest не обладает возможностью экстраполяции. Это можно считать и плюсом, так как в случае выбросов не будет экстремальных значений.
Если данные содержат группы признаков с корреляцией, которые имеют схожую значимость для меток, то предпочтение отдается небольшим группам перед большими, что ведет к недообучению.
Процесс прогнозирования с использованием случайных лесов очень трудоемкий по сравнению с другими алгоритмами.

41
Q

Ансамблевые методы

A

Ансамблевые методы — это парадигма машинного обучения, где несколько моделей (часто называемых «слабыми учениками») обучаются для решения одной и той же проблемы и объединяются для получения лучших результатов. Основная гипотеза состоит в том, что при правильном сочетании слабых моделей мы можем получить более точные и/или надежные модели.

В ансамблевой теории обучения мы вводим понятия слабых учеников (или базовых моделей), которых можно использовать в качестве строительных блоков для проектирования более сложных моделей путем объединения нескольких из них. В большинстве случаев эти базовые модели работают сами по себе не так хорошо в связи с тем, что они имеют высокое смещение (например, модели с низкой степенью свободы), либо с тем, что имеют слишком большой разброс, чтобы быть устойчивыми (например, модели с высокой степенью свободы). Тогда идея ансамблевых методов состоит в том, чтобы попытаться уменьшить смещение и/или разброс таких слабых учеников, объединяя несколько из них вместе, чтобы создать сильного ученика (или модель ансамбля), который достигает лучших результатов.

42
Q

Бэггинг

A

Бэггинг. В этом случае часто рассматривают однородных слабых учеников, обучают их параллельно и независимо друг от друга, а затем объединяют их, следуя некоторому детерминированному процессу усреднения.

Грубо говоря, мы можем сказать, что бэггинг будет в основном сосредоточен на получении ансамблевой модели с меньшим разбросом, чем ее компоненты, в то время как бустинг и стекинг в основном будут пытаться производить сильные модели с меньшим смещением, чем их компоненты.

43
Q

Бустинг

A

Бустинг. В этом случае часто рассматривают однородных слабых учеников, обучают их последовательно адаптивным способом (слабый ученик зависит от предыдущих) и объединяет их, следуя детерминированной стратегии.

Грубо говоря, мы можем сказать, что бэггинг будет в основном сосредоточен на получении ансамблевой модели с меньшим разбросом, чем ее компоненты, в то время как бустинг и стекинг в основном будут пытаться производить сильные модели с меньшим смещением, чем их компоненты.

44
Q

Стекинг

A

Стекинг. В этом случае часто учитывают разнородных слабых учеников, изучают их параллельно и объединяют их, обучая метамодель для вывода прогноза, основанного на предсказаниях различных слабых моделей.

Грубо говоря, мы можем сказать, что бэггинг будет в основном сосредоточен на получении ансамблевой модели с меньшим разбросом, чем ее компоненты, в то время как бустинг и стекинг в основном будут пытаться производить сильные модели с меньшим смещением, чем их компоненты.

45
Q

Бутстрэп

A

Этот статистический метод заключается в генерации выборок размера B (так называемых бутстрэп выборок) из исходного датасета размера N путем случайного выбора элементов с повторениями в каждом из наблюдений B.

46
Q

Что такое нормализация данных и зачем она нам нужна?

A

Нормализация данных - очень важный этап предварительной обработки, используемый для изменения масштаба значений, чтобы они соответствовали определенному диапазону, чтобы обеспечить лучшую сходимость во время обратного распространения ошибки. В общем случае она сводится к вычитанию среднего значения и делению на стандартное отклонение.

Если этого не сделать, некоторые признаки будут иметь более высокий вес в функции стоимости. Нормализация позволяет сделать все признаки одинаково взвешенными.

47
Q

Перечислите этапы построения дерева решений

A

Взять весь набор входных данных.

Вычислить энтропию целевой переменной, а также прогнозные атрибуты.

Рассчитать прирост информации по всем атрибутам (информацию о том, как отсортировать разные объекты друг от друга).

Выбрать атрибут с наибольшим объёмом информации в качестве корневого узла.

Повторить ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершён.

48
Q

Что такое закон больших чисел?

A

Это принцип теории вероятностей, который описывает результат выполнения одного и того же эксперимента множество раз.

При достаточно длительной серии экспериментов закон больших чисел гарантирует устойчивость средних значений от случайных событий. И среднее значение конечной выборки фиксированного распределения будет очень близко к математическому ожиданию выборки.

К примеру, при бросках шестигранного кубика. Чем больше бросков, тем больше среднее значение близится к математическому ожиданию 3,5.

49
Q

Что такое проблемы взрывающегося и затухающего градиента?

A

Градиент — это вектор частных производных функции потерь по весам нейросети. Он показывает вектор наибольшего роста функции для всех весов.

В процессе обучения при обратном распространении ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это дестабилизирует алгоритм нейросети. Эта проблема называется взрывающимся градиентом.

Аналогичная обратная проблема, в которой при прохождении ошибки через слои градиент становится меньше, называется затухающим градиентом.

Чем больше количество слоев нейросети, тем выше риски данных ошибок. Для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять её.

50
Q

Объясните алгоритм машинного обучения SVM.

A

SVM, или метод опорных векторов, — это набор алгоритмов обучения с учителем, который используется для классификации и регрессионного анализа.

Его основная идея — построение гиперплоскости, которая разделяет объекты выборки максимально эффективным способом. Сделать это можно с помощью алгоритма линейной классификации.