data science Flashcards
Критерии нормальности
Критерий Шапиро-Уилка Критерий асимметрии и эксцесса Критерий Дарбина Критерий Д’Агостино Критерий Васичека Критерий Дэвида-Хартли-Пирсона Критерий хи-квадрат Критерий Андерсона-Дарлинга Критерий Филлибена Критерий Колмогорова-Смирнова Критерий Мартинса-Иглевича Критерий Лина-Мудхолкара Критерий Шпигельхальтера Критерий Саркади Критерий Смирнова-Крамера-фон Мизеса Критерий Локка-Спурье Критерий Оя Критерий Хегази-Грина Критерий Муроты-Такеучи
градиент
вектор частных производных
куда указывает градиент
направление возрастания функции
обучение модели и градиентный спуск
- получаем значения модели
- считаем mse или что-то дифференцируемое
- получаем градиент
- обновляем коэффициенты (веса) и идем в п.1
борьба с переобучением
аугментация, регулеризация, кроссвалидация, стратификация, фолдирование
регулеризация
Регуляризация — это способ уменьшить сложность модели чтобы предотвратить переобучение или исправить некорректно поставленную задачу.
штрафы на веса
l1 (lasso) обнуляет незначимые коэфициенты,
l2(ridge, гребневая) уменьшает разброс,
dropout
почему случайный лес работает хорошо
дерево лучше случайного
в каких случаях логистическая регрессия будет работать лучше чем случайный лес?
очень шумные данные: деревья обучаются на шуме, а логистическая регрессиия обучается на нескольких но очень релевантных фичах
что важно для бизнеса в Data Science
- Интерпретируемость модели
Важный признак или нет
- Коэффициент корреляции Пирсона (для регрессии и бинарной классификации, для мульти не подходит)
- Логистическая регрессия, натренировал и по весам ранжировать
- Добавить признак со случайными значениями
- Перебором (СБС) от 1 ко всем, от всех ко многим (убираем), убирать быстрее (см. аддиктивная сила)
- Визуализировать данные (посмотреть глазами)
методы для категориальных переменных
- one hot encoding
- label encoding
- count encoding
- target encoding (https://medium.com/analytics-vidhya/target-encoding-vs-one-hot-encoding-with-simple-examples-276a7e7b3e64)
Случайный лес, что под капотом, какие признаки, как обучается
- случайные признаки
- случайная (бутстреп) выборка
- берутся предсказания каждого дерева и находится среднее арифмитическое
- если обучалась на положительном таргете, будут выдаваться только положительные значения
- не рекомендуется, если рабочий диапазон не схож с трейном
в чем приемущество медианы над средним
более устойчивое к форме распределения
feature engineering
преобразование существующих признаков в новые комбинацией, сделав их более информативными
Логистическая регрессия
это алгоритм классификации машинного обучения, используемый для прогнозирования вероятности категориальной зависимой переменной. В логистической регрессии зависимая переменная является бинарной переменной, содержащей данные, закодированные как 1 (да, успех и т.п.) или 0 (нет, провал и т.п.). Другими словами, модель логистической регрессии предсказывает P(Y=1) как функцию X.
Условия логистической регрессии
- Бинарная логистическая регрессия требует, чтобы зависимая переменная также была бинарной.
- Для бинарной регрессии фактор уровня 1 зависимой переменной должен представлять желаемый вывод.
- Использоваться должны только значимые переменные.
- Независимые переменные должны быть независимы друг от друга. Это значит, что модель должна иметь малую мультиколлинеарность или не иметь её вовсе.
- Независимые переменные связаны линейно с логарифмическими коэффициентами.
- Логистическая регрессия требует больших размеров выборки.
Рекурсивное устранение признаков (RFE)
Рекурсивное устранение признаков (RFE) основывается на повторяющемся конструировании модели и выборе лучше всех или хуже всех выполняемого признака, отделения этого признака и повторения цикла с оставшимися. Этот процесс применяется, пока в наборе данных не закончатся признаки. Цель RFE заключается в отборе признаков посредством рекурсивного рассмотрения всё меньшего и меньшего их набора.
непараметрическим критерий — Hкритерием Краскела-Уоллеса.
очень похож на критерий МаннаУитни,
Мы точно так же объединяем всех животных в одну группу,
упорядочиваем их от самого большого до самого маленького и присваиваем
им ранги.
Затем они снова делятся на группы, ранги внутри групп складываются,
и их суммы сравниваются между собой. Логика здесь такая: чем сильнее
различаются суммы рангов, тем больше вероятность отвергнуть нулевую
гипотезу. И коэффициент Краскела-Уоллеса как раз и отражает различия
в этих суммах.после вычисления любого из этих
критериев необходимо найти соответствующий им p-уровень значимости.
Именно он и покажет, существует ли связь
проблемой множественных
сравнений.
К большому сожалению, если мы получили значимые результаты
по дисперсионному анализу, мы не сможем по ним сказать, кто от кого
отличается по размеру: слоники от котиков или песики от слоников. Мало
того — мы не можем просто взять и сравнить их попарно с помощью tкритерия Стьюдента. Истоки этого — в основах теории вероятности, и мы
не будем на них подробно останавливаться. Просто отметим, что с каждым
таким сравнением вы серьезно увеличиваете свои шансы ошибиться
в выводах. Эта неприятная вещь называется проблемой множественных
сравнений.
Поэтому такие сравнения необходимо проводить с помощью других,
так называемых апостериорных критериев (или критериев post hoc).
Простейший из них называется t-критерием Стьюдента с поправкой
Бонферрони.
t-критерий Стьюдента с поправкой
Бонферрони
Вычисляется он как самый обычный t Стьюдента.
Поправка же касается критического значения, с которым мы сравниваем p-
уровень значимости (0,05). Это значение нужно поделить на количество
попарных сравнений.
Если вы сравниваете три вида животных, то таких сравнений тоже
будет три (котики с песиками, песики со слониками и слоники с котиками).
А вот если их четыре, то количество сравнений увеличивается до шести.
И тогда критическое значение будет равно 0,05 / 6.
Помимо t-критерия Стьюдента с поправкой Бонферрони существует
еще, по крайней мере, 17 апостериорных критериев, которые применяются
в различных ситуациях для равных и не равных дисперсий.
Для равных:
1. Поправка Бонферони
2. Критерий Штеффи
3. Критерий Тьюки
Для не равных
1. Критерий Тамхейна
2. С-критерий Даннета
3. Критерий Геймса-Хоуэлла