A/B тестирование Flashcards
Кому нужно A/B-тестирование
Продакт-менеджеры могут тестировать изменения ценовых моделей, направленные на повышение доходов, или оптимизацию части воронки продаж для увеличения конверсии.
Маркетологи могут тестировать изображения, призывы к действию (call-to-action) или практически любые другие элементы маркетинговой кампании или рекламы с точки зрения улучшения метрик.
Продуктовые дизайнеры могут тестировать дизайнерские решения (например, цвет кнопки оформления заказа) или использовать результаты тестирования для того, чтобы перед внедрением определить, будет ли удобно пользоваться новой функцией.
Этапы A/B тестирования
- Определите цели
- Определите метрику
- Разработайте гипотезу
- Подготовьте эксперимент
- Проведите эксперимент
- Анализируйте результаты.
Определите цели А/В тестирования
Определите основные бизнес-задачи вашей компании и убедитесь, что цели A/B-тестирования с ними совпадают.
При анализе A/B-тестов считайте не только p-value, но и доверительные интервалы с численными оценками эффекта.
Считайте не только абсолютные метрики, но и относительные.
Выполнив эти два шага, вы сильно повысите наглядность и интерпретируемость результатов.
Определите метрику
определить метрику, на которую вы будете смотреть, чтобы понять, является ли новая версия сайта более успешной, чем изначальная. Обычно в качестве такой метрики берут коэффициент конверсии, но можно выбрать и промежуточную метрику вроде показателя кликабельности (CTR).
Пример: В нашем примере в качестве метрики вы выбираете долю зарегистрированных пользователей (registration rate), определяемую как количество новых пользователей, которые регистрируются, поделенное на общее количество новых посетителей сайта.
Разработайте гипотезу.
Затем нужно разработать гипотезу о том, что именно поменяется, и, соответственно, что вы хотите проверить. Нужно понять, каких результатов вы ожидаете и какие у них могут быть обоснования.
Пример: Допустим, на текущей странице регистрации есть баннер и форма регистрации. Есть несколько пунктов, которые вы можете протестировать: поля формы, позиционирование, размер текста, но баннер на главной странице визуально наиболее заметен, поэтому сначала надо узнать, увеличится ли доля регистраций, если изменить изображение на нём.
Общая гипотеза заключается в следующем: «Если изменить главную страницу регистрации, то больше новых пользователей будут регистрироваться внутри продукта, потому что новое изображение лучше передает его ценности».
Нулевая гипотеза
Нулевая гипотеза предполагает, что результаты, А и В на самом деле не отличаются и что наблюдаемые различия случайны. Мы надеемся опровергнуть эту гипотезу.
Чаще всего эта гипотеза отвечает за то, что эффекта в A/B-тесте нет.
альтернативная гипотеза в A/B-тестировании, которую, наоборот, мы хотим подтвердить. Эта гипотеза отвечает за то, что эффект в A/B-тесте есть.
Как подготовить АВ тест эксперимент?
Для того, чтобы тест выдавал корректные результаты сделайте следующее:
Создайте новую версию (B), отражающую изменения, которые вы хотите протестировать.
Определите контрольную и экспериментальную группы. Каких пользователей вы хотите протестировать: всех пользователей на всех платформах или только пользователей из одной страны? Определите группу испытуемых, отобрав их по типам пользователей, платформе, географическим показателям и т. п. Затем определите, какой процент исследуемой группы составляет контрольная группа (группа, видящая версию A), а какой процент — экспериментальная группа (группа, видящая версию B). Обычно эти группы одинакового размера.
Убедитесь, что пользователи будут видеть версии A и B в случайном порядке. Это значит, у каждого пользователя будет равный шанс получить ту или иную версию.
Определите уровень статистической значимости (α). Это уровень риска, который вы принимаете при ошибках первого рода (отклонение нулевой гипотезы, если она верна), обычно α = 0.05. Это означает, что в 5% случаев вы будете обнаруживать разницу между A и B, которая на самом деле обусловлена случайностью. Чем ниже выбранный вами уровень значимости, тем ниже риск того, что вы обнаружите разницу, вызванную случайностью.
Определите минимальный размер выборки. Калькуляторы есть здесь и здесь, они рассчитывают размер выборки, необходимый для каждой версии. На размер выборки влияют разные параметры и ваши предпочтения. Наличие достаточно большого размера выборки важно для обеспечения статистически значимых результатов.
Определите временные рамки. Возьмите общий размер выборки, необходимый вам для тестирования каждой версии, и разделите его на ваш ежедневный трафик, так вы получите количество дней, необходимое для проведения теста. Как правило, это одна или две недели.
Пример: На существующем сайте в разделе регистрации мы изменим главную страницу — это и будет нашей версией B. Мы решаем, что в эксперименте будут участвовать только новые пользователи, заходящие на страницу регистрации. Мы также обеспечиваем случайную выборку, то есть каждый пользователь будет иметь равные шансы получить A или B, распределенные случайным образом.
Важно определить временные рамки. Допустим, ежедневно на нашу страницу регистрации в среднем приходит трафик от 10 000 новых пользователей, это означает, что только 5000 пользователей могут увидеть каждую версию. Тогда минимальный размер выборки составляет около 100 000 просмотров каждой версии. 100 000/ 5000 = 20 дней — столько должен продлиться эксперимент.
Проведите эксперимент
Помните о важных шагах, которые необходимо выполнить:
Обсудите параметры эксперимента с исполнителями.
Выполните запрос на тестовой закрытой площадке, если она у вас есть. Это поможет проверить данные. Если ее нет, проверьте данные, полученные в первый день эксперимента.
В самом начале проведения тестирования проверьте, действительно ли оно работает.
И, наконец, не смотрите на результаты! Преждевременный просмотр результатов может испортить статистическую значимость.
Анализируйте результаты.
Проверьте статистическую значимость. Статистическая теория, лежащая в основе этого подхода, объясняется здесь, но основная идея в том, чтобы выяснить, была ли разница в результатах между A и B связана с изменениями или это результат случайности или естественных изменений. Это определяется путем сравнения тестовых статистических данных (и полученного p-значения) с вашим уровнем значимости.
Если p-значение меньше уровня значимости, то можно отвергнуть нулевую гипотезу, имея доказательства для альтернативы.
Если p-значение больше или равно уровню значимости, мы не можем отвергнуть нулевую гипотезу о том, что A и B не отличаются друг от друга.
Идея бутстрепа
Идея бутстрепа в том, чтобы использовать результаты вычислений по выборкам как “фиктивную популяцию” с целью определить выборочное распределение статистики. Фактически, при этом анализируется большое число “фантомных” выборок, называемых бутстреп-выборками. Повысить чувствительность критерия (т-тест), тем самым можно доказать гипотезу за меньшее количество экспериментов.
Гиперпарпараметры градиентного бустинга
learning rate
коффициент регуляризации
максимальная глубина дерева
Непараметрические критерии.
- Методы сравнения двух и более выборок по признаку.
Распределение признака в выборке не соответствует нормальному виду [5. С. 172-173]. 2.
Представляют собой функции, зависящие непосредственно от вариант данной совокупности с их
частотами; служат для проверки рабочих гипотез независимо от формы распределения
совокупностей, из которых взяты сравниваемые выборки
z - test (больше 30 наблюдений и известна стандартное отклонение для генеральной совокупности)
t - test (не знаем стандартное отклонение в генеральной совокупности или мало наблюдений)
Критерий U Манна-Уитни (данные распределены не по нормальному распределению, много шумов)
Критерий Т Вилкоксона
Критерий Н Краскалла-Уоллеса
Критерий χ2 Фридмана
p-value для выбросов большое или маленькое
мальенькое
t-критерий Стьюдента для несвязанных выборок
оценивает, насколько различаются их средние размеры.
Чтобы рассчитать этот критерий, необходимо из среднего размера
песиков вычесть средний размер котиков и поделить их на стандартную
ошибку этой разности. Последняя вычисляется на основе стандартных
отклонений котиковых и песиковых размеров и нужна для приведения tкритерия к нужной размерности.
Если разность средних достаточно большая, а стандартная ошибка
очень маленькая, то значение t-критерия будет весьма внушительным.
А чем больше t-критерий, тем с большей уверенностью мы можем
утверждать, что в среднем песики отличаются от котиков.
К большому сожалению, поскольку формула t-критерия включает
в себя средние значения, то этот критерий будет давать неадекватные
результаты при наличии котиков и песиков аномальных размеров
непараметрический U-критерием Манна-Уитни.
Чтобы рассчитать критерий Манна-Уитни, необходимо выстроить всех
песиков и котиков в один ряд, от самого мелкого к самому крупному,
и назначить им ранги. Самому большому зверьку достанется первый ранг,
а самому маленькому — последний.
После этого мы снова делим их на две группы и считаем суммы рангов
отдельно для песиков и для котиков. Общая логика такова: чем сильнее
будут различаться эти суммы, тем больше различаются песики и котики.
Наконец, мы проводим некоторые преобразования (которые
в основном сводятся к поправкам на количество котиков и песиков)
и получаем критерий Манна-Уитни, по которому судим,
в действительности ли котики и песики отличаются по размеру.