A/B тестирование Flashcards

1
Q

Кому нужно A/B-тестирование

A

Продакт-менеджеры могут тестировать изменения ценовых моделей, направленные на повышение доходов, или оптимизацию части воронки продаж для увеличения конверсии.

Маркетологи могут тестировать изображения, призывы к действию (call-to-action) или практически любые другие элементы маркетинговой кампании или рекламы с точки зрения улучшения метрик.

Продуктовые дизайнеры могут тестировать дизайнерские решения (например, цвет кнопки оформления заказа) или использовать результаты тестирования для того, чтобы перед внедрением определить, будет ли удобно пользоваться новой функцией.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Этапы A/B тестирования

A
  1. Определите цели
  2. Определите метрику
  3. Разработайте гипотезу
  4. Подготовьте эксперимент
  5. Проведите эксперимент
  6. Анализируйте результаты.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Определите цели А/В тестирования

A

Определите основные бизнес-задачи вашей компании и убедитесь, что цели A/B-тестирования с ними совпадают.

При анализе A/B-тестов считайте не только p-value, но и доверительные интервалы с численными оценками эффекта.
Считайте не только абсолютные метрики, но и относительные.
Выполнив эти два шага, вы сильно повысите наглядность и интерпретируемость результатов.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Определите метрику

A

определить метрику, на которую вы будете смотреть, чтобы понять, является ли новая версия сайта более успешной, чем изначальная. Обычно в качестве такой метрики берут коэффициент конверсии, но можно выбрать и промежуточную метрику вроде показателя кликабельности (CTR).

Пример: В нашем примере в качестве метрики вы выбираете долю зарегистрированных пользователей (registration rate), определяемую как количество новых пользователей, которые регистрируются, поделенное на общее количество новых посетителей сайта.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Разработайте гипотезу.

A

Затем нужно разработать гипотезу о том, что именно поменяется, и, соответственно, что вы хотите проверить. Нужно понять, каких результатов вы ожидаете и какие у них могут быть обоснования.

Пример: Допустим, на текущей странице регистрации есть баннер и форма регистрации. Есть несколько пунктов, которые вы можете протестировать: поля формы, позиционирование, размер текста, но баннер на главной странице визуально наиболее заметен, поэтому сначала надо узнать, увеличится ли доля регистраций, если изменить изображение на нём.

Общая гипотеза заключается в следующем: «Если изменить главную страницу регистрации, то больше новых пользователей будут регистрироваться внутри продукта, потому что новое изображение лучше передает его ценности».

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Нулевая гипотеза

A

Нулевая гипотеза предполагает, что результаты, А и В на самом деле не отличаются и что наблюдаемые различия случайны. Мы надеемся опровергнуть эту гипотезу.
Чаще всего эта гипотеза отвечает за то, что эффекта в A/B-тесте нет.
альтернативная гипотеза в A/B-тестировании, которую, наоборот, мы хотим подтвердить. Эта гипотеза отвечает за то, что эффект в A/B-тесте есть.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Как подготовить АВ тест эксперимент?

A

Для того, чтобы тест выдавал корректные результаты сделайте следующее:

Создайте новую версию (B), отражающую изменения, которые вы хотите протестировать.
Определите контрольную и экспериментальную группы. Каких пользователей вы хотите протестировать: всех пользователей на всех платформах или только пользователей из одной страны? Определите группу испытуемых, отобрав их по типам пользователей, платформе, географическим показателям и т. п. Затем определите, какой процент исследуемой группы составляет контрольная группа (группа, видящая версию A), а какой процент — экспериментальная группа (группа, видящая версию B). Обычно эти группы одинакового размера.
Убедитесь, что пользователи будут видеть версии A и B в случайном порядке. Это значит, у каждого пользователя будет равный шанс получить ту или иную версию.
Определите уровень статистической значимости (α). Это уровень риска, который вы принимаете при ошибках первого рода (отклонение нулевой гипотезы, если она верна), обычно α = 0.05. Это означает, что в 5% случаев вы будете обнаруживать разницу между A и B, которая на самом деле обусловлена случайностью. Чем ниже выбранный вами уровень значимости, тем ниже риск того, что вы обнаружите разницу, вызванную случайностью.
Определите минимальный размер выборки. Калькуляторы есть здесь и здесь, они рассчитывают размер выборки, необходимый для каждой версии. На размер выборки влияют разные параметры и ваши предпочтения. Наличие достаточно большого размера выборки важно для обеспечения статистически значимых результатов.
Определите временные рамки. Возьмите общий размер выборки, необходимый вам для тестирования каждой версии, и разделите его на ваш ежедневный трафик, так вы получите количество дней, необходимое для проведения теста. Как правило, это одна или две недели.
Пример: На существующем сайте в разделе регистрации мы изменим главную страницу — это и будет нашей версией B. Мы решаем, что в эксперименте будут участвовать только новые пользователи, заходящие на страницу регистрации. Мы также обеспечиваем случайную выборку, то есть каждый пользователь будет иметь равные шансы получить A или B, распределенные случайным образом.

Важно определить временные рамки. Допустим, ежедневно на нашу страницу регистрации в среднем приходит трафик от 10 000 новых пользователей, это означает, что только 5000 пользователей могут увидеть каждую версию. Тогда минимальный размер выборки составляет около 100 000 просмотров каждой версии. 100 000/ 5000 = 20 дней — столько должен продлиться эксперимент.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Проведите эксперимент

A

Помните о важных шагах, которые необходимо выполнить:

Обсудите параметры эксперимента с исполнителями.
Выполните запрос на тестовой закрытой площадке, если она у вас есть. Это поможет проверить данные. Если ее нет, проверьте данные, полученные в первый день эксперимента.
В самом начале проведения тестирования проверьте, действительно ли оно работает.
И, наконец, не смотрите на результаты! Преждевременный просмотр результатов может испортить статистическую значимость.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Анализируйте результаты.

A

Проверьте статистическую значимость. Статистическая теория, лежащая в основе этого подхода, объясняется здесь, но основная идея в том, чтобы выяснить, была ли разница в результатах между A и B связана с изменениями или это результат случайности или естественных изменений. Это определяется путем сравнения тестовых статистических данных (и полученного p-значения) с вашим уровнем значимости.

Если p-значение меньше уровня значимости, то можно отвергнуть нулевую гипотезу, имея доказательства для альтернативы.

Если p-значение больше или равно уровню значимости, мы не можем отвергнуть нулевую гипотезу о том, что A и B не отличаются друг от друга.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Идея бутстрепа

A

Идея бутстрепа в том, чтобы использовать результаты вычислений по выборкам как “фиктивную популяцию” с целью определить выборочное распределение статистики. Фактически, при этом анализируется большое число “фантомных” выборок, называемых бутстреп-выборками. Повысить чувствительность критерия (т-тест), тем самым можно доказать гипотезу за меньшее количество экспериментов.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Гиперпарпараметры градиентного бустинга

A

learning rate
коффициент регуляризации
максимальная глубина дерева

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Непараметрические критерии.

A
  1. Методы сравнения двух и более выборок по признаку.
    Распределение признака в выборке не соответствует нормальному виду [5. С. 172-173]. 2.
    Представляют собой функции, зависящие непосредственно от вариант данной совокупности с их
    частотами; служат для проверки рабочих гипотез независимо от формы распределения
    совокупностей, из которых взяты сравниваемые выборки
    z - test (больше 30 наблюдений и известна стандартное отклонение для генеральной совокупности)
    t - test (не знаем стандартное отклонение в генеральной совокупности или мало наблюдений)
    Критерий U Манна-Уитни (данные распределены не по нормальному распределению, много шумов)
    Критерий Т Вилкоксона
    Критерий Н Краскалла-Уоллеса
    Критерий χ2 Фридмана
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

p-value для выбросов большое или маленькое

A

мальенькое

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

t-критерий Стьюдента для несвязанных выборок

A

оценивает, насколько различаются их средние размеры.
Чтобы рассчитать этот критерий, необходимо из среднего размера
песиков вычесть средний размер котиков и поделить их на стандартную
ошибку этой разности. Последняя вычисляется на основе стандартных
отклонений котиковых и песиковых размеров и нужна для приведения tкритерия к нужной размерности.
Если разность средних достаточно большая, а стандартная ошибка
очень маленькая, то значение t-критерия будет весьма внушительным.
А чем больше t-критерий, тем с большей уверенностью мы можем
утверждать, что в среднем песики отличаются от котиков.
К большому сожалению, поскольку формула t-критерия включает
в себя средние значения, то этот критерий будет давать неадекватные
результаты при наличии котиков и песиков аномальных размеров

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

непараметрический U-критерием Манна-Уитни.

A

Чтобы рассчитать критерий Манна-Уитни, необходимо выстроить всех
песиков и котиков в один ряд, от самого мелкого к самому крупному,
и назначить им ранги. Самому большому зверьку достанется первый ранг,
а самому маленькому — последний.
После этого мы снова делим их на две группы и считаем суммы рангов
отдельно для песиков и для котиков. Общая логика такова: чем сильнее
будут различаться эти суммы, тем больше различаются песики и котики.
Наконец, мы проводим некоторые преобразования (которые
в основном сводятся к поправкам на количество котиков и песиков)
и получаем критерий Манна-Уитни, по которому судим,
в действительности ли котики и песики отличаются по размеру.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

F-критерий

равенства дисперсий Фишера

A

Помимо определения различий между типичными представителями
котикового и песикового видов, в некоторых случаях нас могут
интересовать различия по их разнообразию. Иными словами, мы можем
посмотреть, являются ли песики более разнообразными по размеру, чем
котики, или же нет.
дисперсия (пёсики) / дисперсию (котиков)
Необходимо заметить, что в этой формуле сверху всегда должна стоять
большая дисперсия, а снизу — меньшая.
Все вышеперечисленные критерии замечательно работают в случаях,
когда нам известны точные или хотя бы приблизительные размеры котиков
и песиков.

17
Q

меры различий для несвязанных выборок

A

насколько выборки отличаются друг от друга,

  • t-критерий Стьюдента для несвязанных выборок
  • непараметрическим U-критерием Манна-Уитни.
  • F-критерием равенства дисперсий Фишера
  • критерий Хи-квадрат Пирсона
18
Q

p-уровень значимости

A
  1. они делают предположение, что котики и песики, как
    биологические, виды абсолютно не отличаются друг от друга. Это
    предположение называется нулевой гипотезой
  2. Следующим шагом они вычисляют вероятность того, что две случайно
    выбранные группы котиков и песиков дадут значение критерия большее
    или равное тому, которое мы получили (чаще всего без учета его знака).
    Эта вероятность называется p-уровнем значимости.

*Правда, для этого правила есть исключения — это U Манна-Уитни
и родственные ему критерии.

19
Q

Альтернативные подходы для p-value

A
  • Доверительные интервалы.

- Байесовская статистика.

20
Q

Медиана, Верхний квартил, Нижний квартиль, Межквартильный размах (МКР), Выбросы

A

Медиана – это значение элемента в центре ранжированного ряда.

Медиана меньше подвержена влиянию выбросов, поэтому в центре boxlot отображается именно она, а не среднеарифметическое.

Верхний квартиль – это такая оценка, выше которой только 25% оценок.
Нижний квартиль – это такое значение, ниже которого только 25% оценок.
Межквартильный размах (МКР) – это разница между 75% и 25% квартилем. Внутри этого диапазона лежит 50% наблюдений. Если диапазон узкий (как в случае с осьминогами), значит члены подгруппы единогласны в своих оценках. Если широкий – значит однородного мнения нет (как у цыплят).

Выбросы – это нетипичные наблюдения. Что именно считать нетипичным? Зависит от контекста, но можно прибегнуть к следующем расчетам:
Выбросы – это значения за пределами:
25% перцентили минус 1.5 х МКР
75% перцентили плюс 1.5 х МКР

21
Q

Аналитические ловушки

A

Ловушка #1 — Ошибка выжившего

Пример из бизнеса: вы опросили клиентскую базу и заметили, что среди клиентов никто не сидит в инстаграме. Вывод, что у вас «особенная» аудитория или что инстаграм непопулярен в целом — необоснован. Вероятно, вы не использовали этот канал привлечения клиентов, и инстаграм-аудитории негде было узнать о вашей компании.

Как избежать ловушки? Проверять, что объекты и в целевой, и в группе сравнения отобраны от общей базы.

Ловушка #2 — Ошибка корреляции
Correlation ≠ Causation.
Совместное изменение двух переменных в динамике не свидетельствует о наличии причинно-следственной связи между ними.

Классический пример: Факт того, что счастливые люди едят больше сладкого может свидетельствовать о следующем:

Потребление сахара приводит к счастью;
Пример из бизнеса: чем ближе летний сезон, тем больше компания тратит на ремаркетинг и тем больше у этой компании заказов.
Как избежать ловушки? Единственный способ установить причинно-следственную связь между двумя переменными — провести управляемый эксперимент (AB-тест). О нём ниже.

Ловушка #3 — Мультиколлинеарность
Это частный случай ошибки корреляции, которая объясняется наличием третьей переменной, которая связана с обоими изучаемыми признаками.

Классический пример: чем больше в городе церквей, тем больше преступлений. Значит ли это, что церкви порождают преступления (или наоборот?) — НЕТ!

Это странное поведение пары признаков объясняется третьей переменной — размером города. Чем он больше, тем больше в нём будет и церквей и преступлений.

Пример из бизнеса: было замечено, что те, кто оставляет гневные отзывы в приложении, имеют гораздо больший LTV по сравнению с остальными. Начали рождаться гипотезы о том, что это клиенты, которые эмоционально вовлечены в продукт… Или же те, кому важен продукт, будут его критиковать, потому что часто пользуются и искренне хотят, чтобы сервис изменился… Истинное объяснение оказалось, как с размером города: чем дольше клиент «живёт» с компанией, тем больше вероятность, что рано или поздно он оставит гневный отзыв.

Как избежать ловушки? Элиминированием ;)
По простому — нужно зафиксировать фактор времени константой для обоих групп. Для этого сравним LTV клиентов, которые оставляли отзыв за первые 7 дней с теми, кто не оставлял отзыв, но точно пользовался продуктом первые 7 дней.

Управляемые эксперименты (АБ-тесты) — это универсальный способ установить истинную причинно-следственную связь.
АБ-тесты помогают проверять гипотезы и предположения о потенциальных улучшениях, но по ходу их проведения тоже кроется множество ловушек.

Ловушка #4 — Неоднородные группы
При проектировании экспериментов использовать случайное перемешивание и квоты, общие для контрольной и тестовой групп. Проверять, что тестовая и контрольная группа имеют однородный состав. Если тестовая группа изначально наполнена так, что содержит более благоприятную аудиторию, то метрики по ней будут выше, но не из-за влияния изучаемого фактора, а из-за преимущества контрольной группы по своему составу.

Классический пример: исследователи полагают, что новые бутсы Nice помогут футболистам лучше играть. Для этого тестовой группе, сборной Англии по футболу, выдали новые бутсы Nice, а контрольная группа — сборная Восточного Тимора играла в привычной обуви. Англия победила, но это не значит, что ей помогли бутсы.

Пример из бизнеса: сервис по доставке еды решил проверить, как неожиданные сюрпризы на 8 марта повлияют на LTV клиенток. Логичным контрольным сегментом могут показаться мужчины (так как они не получают сюрпризы на 8 марта).. Но сравнивать LTV между такими группами будет ошибкой. Мужчины в среднем больше едят и богаче (временно, несправедливо, но факт), а значит и заказывают больше еды и имеют больший LTV.

Как избежать ловушки? При проектировании экспериментов использовать случайное перемешивание и квоты, общие для контрольной и тестовой групп. Проверять, что тестовая и контрольная группа имеют однородный состав.

Ловушка #5 — Малые выборки
В выборочных исследованиях (когда по части объектов судим о всей совокупности) часто обнаруживается сегмент, в котором метрика выше или ниже, чем в среднем. Может возникнуть соблазн делать далеко идущие выводы, но такие выводы будут ошибочными без расчета доверительного интервала.

Помните: если средняя доля признака по выборке из 200 человек равна 10%, то истинная доля этого признака, в генеральной совокупности с вероятностью 95%, лежит в диапазоне 6-14%. Чем меньше выборка, тем шире этот диапазон.
График важности характеристик по методу Кано
Классический пример: у вас есть две монетки идеальной формы: зелёная и синяя. Зеленую вы подбросили десять раз, а синюю тысячу. У зелёной решка выпала в 30% случаев, а у синей 49.4% случаев. Значит ли, что цвет влияет на частоту выпадения решки?

Пример из бизнеса: при очередном замере метрик здоровья бренда засекли рост спонтанного знания среди старшей аудитории, отпраздновали на корпоративе и выписали премию коллегам, которые сотрудничают с газетами. На следующем замере метрика среди старшей аудитории отскочила к стандартным значениям, хотя на газеты потратили ещё больший бюджет.

Как избежать ловушки? Всегда смотреть на среднее по выборке с оглядкой на доверительный интервал.

Ловушка #6 — Ошибка подглядывания
Если постоянно подглядывать на промежуточные результаты эксперимента, то однажды мы получим желаемые результаты и соблазн остановить эксперимент в этот момент будет слишком велик.

Классический пример: вспомним идеальные монетки, которые мы подбрасывали в примере из прошлой ловушки. К вам в компанию пришёл новый продукт-менеджер и сказал, что знает способ, как добиться 100% конверсии в выпадение решки: для этого нужно покрасить монетку в красный свет. Вы предложили проверить эту гипотезу при помощи эксперимента на что ваш новый коллега согласился, но остановил эксперимент, как только решка выпала два раза подряд и предъявил это, как доказательство успеха его идеи.

Пример из бизнеса: вы запустили АБ-тест и вам так интересно, что заходите проверять результаты каждый день. Уже три дня подряд показатели тестовой группы были лучше, чем у контрольной, поэтому вы решили досрочно закрыть эксперимент, признав его успешным.

22
Q

Статистическая мощность

A

Авторы многих учебников обычно придерживаются такой точки зрения, что Ошибка I рода должна принимать значение .05 или ниже, тогда как Ошибка II рода должна быть столь малой, насколько это возможно при фиксированном уровне ошибки 1 рода. “Статистическая мощность”, которая равна 1 - , соответственно, должна быть максимально высокой. Идеальный вариант, когда мощность равна, по крайней мере, .80, чтобы обнаружить разумные уклонения от нулевой гипотезы.

23
Q

MDE — минимальный детектируемый эффект.

A

Размер, который должен иметь истинный эффект от тритмента, чтобы эксперимент его обнаружил с заданной долей уверенности (мощностью). Чем меньше MDE, тем лучше.

24
Q

Алгоритм проверки статистических критериев

A

Создаём как можно больше датасетов, поделённых на контроль и тест, без какого-либо различия между ними (обычный А/А-тест).

Прогоняем на них придуманный критерий.

Если мы хотим, чтобы ошибка первого рода была 5%, то критерий должен ошибиться на этих примерах лишь в 5% случаев. То есть 0 не попал в доверительный интервал.

Если критерий ошибся в 5% случаев, значит он корректный. Если ошибок статистически значимо больше или меньше 5%, то для нас плохие новости: критерий некорректен.

Если он ошибся меньше, чем в 5% случаев, это не так страшно. Это только означает, что критерий вероятней всего не очень точный, и в большем проценте случаев мы не задетектируем эффект. Использовать такой критерий на практике можно, но, вероятно, он будет проигрывать по мощности своим конкурентам.

Но если критерий ошибся больше, чем в 5% случаев, это ALERT, плохо, страшно, ужасно. Таким критерием нельзя пользоваться! Это значит, что вы будете ошибаться больше, чем вы рассчитываете, и в большем проценте случаев раскатите тритменты, которые на самом деле не ведут к росту целевой метрики.

Резюмируя: мы генерируем большое количество А/А-тестов и на них прогоняем наш критерий. На всякий случай скажу, что A/A-тесты — это тесты без различий в двух группах, когда мы сравниваем контроль с контролем.

Как создать подходящие датасеты? Есть два способа решения проблемы:

Создать датасеты полностью на искусственных данных.

Создать датасеты, основываясь на исторических данных компании.

25
Q

Мода

A

значение измеряемого признака, которое встречается максимальное число раз

26
Q

CUPED (Controlled-experiment Using Pre-Experiment Data)

A

CUPED (Controlled-experiment Using Pre-Experiment Data) — очень популярный в последнее время метод уменьшения вариации. Основная идея метода такова: давайте вычтем что-то из теста и из контроля так, чтобы математическое ожидание разницы новых величин осталось таким же, как было, а дисперсия уменьшилась.

27
Q

Ошибка 1-ого рода при АБ тестировании.

A

Задектировали эффект, которого нет. Ложно положительный.

28
Q

Ошибка 2-ого рода при АБ тестировании.

A

Говорим, что эффекта нет, а он есть. Ложно отрицательная

29
Q

число необходимых бинарных наблюдений.

A

N - число необходимых бинарных наблюдений.
Бинарное, значит распределение Бернулли,
его дисперсия равняется p*(p-1),
alpha - доверительный интервал,
MDE - minimal detectibal effect (минимальный детектируемый эффект)
N = p * (p - 1)) * alpha ^ 2 / MDE ^2

если коныерсия 0.1, значит дисперсия 0.1 * (1 - 0.1)
нормальное распределение, в диапазоне 1.96 std находится 95% наблюдений