Как мы проводим A/B-тесты креативов в рекламе с помощью байесовского подхода

Всем привет! На связи трафик-менеджер Garage Eight Надежда Дулинец. В статье расскажу о флоу АБ тестирования рекламных креативов, который мы внедрили в 2023. Объясню, как выбрать и приоритизировать гипотезы, анализировать результаты и заводить A/B-тесты. Отдельное внимание уделю байесовскому подходу.

Особенности A/B-тестов в трафике

Рекламные кампании для продвижения приложений занимают особое место в структуре нашего маркетинга. Креативы в таких кампаниях очень важны. Под креативами в этой статье будем понимать любой визуал, который можно загрузить в рекламный кабинет — видео, статика, инфлюенс-нарезки и т.д. Креативов должно быть много, потому что их нужно регулярно обновлять. А чтобы увидеть желаемые результаты и выбрать лучшие, приходится их постоянно тестировать.

В интернете много материалов на тему A/B-тестов, есть даже готовые флоу. Однако флоу тестирования UX в приложении или цепочки CRM-коммуникаций не подходит для тестов в платных каналах. Здесь есть особенности, которые нужно учитывать:

A/B-тесты в трафике платные. Каждый день A/B-теста равен определенному рекламному бюджету. Чем дольше длится A/B-тест, тем больше денег мы потратим.
Выборку трудно спрогнозировать. CPM, IPM и другие метрики зависят от многих факторов: сезонности, аукциона, типа креативов (видео/статика) и т.д.
Быстрое выгорание креативов. Конечно, есть «топ-перформеры», которые живут 6–12 месяцев. Однако большинство креативов работают успешно 1–3 месяца. В таких условиях невыгодно проводить A/B-тесты длительностью в месяц, ведь победитель A/B-теста может очень быстро выгореть.

Учитывая эти особенности, при разработке флоу мы поставили перед собой конкретную задачу: сократить длительность проведения A/B-тестов и, как следствие, снизить расход рекламного бюджета.

A/B-тесты и тесты новых концепций

В нашей компании мы используем 2 типа тестирования креативов в трафике:

Тесты новых концепций, когда креативы значительно отличаются друг от друга, например, фоном, музыкой, героями, сюжетом и т.д. То есть это совершенно разные креативы, которые некорректно сравнивать между собой путем A/B-тестирования. Например, сравнить видеоинтервью с клиентами против статики с предложением 50% скидки не получится. В таких случаях мы добавляем новые концепции в ротацию в текущие кампании или группы объявлений и смотрим, как они отрабатывают по сравнению с активными креативами. Анализируем метрики CPM, IPM, CTR, CVR, чтобы понять, насколько они выше или ниже среднего. Смотрим, как сама система масштабирует креатив: какой процент рекламного бюджета она распределяет на новую концепцию.
A/B-тесты, когда мы изменяем один элемент в рамках одной концепции. Например, креатив с красной кнопкой против креатива с зеленой кнопкой. В таких случаях мы запускаем АБ тест со сплитом аудиторий.

В статье мы не будем затрагивать тесты новых концепций, а подробно расскажем про второй тип — A/B-тесты.

Подходы к A/B-тестированию

Без углубления в технические детали кратко рассмотрим подходы к A/B-тестированию: классический и байесовский.

При классическом подходе к A/B-тестированию мы отвечаем на вопрос «Какой вариант лучше?» Требования к выборке строгие: ее необходимо заранее рассчитать и набрать для достижения статзначимости. Ключевые метрики — статзначимость и p-value.

Пример анализа результатов с помощью классического подхода. Возможны следующие результаты: вариант А лучше варианта B, вариант B лучше варианта А, варианты А и B значимо не различаются.

При байесовском подходе к A/B-тестированию мы отвечаем на вопрос «С какой вероятностью креатив лучший?» Требования к выборке не такие строгие: решение можно принять на основе меньшей выборки, что положительно сказывается на длительности A/B-тестов и рекламных бюджетах. Ключевая метрика здесь — P2BB (Probability to be the best или Вероятность того, что вариант лучший). В результате анализа мы получаем распределение вероятностей.

Пример анализа результатов с помощью байесовского подхода. Вариант А лучший с вероятностью 77.05% (то есть метрика P2BB для данной вариации равна 77.05%), вариант B — с вероятностью 19.86%, вариант С — 3.08%.

Метрики для A/B-теста

По итогам A/B-теста мы анализируем все метрики по воронке, так как в трафике важно оценить воронку комплексно. То есть P2BB мы считаем для всех метрик по воронке.

Однако в спорных ситуациях, когда один креатив по одной метрике победил, а по другой проиграл, финальное решение принимаем по конечной метрике — CVR в регистрацию.

Так как бенчмарков по P2BB на рынке не было, мы посовещались с нашими аналитиками и установили свой порог — P2BB не ниже 75%. То есть, если по какой-то метрике у креатива P2BB выше 75%, мы считаем его победителем по этой метрике.

Следующий шаг — понять, как именно нужно изменить ту или иную метрику. Для этого мы построили «симулятор» изменений метрик по воронке. Из рекламных кабинетов выгрузили актуальные метрики по кампаниям и посчитали, как изменится ключевая метрика при изменении CTR на 3, 5, 8, 10, 15, 20%. Аналогичные расчеты сделали для всех важных для нас метрик.

Цели этапа:

Посмотреть, как даже небольшое изменение одной метрики может повлиять на конверсии и финальный СРА.
Определить минимальный процент изменений метрики, к которому вы будете стремиться в A/B-тестах.
Использовать полученную информацию для генерации более качественных гипотез.

Упрощенный пример «симулятора»: как изменится CPA при изменении CTR

Приоритизация гипотез

Для генерации гипотез мы используем:

Анализ статистики по текущим кампаниям: что работает хорошо, а что плохо
Анализ креативов конкурентов
Внутренние исследования, опросы и интервью
Анализ поведения пользователей в продукте
Внешние исследования в открытом доступе, бенчмарки
Совместные брейнштормы с дизайнерами, копирайтерами, аналитиками, трафиками.

Для приоритизации гипотез мы адаптировали методологию RICE под платные каналы. По пяти пунктам ставим баллы от 0 до 2, суммируем их и получаем финальный рейтинг.

Охват — насколько гипотеза масштабируема. Смотрим, подходит ли она для креативов по всей воронке или только для узкого сегмента аудитории.
Уверенность — источник гипотезы. Определяем, создана ли гипотеза на основе исследований и бенчмарков или на основе собственного любопытства.
Усилия — время дизайнера. Узнаем, нужны ли минимальные корректировки текущих креативов или более сложные изменения (3D, видеосток, своя съемка).
Видны ли изменения в первые пять секунд. Так как многие пользователи недосматривают даже короткие видео до конца, важно тестировать изменения, которые заметны в 1–5 секунды ролика.
Необходимость в креативе. Помимо A/B-тестов важно не забывать про текущие активные кампании и подстраивать гипотезы под них. Например, если в текущих кампаниях выгорела вся статика, в следующей итерации желательно выбрать гипотезу, подходящую статике.

*RICE: охват (reach), влияние (impact), уверенность (confidence), усилия (effort)

❌ Пример плохой гипотезы: у варианта А и B сразу несколько изменений, они незаметны. Скорее всего, пользователи будут реагировать одинаково на оба варианта, мы получим одинаковые метрики и сольем бюджет.

✅ Хороший пример гипотезы: изменение одно, оно заметно (пустой фон против ярких элементов на фоне). Вероятность видимых различий в метриках выше.

Итоговый флоу запуска A/B-тестов

Как запустить A/B-тест за семь шагов:

Генерируем и приоритезируем гипотезу по методологии RICE.
Запускаем A/B-тест на рекламной платформе, где есть инструмент тестирования. Можно выбрать любую платформу. Важное условие: на ней должна быть возможность разделить аудитории на несколько равных частей, а также поставить одинаковый бюджет на каждую вариацию.
Выбираем аудиторию, близкую к аудитории в активных кампаниях, чтобы потом корректно экстраполировать результаты A/B-теста на текущие кампании. Например, если вы работаете с мужчинами, а A/B-тест креатива запускаете на женщин, результаты АБ теста нельзя будет 100% экстраполировать на активные кампании, ведь аудитории сильно отличаются.
Учитываем сезонность. В нашем продукте есть сезонность по дням недели: будние дни представляют наибольший интерес, а в выходные активность пользователей падает. Поэтому большинство A/B-тестов мы можем проводить по 4–5 дней: с понедельника по четверг или пятницу.
После завершения теста не ограничиваемся результатами, которые выдает рекламный кабинет. Выгружаем все метрики в таблицу, для каждой считаем статзначимость и P2BB по воронке.
Для поиска дополнительных инсайтов смотрим разбивки по сегментам: полу, возрасту, регионам, устройствам и местам размещения.
Делаем вывод по A/B-тесту. Начинаем заново.

Пример анализа результата

Посмотрим на реальном примере, как использовать байесовский подход.

Вводные данные: В A/B-тесте участвовали 2 креатива: А и B. По всем исследуемым метрикам (CTR, IPM, CVR) креатив А лучше креатива B.

Классический подход. Считаем статзначимость по всем метрикам. Статзначимость выше порогового значения (>%95) только у двух метрик из трех — CTR, IPM. У метрики CVR статзначимость = 58.02%.

Байесовский подход. Считаем P2BB для всех трех метрик. Видим, что данных для принятия решения достаточно: P2BB выше порогового значения (>75%). Делаем вывод, что по всем трем метрикам — CTR, IPM, CVR — победил креатив А.

Итого: Вариант А победил по метрикам CTR, IPM (статзначимость > 95%) и по метрике CVR (P2BB > 75%).

Выводы: Если бы мы использовали только классический подход, то не смогли бы сделать выводы по тесту, так как данных недостаточно. Нужно либо продлевать тест и тратить дополнительные рекламные бюджеты, либо смотреть только на 2 метрики из 3. Благодаря байесовскому подходу мы можем сделать вывод по всем трем метрикам за тот же бюджет и те же сроки.

Подводим итоги

Байесовский подход позволяет принять решение на основе меньшей выборки и сократить время A/B-теста. Задача, которую мы поставили в начале, была достигнута: за 2023 год мы провели более 150 A/B-тестов, средняя длительность каждого из которых составила 4–5 дней.

Стоит упомянуть, что байесовский подход не лишен недостатков. Например, есть проблема подглядывания, влияние выбросов и т.д. Поэтому работать с ним нужно аккуратно. Однако особенности A/B-тестов в трафике, включая отдельные бюджеты на тесты креативов, флуктуацию выборки и выгорание креативов, влияют на наш выбор подхода. В нашем случае плюсы байесовского подхода перевешивают его минусы.

Полезные ссылки

ссылка на оригинал статьи https://habr.com/ru/articles/865360/