Что такое A/B-тестирование и как его правильно проводить

A/B тестирование — это методология сравнения двух версий чего-либо по определенным показателям с целью определить, какая из них окажется эффективнее. В ходе данного эксперимента реальным пользователям случайным образом показываются один из 2 или более вариантов страницы без предупреждения. Применяя A/B тестирование, компании улучшают свои продукты, рекламные страницы и в целом изучают собственную аудиторию.

В этой статье разберем, как проводится исследование, какие распространенные ошибки при проведении А/Б тестирования бывают.

Основные этапы А/Б тестирования

Исследование имеет строгую методику проведения. Аналитики независимо от ниши, продукта и целевой аудитории проходят одни и те же этапы.

Планирование эксперимента

На первом этапе компания определяет, что она хочет получить в результате внесения изменений на сайте или в приложении (например, увеличить средний чек). Отталкиваясь от поставленной цели, маркетолог создает гипотезу. К примеру, средний чек вырастет, если на главной странице будет блок с ранее просмотренными товарами. После завершения начального этапа компании остается выбрать инструментарий и бюджет для проведения исследования.

Отметим, что гипотеза должна согласовываться с целью. Не стоит «сыпать» идеями, которые не имеют практической значимости для бизнеса. Все же даже простые А/Б тесты требуют временных и финансовых затрат.

Создание вариаций

Это сугубо технический этап, на котором ИТ-специалисты создают новую вариацию сайта или приложения с опорой на ТЗ, подготовленное аналитиком. К примеру, они создали вторую версию главной странице с истории просмотренных товаров. Теперь у бизнеса есть 2 варианта сайта.

После этого аналитик должен ответить на несколько вопросов:

Кто участвует в тестирование (новые или старые пользователи, покупатели из определенного региона и т.д.).
Как сегментировать аудиторию. Ее можно разделить по полу, возрасту, территориальной принадлежности, устройствам и другим параметрам.
Какой объем выборки и какая длительность тестирования.

На последний вопрос легко ответить с помощью онлайн-калькулятора Optimizely. С его помощью можно определить объем выборки с учетом коэффициента конверсии, размера эффекта и уровня доверия.

онлайн-калькулятора Optimizely

В нашем случае получилось, что каждая группа в рамках тестирования должна быть не менее 870 000 пользователей. От этого числа сразу можно определить приблизительную длительность эксперимента. К примеру, у нас есть 2 версии сайта, значит, общее количество пользователей составит 1 740 000. Средний трафик составляет 2000 человек в сутки, т.е. срок проведения теста — 870 дней.

Отметим, что это огромные значения. В среднем исследования проводятся 1–4 недели, а не годами.

Запуск теста и сбор данных

Есть 3 простых способа начать тестирование:

Встроенный инструментарий.
Вручную.
С помощью специальных сервисов.

Некоторые компании проводят А/Б, задействуя программистов, но это в 99% избыточно. Готовые no-code инструменты отлично подходят для любых видов тестов.

Подробнее разберем каждый вариант:

Встроенные инструменты. Их предлагают некоторые аналитические и рекламные системы (например, Яндекс.Директ). Их преимущество — простой запуск тестов. Система сама распределяет трафик и собирает данные. Однако обычно они имеют узкую функциональность. Яндекс.Директ используют в основном для проверки разных вариантов рекламных кампаний.
Вручную. Это универсальный, но трудозатратный подход. С помощью ручного теста можно исследовать любой объект. Минус такого варианта — необходимость вручную настраивать показ объектов.
Специализированные сервисы (Leadpages, Kameleoon, Optimizely Experiment, AB Tasty, Varioqub и др.). В интернете есть решения для проведения А/Б-тестов приложений, сайтов, электронных рассылок и других объектов. Преимущество — учет особенностей исследований конкретных объектов и адаптация инструментария под них.

Если вы пользуетесь встроенными или специализированными решениями, то со сбором данных обычно не возникают сложности. Сервисы автоматически фиксируют действия людей и отображают в удобных отчетах. В случае с ручным А/Б-тестом понадобятся инструменты аналитики (например, Яндекс.Метрики, Google Analytics).

Анализ результатов

На этом этапе аналитик изучает результаты каждого варианта и определяет, кто из них дал лучший результат. Для анализа используют различные инструменты. Они зависят от выбранной метрики:

CR или CTR — калькуляторы Mindbox или Evan Miller.
СРА — сервис «Яндекс Директа».
LTV — еще одно решение от Evan Miller.

Главное в ходе анализа учитывать статистическую значимость, т.е. надежность собранных данных. Существует риск, что результат получен не в результате изменений, а случайным образом. Статистическую значимость можно изучить вручную, используя хи-квадрат Пирсона или специальные сервисы.

Однако не всегда получается с первой попытки определить лидера. Иногда А/Б-теста оказывается, что существенной разницы между вариантами нет. В таком случае требуется новая гипотеза с другим объектом для проверки.

Принятие решений и внедрение изменений

Если статистические данные имеют высокий показатель значимости, то их используют для изменения анализируемого объекта и планирования будущих испытаний. Решение зависит от исхода теста:

Положительный (например, средний чек существенно вырос). В таком случае выбирают вариант с максимальными показателями.
Нейтральный (к примеру, результат чуть выше нуля). Если теоретически изменение несет пользу для покупателя, ее по возможности добавляют. Как минимум, хуже от нее не будет.
Негативный (средний чек снизился). А/Б-тест не всегда имеет положительный исход. Всегда есть риск потерять аудиторию после внесения изменений. К примеру, если сайт магазина начал загружаться на секунду дольше после обновления дизайна. Даже небольшая задержка может привести к падению ключевых бизнес-показателей на 10–15%.

Подготовка к А/Б тестированию

С технической точки зрения провести А/Б-тест несложно. Есть множество удобных инструментов для этого. В основном компании сталкиваются с трудностями на подготовительном этапе, от которого зависит успешность и достоверность всего исследования.

Разберем, как подбирать метрики формулировать гипотезу и выбирать элементы.

Определение целевых метрик и KPI

Чтобы адекватно оценить эффективность изменений, аналитики выбирают одну или несколько метрик. При этом они должны быть количественными, т.е. измеряться в цифрах. Это наиболее объективный подход, поскольку цифры можно проверить по методу статистического анализа.

Какие метрики чаще всего используют:

CTR.
CPA.
LTV.
ER.

Подготовка к АБ тестированию

Если вы планируете анализировать результаты по нескольким метрикам, то стоит выделить основную и дополнительные. Первая — это ключевой показатель эффективности (например, количество продаж), а вторые — группа параметров (количество кликов, время заказа и т.д.), которые имеют значение только в том случае, если ключевой достиг минимального порога.

Формулирование гипотезы

Гипотеза в A/B-тестировании — стержень всего исследования. Маркетолог или аналитик делает предположение, что изменение объекта даст определенный результат. Гипотезы обычно формулируют по стандартному шаблону:

«Замена (тестируемого элемента) с ___________ на ___________ приведет к увеличению/уменьшению (определяемого измерения) ___________, поскольку (обоснование гипотезы) ___________».

Также можно составить альтернативную гипотезу, когда сравнивают 2 варианта: «Форма Б работает лучше А на _____ процентов». К примеру, упрощенная онлайн форма для заказа получит на 4% больше конверсии в покупку, чем стандартная.

Выбор элементов для тестирования

Один из вариантов найти объект для исследований — это изучить сайт, приложение, рекламу и найти слабые места. Для этого пользуются:

Инструментами веб-аналитики, в частности тепловыми картами.
Данными из опросов и интервью.

Маркетолог собирает такие элементы и для каждого делает отдельную гипотезу. Что нужно изменить для повышения бизнес-показателей.

Для чистоты эксперимента рекомендуется выбирать не более одного объекта для исследования. Если одновременно тестировать группу из 2+ изменений, возникнет проблема с интерпретацией результатов. Аналитик не сможет точно сказать, что именно и как повлияло на поведение пользователя.

Назначение участников и длительность теста

В зависимости от особенностей изменяемого объекта в A/B-тестировании могут принять участие:

маркетологи,
аналитики,
продакт-менеджеры,
дизайнеры,
SEO-специалисты,
UX-исследователи.

Среднее время проведения тестов — 10–14 дней. За это время получится собрать достаточно данных. Однако при определении сроков важно учитывать, как быстро пользователи совершают целевое действие. К примеру, в среднем клиенты покупают не сразу, а через 10 дней. В таком случае испытание должно длиться не менее 2-3 недель.

Метрики и статистический анализ в А/Б тестировании

Основа А/Б-тестирования — цифры и статистический анализ. Используя их, маркетологи и аналитики определяют реальную эффективность изменений и новых подходов.

Основные метрики (конверсия, CTR, средний чек и т.д.)

Выбор метрик напрямую зависит от бизнес-цели. Если ключевая цель для компании — рост конверсии в покупателя, то основной метрикой станет количество выполненных действий. Как метрики используют:

Конверсия. Она показывает, как много пользователей переходят на следующий этап воронки продаж.
CTR. Это процентное соотношение просмотров и кликов, например, по рекламному объявлению.
Средний чек. Метрика отражает, сколько покупатели тратят в магазине.
Количество повторных заказов и т.д.

Доверительные интервалы и статистическая значимость

Доверительным интервал называют диапазон, который с определенным шансом содержит реальное значение конверсии. Общепринятый стандарт вероятности — 95%. Обычно аналитики считают тест завершенным, если реальное значение находится в интервале с вероятностью не менее 95%. Его рассчитывают по следующей формуле:

Формула доверительного интервала

В ней Т — конверсия, N — размер выборки.

Вместе с ней аналитики учитывают статистическую значимость, которая отражает достоверность полученных данных и позволяет проверить, есть ли ложные взаимосвязи в результатах. Ее считают по следующей формуле:

Формула статистической значимости

Чтобы после А/В-тестирования получить достоверный результат, рекомендуется расширять выборку. Чем больше людей в каждой группе, тем меньше шансов, что случайность окажет большое влияние.

К примеру, во время тестирования к компании могут обратиться люди с четким желанием купить товар здесь и сейчас. Для них не имеет значение дизайн корзины или кнопок. Покупатель просто оформляет заказ и все. Такие люди негативно влияют на чистоту эксперимента. Однако их вес окажется незначительным, если они составят не более 2-3% от общей выборки.

Примеры статистического анализа результатов

Сервисы, специализирующиеся на А/Б-тестированиях, предоставляют аналитикам достаточно информации для анализа. Google Optimize позволяет сравнить исходную статистику и результаты новых вариантов.

В первом исследовании компании сравнила 2 принципа работы рекомендательного сервиса. Он может предлагать похожие товары или сопутствующие.

Примеры статистического анализа результатов

В этом случае оказалось, что доход за сеанс на 50% выше, если магазин предлагает клиенту аналогичную продукцию. В 3 выборках было почти по 12 000 пользователей, так что такое исследование можно считать достоверным.

Во втором исследовании компания анализировала новые варианты дизайна. Она сделала 5 выборок:

Для оригинального дизайна.
Цены без нулей.
Красного ценника на превью.
Зеленого скидочного ценника.
Наибольшей цены.

Примеры статистического анализа результатов

Лучший результат показал ценник без нулей, а худший — красный.

Частые ошибки и заблуждения в А/Б тестировании

А/В-тестирование будет иметь нулевую ценность, если нарушить методику проведения или наивно анализировать результаты.

Недостаточное количество данных для анализа

А/В-тест должен быть настолько масштабным, насколько это возможно. Если проверять эффективность на выборках по 10 человек, то высока вероятность получить ложную статистику. Чем больше данных получит аналитик, тем достовернее станет исследование, а бизнес сделает верный выбор в пользу одного из тестируемых изменений.

Некорректное формулирование гипотезы

Распространенная проблема — попытка охватить все и сразу. Гипотеза должна содержать одно предположение с одним объектом.

Самообман при интерпретации результатов

В А/В-тестах, как и в аналитике в целом, есть риск столкнуться с ложной корреляцией, когда кажется, что связь есть, но ее на самом деле нет. К примеру, компания провела тестирование цветов для кнопки «Купить» во время «Черной пятницы». В таком случае все результаты будут лучше исходного, но не из-за цвета, а по причине крутых скидок.

Выводы

A/B-тестирование — распространенный метод исследования, когда компания сравнивает эффективность несколько вариантов одного объекта (например, дизайна кнопки). При этом аудиторию разделяют на выборки и каждой из них показывают уникальную вариацию. Благодаря сплит-исследования можно найти лучшие решения для увеличения бизнес-показателей.

Как провести А/Б тестирование

Основные этапы А/Б тестирования

Планирование эксперимента

Создание вариаций

Запуск теста и сбор данных

Анализ результатов

Принятие решений и внедрение изменений

Подготовка к А/Б тестированию

Определение целевых метрик и KPI

Формулирование гипотезы

Выбор элементов для тестирования

Назначение участников и длительность теста

Метрики и статистический анализ в А/Б тестировании

Основные метрики (конверсия, CTR, средний чек и т.д.)

Доверительные интервалы и статистическая значимость

Примеры статистического анализа результатов

Частые ошибки и заблуждения в А/Б тестировании

Недостаточное количество данных для анализа

Некорректное формулирование гипотезы

Самообман при интерпретации результатов

Выводы