7 сентября 2017

Сколько вариаций нужно проверить в A/B тестировании?

Как только вам покажется, что вы разобрались с сутью A/B тестирования, вы сразу рискуете наткнуться на стратегическое противоречие.

Итак, сколько же вариаций необходимо проверить в A/B тестировании?

Мнений на этот счет скопилось много, а некоторые из них и вовсе противоречат друг другу. Кто-то исходит из стратегии, другие обращаются к математике. Третье мнение будет основано на том, на какой стадии развития ваш бизнес и насколько хорошо продуман ваш план.

Важно не то, что именно вы будете тестировать, а то, что A/B тестирование не такое прямолинейное, как кажется. Начнем с простого — с математики.

Проблема множественных сравнений

Если проверять несколько вариаций одновременно, можно столкнуться с общей ошибкой первого рода.

По сути, чем больше вариантов вы проверяете, тем выше вероятность ошибочно отвергнутой гипотезы (false positives).

Иными словами, если для принятия решения  вы выбираете уровень значимости 95%, то существует вероятность 5% ошибки первого рода. Это значит, что в 5% всех случаев делается предположение о значимости эффекта, хотя в реальности его может и не быть вовсе.

Это один аргумент против эффективности тестирования 41 оттенка синего цвета для рекламы в Google (не уверен, что они вообще учитывали вероятность ошибки первого рода). Компания konversionsKRAFT проиллюстрировала эту зависимость на графике:

Вероятность общей ошибки первого рода можно вычислить по формуле:

1-(1-Аlpha)^k,

где:

alpha = выбранный уровень значимости, как правило 0,05

k = число вариаций в тесте (без контрольного испытания)

Исходя из этого, риск ошибки первого рода резко возрастает с каждой новой вариацией. Возникает очевидный вопрос: получается, достаточно проверить только одну вариацию? Все не так просто. Большинство инструментов A/B тестирования, например Optimizely, VWO, и Conductrics предлагают встроенную процедуру решения проблемы множественных сравнений. Методы могут быть разными, но все эти платформы решают одну и ту же задачу. Даже если в выбранном вами инструменте тестирования нет этой встроенной процедуры, ошибку первого ряда всегда можно исправить самостоятельно. Для этого существует множество методов. Ниже я приведу некоторые, однако я не большой эксперт в различиях между ними — здесь лучше меня разберется любой специалист по статистике:

  • Критерий Фишера
  • Поправка Бонферрони
  • Ожидаемая доля ложных отклонений гипотез
  • Поправка Шидака

Понижая риск ошибки первого рода, вы повышаете риск ошибки второго рода (принятии ложной гипотезы). Вдобавок, Эндрю Гельман провел исследование, где показал, что от проблемы множественных сравнений можно избавиться, если взглянуть на нее через призму иерархического байесовского метода.

Главный специалист по обработке и анализу данных в Dynamic Yield Айдан Микаэли также отметил, что байесовский подход помогает решить проблему.

Айдан Микаэли:

«Проблема множественных сравнений — действительно серьезная задача при проверке вариаций в A/B тестировании и/или задачах ключевых показателях эффективности. Однако в большинстве случаев это скорее минус подхода в A/B тестировании, который называется «проверка гипотез». Один из вариантов решения проблемы — обратиться к байесовскому методу, описанному в моей последней статье на эту тему».

Исполнительный директор Conductricts Мэтт Гершофф уверяет, что, исходя из этого, есть высокая априорная вероятность, что вариации, по сути, одинаковы — результатом, так или иначе, будет частичное объединение данных. Об этом Мэтт написал исчерпывающий пост.

Если вас все еще смущают математические импликации в сравнении средних значений, запомните, что это то же самое, что и сегментация по окончании тестирования. Крис Стуккьо из VWO объяснил это в своей статье:

«У вас есть мобильная версия и десктопная, 50 стран, примерно 20 значимых источников реферрального трафика (поиск Google, партнерские ссылки и т.д.). Всего получается 2 х 50 х 20 = 2000 сегментов. Предположим, что каждый сегмент идентичен каждому другому сегменту. Если сегментировать данные, получится 0,05 х 2000 = 100 статистически значимых результатов чисто случайно. Так совпало, что пользователи Android из Кентукки, перенаправленные Google, пользователи iPhone, перенаправленные Direct, и пользователи, зашедшие через ПК в Нью-Джерси выбрали редизайн. Удивительно!»

В заключение, математика — не проблема, если вы работаете с подходящим инструментом или вы наняли профессиональных аналитиков. Математика сложная, но не опасная и реальная. Мэтт Гершофф говорит, что «главное — не зацикливаться на каком-то подходе или поправке, важнее получить результат».

Благодарю Мэтта за помощь с математическими данными.

Отойдя от математической парадигмы, остается стратегическое решение. В каком моменте начинается прибыль от вложенных инвестиций, необходима проверка всевозможных гипотез или их ограничение; как понять, что нужно быстрее переходить к следующему тестированию?

Что если увеличить число вариаций?

Google тестировал 41 оттенок синего. У такого метода принятия решений есть как сторонники, так и ненавистники.

На большинстве сайтов такого трафика как на Google нет, но суть такова: это принятие решений на основе данных, вне зависимости от мнений или стиля.

Учитывая реальный трафик (у вас просто не получится тестировать так же, как Google), подходит ли вам тестирование многих вариаций одновременно? Некоторые эксперты говорят, что да.

Директор отдела оптимизации Revover Brands Эндрю Андерсон описал свою методологию, основанную на дисциплине:

«Чем меньше опций, тем меньше ценность теста. Любая опция с менее четырех вариаций не подходит, потому что шансы новых открытий, успеха и масштаба результата ограничены. Я отдам предпочтение тестированию с 10 опциями, а не с 5, даже если мне кажется, что изменение в случае с 5 опциями будет, вероятно, более значительным. Самое главное — диапазон и число опций».

Эти правила не специфические, когда речь идет о тестировании. Поэтому я предлагаю следовать этому курсу оптимизации сайтов с как минимум 500 конверсиями в месяц или 1000 для более точного и значимого результата. Вне зависимости от того максимума, которые вам повзоляют ресурсы, концепции и трафик, это и есть цель. Именно поэтому Марисса Майер и Googlе тестировали 410 оттенков синего — просто потому, что могли.

Этот подход очень контрастен тому, что обычно советуют многие эксперты. Они не только советуют тестировать только один элемент (что плохо), но, к тому же, большинство экспертов считают, что нужно придерживаться простого A vs B тестирования.

Понятно, почему я обратился к Эндрю с просьбой пояснить свой подход. В конце концов, кажется, что он больше подходит большим компаниям — Microsoft, Amazon и Google. А как обстоят дела с компаниями с меньшим трафиком? Можно ли в их случае применить этот подход?

Эндрю Андерсон:

«Я исхожу из того, сколько позволит трафик и ресуры. С помощью первых нескольких тестов (variance study тоже подходит) я узнаю многое о сайте. Ключ в том, что, чем больше изменение, тем больше вероятность, что я смогу провести тест (или хотя бы, что с рисками будет проще работать).

В одном тестировании я обычно использую 14-15 вариаций. Чтобы выявить идеальный вариант, я прибегаю к математическому методу fragility modeling. Даже на сайтах с самым высоким трафиком (я работал с 16 из топ 200 сайтов) золотая середина колеблется обычно в диапазоне 12-16. Я никогда не тестирую меньше 4 опций. Я всегда при этом помню, что ошибка второго рода всегда важнее числа опций.

Поэтому я заставляю команду думать с точки зрения концепции и исполнения концепции, чтобы не слишком сильно сужать фокус.

С нынешним набором аналитических инструментов у нас много сайтов, поэтому мы их группируем по числу интерфейсов, которые можно тестировать. Для самых крупных наших сайтов, которые находятся в низком диапазоне, мы пробуем 7-8 альтернатив.

Сайты, с которыми невозможно работать ниже этих показателей, мы не берем в вооружение и ищем другие способы их оптимизации».

Так в чем же суть? В эффективности. Вы тестируете много вариаций, ограничиваете мнения, которые препятствуют тестированию программы. По моему мнению, это похоже на то, как The Onion заставляет штамповать своих авторов по 20 заголовков для статьи. Первые несколько даются легко, но вот последние 5 приходится напрягаться и отбросить предположения. Тестируйте много ерунды и тогда можно прийти к решению, к которому не пришли бы иначе.

Эндрю — не единственный сторонник тестирования большого числа вариаций. Айдан Микаэли из Dynamic Yield уверен, что сложно ставить лимиты количеству вариаций. Он также упомянул, что разница между вариациями — очень важный важный фактор, и не важно, сколько вариаций вы будете тестировать.

«Чем больше внешняя разница вариаций, тем быстрее вы сможете обнаружить разницу в поведении статистически значимым способом»

— говорит Айдан Микаэли.

И все же чаще количество вариаций зависит от ситуации. Индивидуальные факторы имеют большее значение, чем жестко зафиксированный набор.

Что если уменьшить число вариаций?

Многие эксперты склоняются к тестированию малого числа вариаций — кто-то исходя из математических доказательств, приведенные выше в статье, другие используют это как средство оптимизации стратегии. Один момент: с поправками ошибок первого рода тестировать большое количество вариаций почти всегда дольше. Можно работать строго в рамках итеративного подхода, где вы будете изучат поведение пользователя очень пристально и тестировать одновременно одну или пару вариаций. Возможно, ваша компания давно не проводила тестирования, а вы хотите продемонстрировать быстрые успехи, не вникая в тонкости ANOVA или увеличение вероятности ошибок первого рода.

Можно провести тестирование добавив предложение ценности (value proposition, VP) в противовес отсутствию VP или существующему VP. Вы получите быстрый успешный результат и сможете тестировать дальше, чтобы повысить скорость тестирования и эффективность и поддержку программы.

Конечно, существуют и другие причины, по которым тестировщики выбирают стратегию понижения числа вариаций.

Ошибки выборки

Когда выборка неправильно распределяется случайным образом или пользователи видят несколько вариаций в тестировании, возникает ошибка выборки.

Основатель Online Dialogue Тон Весселинг комментирует этот феномен:

«К тому времени, когда пользователи возвращаются к эксперименту, они уже могли удалить cookies, а некоторые чаще всего используют другое устройство.

Когда в тестировании одна вариация, есть 50% вероятность, что они придут к этой же вариации, если вернутся к эксперименту. Если есть три вариации, то вероятность падает до 25%. Чем больше вариаций, тем меньше чистота эксперимента.

Из-за этого создается эффект того, что коэффициенты конверсии для каждой вариации сближаются друг с другом (а если эскперимент долгий, то они становятся практически идентичными, и для всех вариаций коэффициент конверсии одинаковый)».

Больше об ошибках выборки в A/B тестировании читайте в статье.

Трафик и время

Необходимо также учитывать трафик и время. Сколько времени занимает создать 10 существенно различных вариаций? С каким трафиком придется иметь дело и как долго вы будете проводить достоверное тестирование?

Тон Весселинг:

«Ответ прост: одна вариация, потому что на большинстве сайтов не так уж много пользователей и конверсий для тестирования множественных вариаций. Поэтому стоит начать с одной вариации, ибо экспериментирование — это про динамичный характер обучения. Не проводите тестирования, которые займут столько времени, что все про них забудут. Даже если вы можете идентифицировать пользователей по их персональным данным.

Нечистая выборка значит, что, чем больше вариаций, тем больше посетителей и конверсий нужно для выявления успешной вариации.

Но, как я сказал, не стоит растягивать тестирование надолго — это повлечет за собой погрешности в эксперименте и его диапазоне (experimentation bandwidth).

Учитывая ограниченность времени, необходимо создать вариации со значительными изменениями (потенциально большее воздействие и результат), что требует много времени и ресурсов. Поэтому есть смысл проверять вариацию с одним значительным изменением.

Несомненно, хочется воспользоваться всем диапазоном эксперимента и проводить как можно больше тестирований. Лучше провести 10 A/B тестирований на разных позициях вашего сайта, чем одно большое тестирвание на одной позиции — так вы соберете больше статистики поведения».

Тон также говорит, что проверять одну вариацию против контрольной — хороший способ изучить мотивации пользователей и понять что работает, а что нет, и затем использовать это с другими средствами, например, с «многоруким бандитом»:

«Если мы точно знаем, как и где замотивировать пользователей, мы часто выбираем Exploitation (?) и провродим «многорукого бандита» с различными вариациями, основанными на определенном знании (очень поможет сегментированный и/или контекстуальный трафик). Это уже вопрос денег, а не обучения, но мы хорошо работает в фазе Exploitation, потому что изучали этот подход».

А где же золотая середина?

Я спросил доктора Джулию Энгельман, главу отдела данных и аналитики в Web Arts/konversionsKRAFT, как они решают, сколько вариаций тестировать. Энгельман заявила, что универсального ответа дать нельзя.

«Одного общего ответа на этот вопрос нет. Определенный набор настроек тестирования зависит от количества факторов (см. ниже). Из своего личного опыта я поняла, что тестировать больше пяти вариаций (включая контрольную) одновременно бесполезно. Айдан Микаэли также считает, что тестирование зависит от разнообразия факторов и единого идеального решения нет.

Айдан Микаэли:

«Все сводится к тому, насколько вы смелый тестировщик и как быстро вы хотите получить результат. Ваши ресурсы — это трафик и ваша креативность. Их нужно использовать грамотно. При дилемме explore-exploit следует соблюдать баланс между желанием использовать ваши знания и предлагать пользователям лучший вариант и тем, чтобы предлагать рискованное решение с частичной оптимизацией. Таким образом, есть вероятность, что вы найдете даже лучшее решение.

Идеального варианта здесь нет. Создайте разнообразный набор вариаций и не бойтесь протестировать их в кратчайшие сроки, чтобы улучшить работу в долгосрочной перспективе. Не создавайте новую вариацию просто ради того, чтобы тестировать больше. Делайте это, только если знаете, что эта вариация — лучшее из всего, что вы пробовали».

И все же, учитывая, что нет одного универсального ответа, как вы выбираете, сколько вариаций необходимо проверить? А если вы сторонник большого числа вариаций, сколько для вас оптимально?».

Факторы, определяющие количество вариаций

Советовать читателям этой статьи тестировать 41 оттенок цвета или, наоборот, выбрать одну единственную вариацию, было бы неправильно. У каждого сайта своя аудитория, конверсии, прибыль, трафик и т. д., так же, как и у каждой компании своя структура, политика и рабочие процессы. Здесь нужен дифферинцированный подход.

Есть несколько факторов, которые помогут вам выбрать наиболее точный и правильный подход.

Тон Весселинг исходит из факторов, обычно учитывающихся при выборе дизайна для эксперимента.

Тон Весселинг:

«Эти факторы — пользователи/конверсия и диапазон эксперимента, подавляющее большинство и ресурсы. Но скорее даже важно, сколько экспериментов вы проведете в один временной промежуток. Потому что к одной вариации применимы все эти факторы :)»

Доктор Джулия Энгельман приводит критерии с точки зрения статистики:

«Трафик. Если трафик низкий, то лучше тестировать меньше вариаций, но они должны максимально различаться.
Различия вариаций. Чем больше различия в вариации и исходном лендинге, тем больше вероятность, что эти различия помогут провести эффективное тестирование.
Расчетное время тестирования должно быть оптимальным и соответствовать целям бизнеса.
Приемлемый коэффициент погрешности. Каков максимальный уровень риска, на который вы готовы пойти? Чем выше число вариаций, тем выше коэффициент погрешности. Если вы тестируете масштабную гипотезу, которая может сильно повлиять на ваш бизнес, но также требует много ресурсов, нужно быть уверенным в результате тестирования. Поэтому необходима высокая доверительная вероятность и, желательно, меньше вариаций».

Эндрю Андерсон выше в статье говорил, что нужно тестировать fragility models, чтобы найти золотую середину. По его словам, «даже на сайтах с самым высоким трафиком (на сайтах с самым высоким трафиком (я работал с 16 из топ 200 сайтов) золотая середина колеблется обычно в диапазоне 12-16».

Говоря о возможностях и элементах влияния, Эндрю упоминает, что у него есть целый ряд различных типов тестов, призванных приумножить опыт и знания — MVTs, тестирование существования, and персонализация.

Когда Андерсон фокусируется на областях влияния, он увеличивает вероятность ошибки второго рода и для каждого решения тестирует противоположное ему по смыслу (об этом он напишет с следующей статье).

Относитесь к своим ресурсам внимательно

Помимо трафика, вы должны отвечать за ваши индивидуальные ресурсы и эффективность организации. Сколько времени займет у вашей команды дизайнеров и разработчиков внести масштабные изменения по сравнению с пошаговым тестированием (как 41 оттенок синего)? На первое уйдет очень много времени, тогда как на второе — почти ничего.

Тон советует:

«Не морочайтесь с цветом кнопки, важнее узнать, что определяет поведение пользователей и что их мотивирует сделать следующий шаг. Тем более, ресурсы по разработке пользовательских интерфейсов, например, testing.agency, реализуют смелые эксперименты и не берут за это непомерные деньги».

В целом, такие маленькие изменения как цвет кнопки занимают ноль ресурсов, поэтому тестировать вариации с ними легче. В то же время, из-за незначительных изменений, почти не влияющих на поведение пользователя, эффект от них тоже будет совсем малым.

С другой стороны, радикальные изменения требуют много ресурсов, и эффект получится, соответственно, больше. А когда вы противопоставляете друг другу эти изменения, вероятность нахождения оптимального варианта возрастает.

Эндрю Андерсон хорошо объяснил это в статье для ConversionXL:

«Если у меня есть 5 долларов и я могу получить 10 — это здорово, но, если я могу получить 50, 100 или 1000, тогда мне нужно понять как. Единственный вариант — тестировать и пробовать возможные альтернативы».

Заключение

Если у вас нет времени все это читать, резюмирую: одного универсального ответа на вопрос заголовка нет. У меня нет любимого метода, я всегда за те варианты, которые приносят лучший результат. Он зависит от трафика, конверсии, аудитории, корпоративной культуры и процесса работы. Тем не менее, математика — не ограничивающий фактор в целом. Более того, выбор стоит делать исходя из приведенных выше факторов. Ради тестирования большего количества вариаций нужно убирать пределы идей, потому что вы всегда думаете, что сработает, а что — нет. Если различия между вариациями большие, то шансы на победу велики. Ограничивая вариации, вы «загрязняете» выборку, трафик и затраты на время и ресурсы.

Наконец, одна компания может проводить оба вида тестов. Это стратегическое решение, и за вас я решить ничего не могу.

Дальше — большe

Идеи, которые нас вдохновляют, видео-интервью и переводы исследований, которые были нам полезны в процессе работы.

11 октября 2017

Доступность — золотое дно для бизнеса

11 августа 2015

«Счастливый пользователь — это, конечно, круто, но к счастью должна прилагаться взаимная выгода»

17 марта 2016

Как создать сервис для онлайн-мероприятий, которым легко может воспользоваться каждый: редизайн Webinar.ru

28 августа 2017

Смерть от гамбургера

21 сентября 2016

Сможет ли искусственный интеллект решать сложные творческие задачи?

15 сентября 2017

Как Netflix использует аналитику для подбора фильмов, создания контента и принятия многомиллионных решений