Как ускорить дискавери, тест гипотез на малых цифрах

от автора

Основатели стартапа и продакт-менеджеры принимают множество решений. И нужен инструмент, который позволит принимать их на основе данных, достоверно и, желательно, объективно. Для уже работающих продуктов, в которых есть много пользователей, таких инструментов много: A/B тесты, аналитика, когортный анализ и другие, которые подтверждены математической статистикой, и позволяют доказать результаты экспериментов.

Но возникают ситуации, когда данных мало. И не совсем понятно, как сделать выводы. Например:

  • В начале работы над новым продуктом или для гипотезы улучшения существующего продукта провели 10 клиентских интервью. В нескольких из них респонденты подтверждают определённый признак — наличие проблемы или «работы» в подходе JTBD. Как решить работаем ли мы с таким сегментом, если 3 из 10 подтверждают? А если 5 из 10? 9 из 10?

  • Строим маркетинговую воронку. В её начале мы работаем с большим объёмом данных: тысячи или десятки тысяч просмотров креативов, кликов и посетителей сайта. Но чем дальше по воронке, тем меньшие объёмы данных нам доступны. До последних страниц сайта дойдут сотни, а то и десятки. Целевое действие — например, бронь звонка со специалистом по продажам, — совершат и вовсе единицы. Во всех этих шагах есть своя конверсия, которую мы хотим растить. Как принять решение, если переходов с этапа на этап воронки мало, и нельзя сделать статистически значимый вывод?

  • Тестируем оффер или коммерческое предложение. Сделали 10 офферов, получили 2 продажи или переход клиента на следующий этап воронки. Для новых лидов мы будем пытаться повысить количество продаж: экспериментировать, менять оффер и принимать решение, какие изменения способны увеличить количество продаж. Как сделать вывод, хороший ли оффер, и какая будет конверсия на бóльшем объёме офферов?

Проблема усложняется тем, что нам важна скорость принятия решения. В любом новом продукте, будь то стартап или внутрикорпоративный продукт, ресурсы ограничены. Нужно как можно быстрее показать результат, и у команды просто нет времени ждать, пока «набежит» достаточное количество данных.

Статья направлена на то, чтобы найти способ принимать решения в ситуациях, когда данных мало. А также, как подводить результаты экспериментов с этапами воронки, через которые проходят десятки или единицы лидов.

Выводы из одного наблюдения

Давайте обсудим другой вариант получения ценной информации про клиентов: пилотное тестирование или внедрение продукта.

Если достаточно хорошо погрузиться в процессы и проблемы одного клиента, то можно найти полезную информацию про целый сегмент рынка. Например, вы создаёте ERP-систему и планируете пилот со швейным производством, руководитель которого хочет внедрить её, чтобы привести процессы в порядок — хаос на складе, дефицит популярных изделий и т.д.

https://procapitalist.ru/images/articles/2019/October/27-10-20191.jpg

В ходе пилотного внедрения вы узнаёте, что самым проблемным бизнес-процессом в швейном производстве является планирование закупок тканей, исходя из прогнозов продаж. Неправильные решения на данном этапе, приводят к убыткам, простою, кассовым разрывам, затовариванию складов и так далее. Даже один пилот даст гораздо больше информации, чем 3 или 5 интервью. Согласно методологии Customer Development, тестовое внедрение является одновременно инструментом выявления проблем или потребностей клиентов (Customer Discovery) и подтверждения ценности продукта (Customer Validation). Информация, полученная в ходе пилота, может и должна быть использована в рекламных материалах и коммерческих предложениях, адресное обращение к собственникам швейных производств с подробным пониманием их проблем и вашего решения, способно сильно повысить конверсию. Дополнительно можно найти информацию в открытых источниках, на тематических форумах или отраслевых СМИ. Если проблема актуальна, вы неизбежно найдёте дополнительные подтверждения.

Безусловно, никто не гарантирует, что проблемы одного производства обязательно должны быть и у всех других, но если мы наблюдаем их в одном производстве, то растёт вероятность, что проблема есть и у других. Впервые мы можем увидеть проблемы в пилоте лишь у одного клиента, а дальше дополнительно подтвердить их с помощью интервью, прежде чем начать разработку нового модуля нашей ERP системы для «планирования закупок».

Как меняется вероятность в зависимости от новых данных, мы обсудим в разделе «Байесовская статистика».

В некоторых случаях, можно формулировать гипотезы о продукте, исходя из общеизвестных фактов, например, свежих новостей. Например, недавно, по всему миру произошла критическая ошибка в Windows, и большое количество пользователей и крупных компаний увидели «синий экран смерти». Были отменены тысячи авиарейсов, остановлена работа банков и т.д.

https://riamo.ru/news/proisshestviya/sinij-ekran-smerti-i-tolpy-ljudej-foto-iz-aeroportov-mira-posle-sboja-windows/

Ущерб от данной ситуации исчисляется миллиардами долларов. Очевидно, что ряд компаний попытаются придумать решение, чтобы избежать этого в будущем. Это не значит, что все компании будут платить за решение этой проблемы и пытаться избежать подобного риска в будущем, но это точно позволяет заняться изучением данной проблемы и, если она подтвердится, создавать новые продукты. Это могут быть запасные резервные ЦОДы, задача которых обеспечивать работоспособность системы, пока основные системы «сломаны», либо принудительные «песочницы» для устанавливаемых обновлений операционной системы, который в случае проблем будут оперативно откатывать систему до рабочего состояния. Иными словами, любая проблема в корпоративном мире может носит глобальный характер и затрагивать большую часть клиентов на рынке.

Таким образом, одно наблюдение за клиентом — пилотное внедрение, интервью или новость — уже позволяет сделать некоторые выводы. В этот момент ещё рано принимать решение о больших инвестициях в продукт, например, не нужно на основе одного интервью или новости сразу разрабатывать дополнительные функции. Но этого может быть достаточно, чтобы сформулировать, а затем и проверить, гипотезу, если она кажется перспективной.

Что можно узнать на одном интервью

Хорошо проведённые интервью позволяют не только понять проблемы и потребности клиентов — выполнить Discovery, но также разобраться в процессе принятия решений и закупочных процедур, понимание которых потребуется для проведения последующих продаж. Интервью с разными стейкхолдерами из одной компании позволяют понять цепочку принятия решений — это повысит шансы на успешную сделку. В частности, вы должны найти ответы на следующие вопросы: кто принимает решения о покупке, кто ещё позитивно влияет на это решение, кто может заблокировать, как долго проводятся сделки, какой объём бюджета допустим для упрощённых закупок, что требуется в текущий момент (коммерческое предложение, техническое задание или что-то другое), чтобы перейти к сделке.

В ходе общения с клиентами также может появляться информация, которая относится к продукту, но не к его ключевому функционалу, а к дополнительным требованиям. Такие знания лучше сразу фиксировать, чтобы впоследствии учесть в техническом задании. Например, вы можете узнать, что необходимо использовать базу данных PostgreSQL для вашего продукта. Или что, все данные из других систем можно достать только с помощью специального парсера, анализируя файлы json. Это не значит, что вы должны сразу разрабатывать данный функционал. Наоборот, в идеале, разработку идей или запросов клиентов следует начинать только после оплаты, иначе вы можете утонуть в «хотелках», не приводящих к дополнительным продажам или увеличению среднего чека.

Интервью как элемент воронки продаж

Создание продукта — не исследовательская деятельность. И нельзя делать исследование и интервью самоцелью. Нам может быть ценно ограничиться исследованием, когда продукта ещё нет: тогда нужно проверить идею, определить сегмент или функциональность прототипа.

Но когда продукт уже есть, довольно странно останавливаться на интервью и не продавать тем, кому продукт действительно нужен.

Более того, продажа в B2B или дорогом B2C всегда будет начинаться с интервью, и грань между встречей как интервью и продающей встречей стирается.

Лучшая стратегия — когда интервью это часть пресейла. Воронка так и выглядит:

  1. Приглашаем на интервью

  2. В интервью выясняем квалифицирующие факторы и исследуем потребность или проблему.

  3. Если потребности нет, завершаем интервью и корректируем описание сегментов.

  4. Если потребность есть, показываем оффер и закрываем в следующий шаг продаж.

С обоих случаях — и когда интервью является исследованием, и когда частью продаж, нам нужно принимать решения из небольшого, количества интервью.

Сколько интервью проводить?

Продуктовый подход и современный маркетинг часто опирается на другие дисциплины или области знаний.

Если написать в поисковике «что такое A/B тест», вы найдёте, что это инструмент, применяемый в маркетинге для поиска лучших вариантов рекламных объявлений и так далее. Но любопытно, что первым A/B тестером был бортовой врач британского флота Джеймс Линд. В середине 18 века больше всего матросов умирало не от боевых действий или кораблекрушений, а от цинги — болезни, возникающей от недостатка витамина С, который не вырабатывается в нашем организме. На корабле Линда матросы также заболели цингой, но Джеймс провёл эксперимент: он разбил 12 матросов на 6 групп по 2 человека и давал им различные вещества. Кто-то пил морскую воду, другие яблочный сидр, третьи получали медный купорос, а одна из групп получила апельсин и лимон. Матросы, получившие цитрусы, быстро поправились и приступили к работе. На том корабле Джеймса Линда никто не умер от цинги, так как он смог сделать вывод даже на небольшом объёме данных.

Иногда достаточно провести малый эксперимент, чтобы узнать ценную информацию, и для этого не нужны тысячи человек. Эксперимент Линда с апельсинами не был репрезентативным, но это не помешало ему спасти людей и сделать важное открытие. Так, Джеймс Линд изобрёл сплит-тестирования, которые сейчас применяются в медицине и эволюционировали в A/B тесты, популярные в продуктовом подходе.

Тематическое и смысловое насыщение

Различные виды интервью и другие качественные методы изучения клиентов пришли в маркетинг и продуктовый подход из других гуманитарных наук. Исследователи из смежных отраслей уже задавались вопросом, сколько глубинных интервью надо провести, чтобы понять общие тенденции или паттерны изучаемой темы, а сколько — приведут к её максимальному пониманию. Для того чтобы найти «магическое число» проводились научные исследования и различные эксперименты.

При проведении исследований с помощью качественных методов исследования, таких как, интервью, можно выделить две ключевых вехи, которые мы позаимствуем из гуманитарных наук:

  • Тематическое насыщение (code saturation) – это момент, когда исследователь выявил все ключевые паттерны (коды) исследуемой темы, а все последующие интервью будут лишь добавлять деталей вокруг основных ранее обнаруженных паттернов. В продуктовом подходе паттерном может быть наличие работы, потребности или проблемы у клиентов или определённый способ её решения.

  • Смысловое насыщение (meaning saturation) – это полное и глубокое понимание исследуемой темы или проблематики.

В 2017 году вышло исследование «Code saturation versus meaning saturation: How many interviews are enough?» Henninka, Kaiser, Marconi. Они установили, что 53% всех паттернов было выявлено после первого интервью! А после 3 интервью выявлено 76% всех паттернов. Чтобы получить исчерпывающую часть всех кодов (91%) необходимо провести 9 интервью, иными словами, наступит тематическое насыщение, а полное/смысловое насыщение происходит после 16-24 интервью.

Ранее, в 2006 году, исследователи Guest, Bunce и Jonson опубликовали похожее исследование «How many interviews are enough? An experiment with data saturation and variability». Они обнаружили, что основные паттерны начнут выявляться и стабилизируются после 6-8 интервью, наступит то самое тематическое насыщение. Это при условии, что вы опрашиваете гомогенную группу людей — например, представителей одного сегмента рынка, похожих по общим характеристикам: размер бизнеса, сфера деятельности, география.

Большинству продуктов, особенно ранней стадии, необходимо проверить и подтвердить гипотезу о проблеме или найти потребность клиента. Проведя 6-9 интервью, вы узнаете — как клиенты их воспринимают, пытаются ли решить или ничего не делают, какие основные варианты решения есть на рынке. Иными словами, вы получите тематическое насыщение. Вы погрузитесь в мир ваших клиентов, по сути проведёте Customer Discovery.

Тематическое насыщение, само по себе, не даёт сделать вывод — сколько людей на рынке тратят деньги и время на решение своих проблем, но это фундамент, от которого следует оттолкнуться при расчёте размера рынка, а как превратить результаты 6-8 интервью в выводы о размере потенциального рынка мы поговорим далее.

Смысловое же насыщение рекомендуем искать зрелым и масштабируемым продуктам, для того чтобы определить точки роста и, возможно, придумывать новую ценность для клиентов.

Исследование Нильсена

Якоб Нильсен, консультант по веб-юзабилити и основатель Nielsen Norman Group, в 1993 году провёл исследование, в котором выяснил, сколько пользовательских интервью нужно проводить в юзабилити-тестировании. Важно сделать акцент, что предметом его исследования были именно юзабилити-тестирования для отладки интерфейса, а не проблемные или JTBD интервью. Поэтому он называет «проблемой» части интерфейса, которые вызывают сложность у пользователя, и это совсем не то же самое, что «проблема» в проблемном интервью.

Авторы статьи создали модель для определения оптимального количества интервью с точки зрения затрат на них и выгод, полученных от исправления ошибок в интерфейсе. Для «среднего» примера оценивают, что 16 интервью окупят свои затраты, при этом максимальное соотношение выгода/стоимость достигается при четырех интервью.

То что интересно нам, так это то что авторы показали, что обычно вы находите 85% проблем в продукте за первые 5 интервью. Каждое новое интервью приносит всё меньше и меньше данных.

Таким образом, использовать оценку из этого популярного исследования можно, но:

  • Если вы проводите UX-тесты, Usability-тестирование или коридорные тесты. Переносить результаты этого исследования на проблемные или JTBD интервью не стоит.

  • Сделайте поправку на ваш «размер» продукта — в статье оценка сильно зависит от того, какой это продукт: маленький, средний или большой.

  • Чтобы оценить оптимальное количество интервью по модели авторов статьи, посчитайте, сколько вам стоит каждое новое интервью.

Статья «Все ещё подбираете число интервью для JTBD с помощью магического шара?»

Митя Журавлев и Павел Шишкин написали статью с фреймворком для подсчета нужного числа интервью, чтобы понять, существует ли сегмент, для которого создается продукт.

Ребята говорят, что на практике многие пользуются магическими числами необходимого числа интервью, типа 12-15-16, и если большинство интервьюируемых удовлетворило требованиям, то выполнение задачи считается успешным. Так делать нельзя, потому что с это ведёт к ошибкам. На таких маленьких числах статистика так не работает: если 8 или 10 респондентов из 16 говорят что-то одно, нельзя делать вывод о том, что на рынке 50% или 62.5% таких же.

Основной тезис статьи — отказаться от того, чтобы пытаться подобрать статистически значимое число интервью в большом рынке. Если хотим подтвердить потребность на всём рынке, нам придётся проводить очень много интервью, и маленькие выборки там не будут работать. Уйдя от большого рынка, мы можем сосредоточиться на маленьком его сегменте, на котором малые выборки работать будут.

Работа исследователя сводится к поиску ответа на вопрос: вопрос: «существует ли в большом рынке такой маленький сегмент, что…».

Например, весь рынок 100 миллионов человек. Нужно найти 5 миллионов таких, внутри которых 50% нуждаются в продукте.

Как только появляется большая вероятность (50% и больше), можно оперировать маленькими выборками. Задача — найти такой подсегмент, в котором вероятность будет настолько большая, чтобы она валидировалась на малых числах.

Далее мы приведём алгоритм, как валидировать достаточно маленький сегмент. Как это выглядит по шагам:

  1. Определяем Сегмент тех, кто нам интересен — люди или компании, для которых работает продукт.

  2. Определяем достаточно узкий Подсегмент. Мы можем пойти одним из двух путей:

    1. Сформулировать гипотезу, кто это может быть;

    2. Или провести «интервью со всеми подряд»: теми, кто похож на нашего клиента — например, они пользуются продуктом конкурента, или по-другому платят за решение своей потребности. В такой серии интервью будет несколько подсегментов. Выбираем один из них.

  3. Когда выбран Подсегмент, проводим интервью внутри него, тщательно отбирая респондентов, принадлежащих именно этому Подсегменту. Признаемся честно, никто не знает, сколько точно интервью нужно провести на этом этапе. Дело в том, что мы опираемся на статистические данные, для которых нужно знать размер генеральной совокупности, то есть Сегмента, и размер Подсегмента. Мы не можем его посчитать точно, поэтому опираемся на примерные оценки рынка: «мы взяли достаточно узкий сегмент, там, наверное, достаточно мало представителей».

  4. Грустный факт: статистика никогда не даст нам бинарный ответ: «да, рынок есть», или «нет, рынка нет». Всё что получится в результате — это ответ «с вероятностью в 95% настоящее количество таких же людей в рынке 25-80%». И из этого мы можем сделать полезный вывод. Здесь нам нужно, чтобы количество людей в нижней границе интервала было достаточно нам, чтобы сделать продукт для Подсегмента.

    Например. Мы провели 10 интервью, и 6 из 10 сказали нам, что потребность есть. Тогда с вероятностью 95% во всём Подсегменте более чем у 31% людей есть такая же проблема. Здесь мы можем оценить абсолютное количество людей или компаний, «в головах», посчитать количество денег, которое продукт может заработать, и принять решение, идти ли дальше.

    image.png

Байесовская статистика в помощь продактам

«Необходимо закончить исследование, прежде чем делать выводы» — логичная рекомендация, которую можно увидеть в большом количестве статей и услышать на конференциях по продуктовому подходу.

Конечно, итоговые результаты надо смотреть по итогам всего исследования или А/B теста. Но давайте чуть дополним эту рекомендацию: «каждый раз получая новую информацию, мы можем делать промежуточный вывод о потенциальных результатах нашего исследования». После каждого интервью или после каждой новой сделки или отказа от сделки, вероятность успеха обновляется.

«Как так?» — спросите вы.

Давайте на 10 секунд телепортируемся в Лондон 1750-ых годов. В то время жил Томас Баейс, ученый, широко известный в узких кругах. Занимался много чем, в том числе статистикой. Он смог решить одну из сложных статистических задач и его именем назвали теорему — «Теорему Байеса». Если кратко сформулировать ее смысл, то любая новая информация обновляет вероятность того или иного исхода.

Разберем на примере. Представим, что вы проводите серию проблемных интервью чтобы подтвердить наличие проблемы. Гипотеза следующая «на сбор данных из разных аналитических систем для отчета руководителю тратится порядка 100 чел/часов в месяц» в новом сегменте клиентов «Пищевое производство», таких на рынке 1000 компаний. Если гипотеза верна и хотя бы 15% потенциальных клиентов имеют такую проблему– то можно создавать новый продукт.

Существует много разных вероятностей

  • Вероятность того, что есть проблема. Начнем с 50%, как в анекдоте про динозавра, «можно его встретить или не встретить»

  • Вероятность того, что интервью подтвердит проблему, если проблема существует (пусть 80%)

  • Вероятность того, что интервью подтвердит проблему, хотя ее не существует у всех клиентов (пусть 30%)

Каждый раз после проведения интервью, получая новые данные Баейс завещал обновлять вероятности. Изначальная вероятность, когда мы еще не проводили интервью, называется априорной, обновленная вероятность называется апостериарной.

  1. Первое интервью – подтвердили проблему – вероятность наличия проблемы растет до 72%

  2. Второе интервью – проблема не подтвердилась, — вероятность наличия проблемы падает до 43%

  3. Третье интервью – проблема подтвердилась, вероятность наличия проблемы растет до 67%

  4. Четвертое интервью – проблема подтвердилась, вероятность растет до 84%

  5. Пятое интервью – проблема не подтвердилась, вероятность падает до 60%

Но ведь мы сделали всего 5 интервью, а потенциальных клиентов 1000. Не совсем правильно говорить, что 60% клиентов будут иметь такую проблему. Но даже такого количества будет достаточно, для определенных выводов. Благодаря еще одному детищу математики — доверительному интервалу, мы можем с определенной вероятностью (обычно берут 95%) определить минимальный и максимальный процент клиентов, которые имеют данную проблему.

В нашем случае, 5 интервью и вероятность наличия проблемы в 60% превращаются в доверительный интервал от 18% до 100%. Получается, что с 95% вероятностью минимум 18% клиентов, будут иметь проблему.

И что с этим делать, достаточно ли вероятности 60% чтобы делать продукт? Зависит от вашей бизнес-модели. Сколько нужно продаж, чтобы бизнес работал и был устойчивым?  В определении задачи мы говорили, что достаточно 15% клиентов на рынке, чтобы начать делать продукт. В результате 5 интервью мы узнали, что с высокой вероятностью (95%) минимум 18% клиентов имеют проблему. Значит, можно заняться продуктом.

На рынке 1000 потенциальных клиентов, 180 (18%) из них имеют проблему, если мы сделаем 50 продаж, подписки на наш сервис, к примеру, по 600 000 ₽ в год мы получаем примерно 30 млн рублей ежегодно. Не венчур, конечно, но и 30 миллионов на дороге не валяются.

Подводя итоги этой части статьи, можно сказать, что любая новая информация, поступающая в результате исследования, сразу может влиять на наши прогнозы и даже на саму бизнес-модель. Безусловно, самые достоверные статистические данные появляются на масштабе и к данному алгоритму рассуждений и действий можно привести много оговорок, но мы считаем, что данный подход жизнеспособен и позволяет повысить скорость развития продукта — что лежит в основе современного продуктового подхода.

К сожалению, мы не смогли найти для вас подходящих инструментов в онлайне, чтобы было удобно проводить подобные расчеты… Поэтому мы решили сделать подобный простой инструмент своими силами — interview-bayes.streamlit.app

Пользуйтесь на здоровье!

Выводы

Итак, мы поговорили о том, что в стартапах и разработке продуктов данных для принятия статистически значимых решений недостаточно, хотя решения принимать нужно.

Невозможно провести бесконечно много интервью, нужно в какой-то момент остановиться и перейти к следующему шагу. Не стремитесь к полной достоверности: полностью достоверно — опросить весь 1 миллион пользователей, но такого ресурса у нас нет.

Даже из одного наблюдения можно сделать некоторые вывод. Иногда даже про всю отрасль, если она узкая, и представители похожи друг на друга. Конечно, делать это нужно крайне осторожно. Чем «глубже» это погружение, тем смелее выводы можно сделать.

Исследования сходятся к тому, что проводить ~10 интервью для принятия решения на достаточно узком рынке достаточно.

Каждый новый результат интервью или эксперимента может обновлять вероятности успеха гипотез, позволяя гибче принимать решения, не дожидаясь больших объемов данных. Связывайте получившиеся результаты с помощью доверительных интервалов с оценкой рынка, чтобы принимать решения.

Статья написана в соавторстве:

  • Вадим Глазков. Основатель агентства продуктовых исследований, эксперт консультаций по проведению продуктовых исследований во ФРИИ. Телеграм-канал: t.me/hiveminded

  • Андрей Батрименко. Эксперт в продуктовом подходе, директор центра развития новых продуктов Академии Ростеха, автор книги «Внутреннее предпринимательство», эксперт и трекер акселератора ФРИИ.
    Личный сайт: batrimenko.ru.


ссылка на оригинал статьи https://habr.com/ru/articles/871364/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *