Photo by Brooke Cagle on Unsplash

Вы читаете третью статью из серии «Дизайнер и метрики». В первой мы поразмышляли, нужны ли продуктовому дизайнеру метрики, а во второй посмотрели, какие вообще бывают метрики. Если вы ещё не читали эти статьи, то советую начать с них.

В этой статье речь пойдет о том, как ответить на вопрос, улучшили мы продукт или нет.

Дни после релиза

После раскатки нового функционала каждый дизайнер спрашивает себя: что изменилось? Удалось ли нам улучшить продукт?

Чтобы ответить на эти вопросы, нужно посмотреть, как изменились метрики после релиза функционала. Ведь зачастую результат работы дизайнера — это разница между метриками до релиза нового функционала и после него.

На первый взгляд кажется, что сравнить эти метрики очень просто: посмотрел на цифры до релиза и после, сравнил одно с другим, и если стало лучше — значит, все было не зря, а если хуже, то все надо переделывать.

Но такой подход часто ведет к ошибкам — поэтому прежде чем прыгать к выводам, нужно обратиться к математике и немного посчитать.

Как сравнить метрики «до» и «после»

Реальное значение метрики против замеренной

У каждой метрики есть её реальное значение — назовем его R (реальное), — а есть значение, которое мы получили через замеры — Z (замеренное).

И первое, с чем нам надо справиться это понять, что R ≠ Z.

Разберемся на примере

Допустим, перед нами стоит вопрос, сколько в России людей, которые работают в силовых структурах. Вариант загуглить и узнать — не наш выбор в этой статье.

Допустим, теоретически мы могли бы опросить каждого человека в России, силовик он или нет, и получить реальное значение, то есть R.

Но поскольку практически это невозможно, мы опрашиваем столько людей, сколько смогли найти — допустим, 300 человек (выборку формируем по науке), и потом просто экстраполируем эти данные на всю Россию.

Так мы получаем Z, то есть замеренную метрику. Думаю, теперь стало понятно, что почти всегда Z ≠ R.

Как из замеренной метрики получить реальную?

На этот вопрос как раз и отвечает математика. С помощью математической формулы мы можем получить промежуток значений, в котором находится R.

Вернемся к примеру с силовиками. Предположим, что после опроса 300 человек, 5 из них ответили, что являются сотрудниками силовых структур, то есть приблизительно 1,7%.

Этих данных достаточно, чтобы получить промежуток значений в котором находится R. Для этого нам необходимо:

Замеренное значение метрики — в случаем с силовиками это 1.7%
Количество выборки, на которой сделан замер — 300 человек
Количество потенциальной выборки (не обязательно) — в нашем случае наслеление России — 146 млн человек.
Выбрать точность, с которой мы хотим получить результат. Обычно используют 90, 95 и 99%

Эти данные нужно ввести в специальный калькулятор для расчета доверительного интервала и нажать «вычислить».

На выходе мы получим промежуток, в котором содержится R с вероятность 90, 95 и 99% (в зависимости от того, какой процент мы выбрали при расчёте).

Если вернуться к примеру с силовиками, то после этих расчётов можно сказать, что R находится в промежутке (или доверительном интервале) от 0% до 3,59% от всего населения России.

А значит, если умножить этот процент на население России, то получим интервал от 0 человек до 5 268 274 человек. (В этом интервале действительно содержится верный ответ — в реальности это 2,6 миллиона).

Чтобы получить более точный промежуток, нам нужно опросить больше людей.

А как же все-таки сравнить метрики «до» и «после»

Теперь нам уже достаточно знаний, чтобы ответить на этот вопрос. Осталось дело за малым: надо просто посчитать доверительный интервал для метрики «до» и для метрики «после» и посмотреть, есть ли между ними пересечение.

Если пересечения нет, то мы получили статистически значимые результаты и можно утверждать, что мы что-то изменили в продукте.

А если пересечение есть, то значит данных недостаточно, чтобы утверждать, что что-то изменилось в продукте. А полученную разницу в данных надо воспринимать как погрешность измерения.

Разберемся на примере маркетинговой кампании

Допустим, мы подготовили 2 креатива, и их посмотрели по 5 000 пользователей. Первый показал значение CTR 2% (это процент нажавших на креатив и перешедших на лендинг), а другой 3%. Можно ли сказать, что второй лучше первого?

Чтобы ответить на этот вопрос, нам надо собрать все данные для измерения доверительного интервала:

По первому банеру:

Значение метрики — 2%
Сколько людей увидело этот банер — 5 000
Опускаем потенциальную выборку
Выбираем точность 95%

Получаем, что R по первому креативу с 95% вероятностью находится между [ 1,61% – 2,39% ]

Тоже самое проделываем по второму банеру (его посмотрело тоже 5 000 человек) и получаем интервал [ 2,53% – 3,47% ]

Видим, что интервалы не пересекаются друг с другом, а значит, второй банер успешнее первого.

Подытожим

Чтобы оценить работу дизайнера, недостаточно просто посмотреть метрики до и после, нужно сравнить их доверительные интервалы.
Посчитать доверительный интервал можно с помощью специального калькулятора.
Если доверительные интервалы «до» и «после» не пересекаются — значит, работа дизайнера точно дала положительный результат.

Что дальше

Это была 3 и последняя статья из серии «Дизайнер и метрики».

В следующей статье я планирую рассказать, почему у пользователя нельзя спрашивать, что ему нравится, а что нет. Подписывайтесь, чтобы не пропустить!

ссылка на оригинал статьи https://habr.com/ru/post/519942/

Как продуктовому дизайнеру оценить свою работу