Federated Learning of Cohorts – «убийца» cookie или всего лишь еще один способ трекинга пользователей

от автора

В последнее время активно освещается проблема приватности пользовательских данных. Скандал с Cambridge Analytica и Facebook, внедрение GDPR, многомиллионные штрафы для Google за установку файлов cookie без ведома пользователей, обновление iOS 14 (с ограничениями трекинга) – все это оказывает давление на рекламодателей, рекламные платформы и заставляет всерьез озаботиться обеспечением приватности данных.

Компания Google разработала и активно тестирует новую технологию, которая может заменить традиционный таргетинг рекламы на основе cookie-файлов – Federated Learning of Cohorts (FLoC). В статье рассказываем, что это за технология и чего ждать рекламодателям.

Чем не угодили cookie и почему нельзя просто так взять и отказаться от них

Основная претензия к cookie-файлам – отсутствие гарантии конфиденциальности пользовательских данных. Сторонние cookie, установленные на сайтах, собирают слишком много информации о пользователях. С помощью этих данных (история поисковых запросов, просмотров страниц, заполнение полей в формах ввода данных и т. д.) можно идентифицировать конкретного человека, что является серьезной угрозой приватности.

Вместе с тем просто убрать cookie не получится – слишком многое держится на них:

  • рекламные системы используют cookie для ретаргетинга и поиска релевантной аудитории для показа определенных рекламных объявлений. Чем релевантнее (и эффективнее) реклама, тем больше денег получают рекламные системы от рекламодателей;

  • рекламодатели с помощью рекламных систем получают возможность запускать более результативные рекламные кампании (и получать больше прибыли);

  • сайты-издатели и вебмастеры зарабатывают на размещении рекламы. Они напрямую заинтересованы в том, чтобы реклама была выгодна рекламодателям и размещений было много.

И, наконец, сами пользователи привыкли к многим удобствам, которые обеспечивают cookie:

  • сохранение настроек авторизации и параметров;

  • юзабилити, основанное на поведении пользователя;

  • персонализация интерфейса, контента, рекламы.

Как использовать данные с сохранением конфиденциальности

Есть хороший пример, в котором сочетаются те же задачи, что и в вопросе с cookie, – медицина. Например, для повышения эффективности тестов на определение заболевания нужно собрать обучаемую модель. При этом:

  • нужно получить как можно больше данных об обследованиях пациентов;

  • данные должны быть обезличенные (медицинские учреждения не делятся данными конкретных пациентов из соображений конфиденциальности).

Решение этой задачи – обрабатывать данные на стороне каждого медицинского учреждения и передавать общей модели обобщенные данные (без раскрытия персональных данных отдельных пациентов). 

Именно такая концепция лежит в основе Federated Learning.

Что такое Federated Learning

Google разработала и активно тестирует новую технологию — Federated Learning of Cohorts (FLoC).

Federated Learning – распределенная модель, которая использует алгоритмы машинного обучения для анализа пользовательских данных и формирования когорт. Когорта – группа обезличенных данных пользователей (браузеров) с похожими свойствами. Данные пользователей (которые могут содержать чувствительную и конфиденциальную информацию) не поступают напрямую ни в один централизованный обработчик или сервер: вычисление и назначение когорты происходит на стороне браузера. 

Остальным сервисам (рекламным платформам, сайтам и т. д.) передается только идентификатор когорты, без данных, по которым можно идентифицировать отдельных пользователей.

Для справки. Еще в 2017 году Google тестировал технологию Federated Learning в приложении Gboard для Android. Когда Gboard показывает предлагаемый запрос, смартфон пользователя локально сохраняет информацию о текущем контексте и клике на предложение (или отсутствии клика). Federated Learning обрабатывает эту историю на стороне устройства и предлагает улучшения для следующей итерации модели предложений Gboard.

Для чего может применяться FLoC

  • Показ рекламных объявлений людям, чьи браузеры принадлежат к когорте, которой характерно определенное поведение (например, посещение сайта рекламодателя) или интерес к определенным продуктам.

  • Применение моделей машинного обучения для прогнозирования вероятности конверсии на основе когорты пользователя (и корректировки ставки на рекламном аукционе с использованием полученной вероятности).

  • Рекомендация релевантного контента пользователям.

Как работает FLoC

Разберем на примере, как работает FLoC на практике. Для понимания процесса определим трех основных участников:

  • рекламодатель – компания, которая хочет показать свои рекламные объявления целевой аудитории и платит за показ. В нашем примере это будет интернет-магазин обуви;

  • издатель – новостной сайт, который продает рекламные места (размещает у себя рекламные объявления и получает вознаграждение от рекламной системы);

  • рекламная система – платформа, предоставляющая инструменты для размещения рекламы.

Рассмотрим этот процесс подробнее, для примера возьмем двух пользователей, которых зовут Сергей и Антон (имена выбраны рандомно). Изначально их браузеры принадлежат к одной и той же когорте, допустим, 1354.

1. FLoC-сервис

FLoC-сервис, используемый браузером, создает математическую модель с тысячами когорт. Каждая из когорт соответствует тысячам браузеров с похожей недавней историей активности и имеет свой уникальный номер, по которому ее можно идентифицировать.

2. Браузер

Из FLoC-сервиса браузер Сергея получает данные, описывающие FLoC-модель. Браузер пользователя определяет свою когорту: для вычисления подходящей когорты используется специальный алгоритм, который соотносит браузерную историю с наиболее подходящей когортой. В нашем примере это будет когорта под номером 1354. Обратите внимание, браузер Сергея не передает никаких данных FLoC-сервису.

Точно так же браузер Антона вычисляет идентификатор своей когорты. История браузера этого пользователя отличается от истории браузера Сергея. Однако они достаточно похожи, поэтому им присваивается одинаковая когорта – 1354.

3. Взаимодействие с рекламодателем

  • Сергей посещает сайт рекламодателя (shoe.com).

  • Сайт запрашивает ID когорты браузера пользователя и получает значение 1354.

  • Сергей ищет кроссовки для бега.

  • Сайт сохраняет информацию о том, что браузер из когорты 1354 выявил интерес к беговым кроссовкам.

  • Позже на сайте зафиксирован дополнительный интерес к товарам со стороны когорты 1354, а также со стороны других когорт.

  • Время от времени сайт собирает информацию о когортах и проявленному интересу к товарам и передает ее рекламной системе.

4. Издатель – новостной ресурс news.com

  • Антон посещает новостной сайт news.com.

  • Сайт издателя запрашивает у браузера пользователя его когорту.

  • Затем сайт отсылает запрос рекламной системе и включает в этот запрос ID когорты браузера Антона – 1354.

5. Рекламная система

Рекламная система может подобрать подходящее для Антона рекламное объявление, основываясь на данных от издателя и рекламодателя:

  • когорта браузера Антона (1354) – эти данные рекламной системе передает издатель;

  • интересы, которые соответствуют данной когорте, передаются от рекламодателя («Браузеры из когорты под номером 1354 могут быть заинтересованы в беговых кроссовках»).

Рекламная система подбирает подходящее объявление – беговые кроссовки от shoe.com.

На сайте отображается объявление кроссовок.

Ключевая особенность такого подхода 

Сейчас показ релевантных рекламных объявлений базируется на технологиях отслеживания файлов cookie и цифровых отпечатков устройств. Эти технологии используются рекламодателями для отслеживания поведения в сети отдельных пользователей.

FLoC позволяет сохранить релевантность, но без ущерба для приватности данных: браузер не делится браузерной историей ни с FLoC-сервисом, ни со сторонними службами. Браузер вычисляет подходящую когорту на стороне устройства пользователя. История браузера при этом никогда не покидает пределы устройства.

Браузерная когорта может меняться

Важно понимать принцип определения и назначения когорт. Когорта – это не группа пользователей (как привычно воспринимаются сегменты аудитории), а совокупность (кластер) схожих историй браузерной активности.

Характеристики активности каждой когорты в основном постоянны. Поэтому когорты хорошо подходят для подбора рекламных объявлений, так как объединяют схожие поведенческие характеристики. Условно, когорта 1354 будет объединять людей, заинтересованных в беговых кроссовках, сегодня, через месяц и через полгода. Только сегодня это может быть одна группа людей, а через месяц – совершенно другая.

Браузеры отдельно взятых пользователей могут переходить от когорты к когорте по мере того, как их история браузинга меняется. Ожидается, что браузер будет пересчитывать свою когорту каждые 7 дней.

В примере, который мы рассматривали выше, браузеры обоих пользователей принадлежат к одной когорте – 1354. В будущем, по мере того, как пользователи будут посещать различные сайты, их браузеры будут менять когорты, отображая изменение интересов.

На какой стадии сейчас находится технология и что ждать в ближайшее время

30 марта Google запустил тестирование технологии в браузере Chrome. Первичные тесты проводятся на небольшой группе пользователей в таких странах:

  • Австралия;

  • Бразилия;

  • Канада;

  • Индия;

  • Индонезия;

  • Япония;

  • Мексика;

  • Новая Зеландия;

  • Филиппины;

  • США.

Со временем тестирование будет расширяться и на другие регионы.

Главные вопросы к Federated Learning

Что с релевантностью рекламы?

Вопрос, который больше всего интересует рекламодателей. Они опасаются ухудшения эффективности рекламы при отказе от привычных cookie.

По заявлениям Google, беспокоиться не стоит: при тестировании FLoC Google определил, что использование новой технологии обеспечивает как минимум 95% конверсий по сравнению с использованием традиционного показа рекламы на основе cookie.

Решит ли FLoC проблему приватности пользовательских данных?

Размер когорты должен быть достаточным, чтобы сохранялась анонимность

В каждой когорте могут быть тысячи браузеров. Чем меньше размер когорты, тем более персонализированной будет реклама, но при этом уменьшится степень приватности (и наоборот).Для обеспечения анонимности пользователей в когорте Google использует обобщение данных – k-анонимность. Под термином «k-анонимность» понимается метод, который позволяет скрыть персональную информацию нескольких лиц в наборе данных, если эти лица похожи друг на друга. Если упрощенно, k – количество пользователей в группе с похожими свойствами. Чем больше это число, тем более анонимна группа и сложнее отследить отдельно взятого пользователя. Подробнее о k-анонимности можно почитать тут.

k-анонимность – не гарантия

Несмотря на заявления Google об обезличивании данных пользователей в когортах (с помощью вычисления ID когорты на стороне браузера и размера когорт), многие игроки в отрасли высказывают опасения по поводу того, что новая технология не решает проблему сохранения анонимности:

  • при авторизации на сайте через аккаунт Google сайт может сопоставить пользовательские данные с ID когорты FLoC – в этом случае уже нет полной обезличенности данных;

  • деперсонализация может быть возможной благодаря пересечению нескольких характеристик, например идентификатора когорты и IP-адреса пользователя;

  • также есть мнение о том, что данные все равно хранятся у Google (пусть и частично обезличенные), а это дает частной компании неоправданно широкие возможности и власть над информацией.

Чего ожидать рекламодателям и чем закончится борьба за приватность пользовательских данных

Пока FLoC все еще находится на стадии тестирования и не является окончательным вариантом – выводы делать рано. Возможно, будут рассмотрены другие альтернативы трекингу с помощью файлов cookie. Но ясно одно – все основные участники рынка (рекламодатели, рекламные платформы и издатели) заинтересованы в нахождении баланса:

  • между приватностью пользователей, за которую активно борются регуляторы, общественные организации и отдельные компании (привет, Apple);

  • и трекингом, который позволял бы сохранить возможность показывать пользователям релевантную рекламу и извлекать из этого прибыль.

Если говорить про Google, рекламный бизнес занимает львиную долю в структуре доходов корпорации и снижать его эффективность явно не входит в планы IT-гиганта. Поэтому с большой долей уверенности можно сказать, что Google приложит все усилия для поиска решения, которое удовлетворит всех (и позволит компании продолжать получать миллиарды выручки с рекламы).

ссылка на оригинал статьи https://habr.com/ru/company/click/blog/552340/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *