Цифровой профиль в ВТБ: как графы и эмбеддинги помогают банку понимать клиентов

Всем привет! Я Иван Яруков, Data Scientist в команде NLP/OCR моделирования КИБ и СМБ ВТБ. Сегодня банк превращается из просто финансового института в технологическую экосистему, способную анализировать данные, предсказывать сценарии и адаптироваться к изменениям. Одним из ключевых инструментов этой трансформации является единый цифровой профиль клиента — модель, которая учитывает поведение, окружение и историю взаимодействия для принятия банком более точных и справедливых решений.

В ВТБ мы объединили в централизованную витрину эмбеддингов транзакции, связи, балансы, кредитную историю и множество других сигналов. Это стало основой для повышения качества прогнозирования, персонализации продуктов и снижения рисков. Результат — до +6% прироста GINI-метрик. Звучит вдохновляюще? Давайте разберемся, как все устроено.

Почему это важно

Цифровой профиль предназначен не ради хайпа, а для более емкого анализа имеющейся разрозненной информации о клиенте. Персонализированные предложения, точная сегментация, снижение рисков — все это прямой результат качественной работы с данными. Когда система умеет вовремя предлагать нужному клиенту верный продукт, она становится не только полезнее для пользователя, но и эффективнее для бизнеса: растет конверсия, а потери по кредитам сокращаются. И все это благодаря интегральному профилю, который интегрирует десятки источников данных в единую структуру. При этом поведенческие модели не следят за конкретным клиентом, а анализируют исторические поведенческие паттерны. Модель не знает, что это конкретный человек/компания.

Сбор и обработка данных

Чтобы понимать клиента, нужно уметь слышать даже то, что он не говорит напрямую. В качестве источников мы используем транзакции, балансы, кредитную историю — весь возможный цифровой след. Главный вызов — это не дефицит данных, а их разнородность: разные форматы, глубина, периодичность обновления.

Информация поступает из промышленных витрин внутри банковского контура. Это важно для соблюдения регуляторных требований и безопасности. Перед тем как данные попадают в модели, они проходят обязательную валидацию:

проверку на полноту,
корректность форматов,
выбросы,
логическую целостность,
дубликаты.

Такая предобработка критична, поскольку плохие данные на входе всегда означают плохой результат на выходе.

Графы и последовательности: как мы поняли, что важно

Когда стоит задача выявить нетривиальные связи между клиентами, особенно в контексте транзакционной активности, классические табличные подходы оказываются слишком плоскими. Для более глубокого анализа мы используем графовую модель на основе транзакций: каждая вершина — клиент, каждое ребро — факт перевода денежных средств. Ребро может включать дополнительные атрибуты: сумму, дату, частоту, назначение платежа и т.д. Для повышения качества модели мы строим помесячные графы, чтобы выделять временные паттерны и следить за динамикой взаимодействий.

Дополнительно используется фильтрация на этапе построения графа. Часть информации имеет смысл сохранять в качестве атрибута вершины. Например, взаимодействие с налоговой для таргета комплаенса может быть полезной информацией.. Важно отметить, что граф не просто фиксирует факт связи, но и позволяет вычислять графовые метрики: центральность, плотность кластера, медианное расстояние до других узлов. Эти признаки становятся дополнительным входом в модель.

Генерация эмбеддингов: когда клиент становится словом

Чтобы получить числовое представление клиента, мы превращаем граф взаимодействий в пространство эмбеддингов. Одним из наиболее эффективных подходов является метод случайных блужданий (Random Walks). Он позволяет формировать последовательности узлов, аналогичные предложениям в языке, где каждое «слово» — это клиент, а его «контекст» — клиенты, с которыми он связан в графе.

На основе этих последовательностей обучается адаптированная версия Word2Vec. Эта модель, изначально созданная для языковых задач, здесь перенастраивается под графовую структуру. Так формируется плотный вектор признаков, в котором зашито множество параметров: от структурной роли клиента до его поведенческого паттерна в сети транзакций.

Особое внимание уделяется вершинам с высокой степенью связности (например, массовые получатели платежей или крупные корпоративные клиенты). Для них используется техника ограничения длины и количества проходов, чтобы избежать переобучения и сохранить значимость локальных связей.

В качестве альтернатив рассматривались:

Graph Neural Networks (GNN) — позволяют обучаться напрямую на структуре графа, учитывая не только соседей, но и их признаки;
COLES (Contrastive Learning on Sequences) — контрастивный подход, обучающий модель различать «похожих» и «разных» клиентов на основе анализа их последовательных данных (например, поведенческих паттернов во времени).

GNN фокусируется на топологии и структуре связей, тогда как COLES — на временной динамике поведения.

Текущий же выбор в пользу Random Walks + Word2Vec объясняется оптимальным соотношением качества, интерпретируемости и производительности: модель легко масштабируется и показывает устойчивый прирост GINI без необходимости развертывания сложной инфраструктуры.

Проверка качества моделей: рост GINI и жесткие тесты

Оценка цифрового профиля основана на метриках. В качестве ключевой мы используем индекс GINI. Он показывает, насколько хорошо модель ранжирует клиентов по целевой метке: будь то вероятность дефолта, склонность к продукту или аномальное поведение. После внедрения графовых эмбеддингов прирост GINI составил от +1,5 до +6 п.п. в зависимости от задачи.

Ключевое требование — устойчивость во времени. Поэтому тестирование проводится на сдвинутых по горизонту hold-out выборках (обычно +1–3 месяца к train-периоду). Это позволяет зафиксировать поведение модели в условиях real-world-дрейфа и отсеять случайные улучшения.

Для задач склонности дополнительно оцениваются:

precision@k / recall@k — насколько модель точно отбирает целевых клиентов в топе ранжирования;
coverage — доля охваченных релевантных клиентов;
uplift — прирост вовлечения в продукт относительно контрольной группы;
а также feature attribution — оценка вклада эмбеддингов в итоговый прогноз (через permutation importance или SHAP-значения).

Важно не просто угадать, кто купит, а точно исключить тех, на кого не стоит тратить коммуникационные ресурсы. В этом плане графовые признаки особенно ценны: они помогают не только повысить общую точность, но и дают резкий прирост в верхнем сегменте скорингового ранжирования — а именно он критичен для бизнеса.

Реальные кейсы: цепочки подозрений и региональные паттерны

Один из показательных кейсов — выявление сомнительных клиентов. Вместо анализа каждой транзакции отдельно, граф позволяет находить цепочки переводов между контрагентами, формируя группы риска. Так можно, например, начать с одного подозрительного клиента и «распутать» всю его сеть.

Аналогично можно анализировать поведенческие паттерны, выявляя регионы или кластеры с одинаковой динамикой. Пока интерпретация таких аномалий требует доработки, но даже на раннем этапе такие инструменты помогают аналитикам фокусироваться на нестандартных сценариях.

Внедрение в банк от моделей до реализации на практике

Чтобы модель заработала «вживую», нужен не только хороший код, но и продуманный MLOps-процесс. В ВТБ этот процесс строится в зависимости от режима — batch или online. Модель развертывается через промышленный конвейер: сначала пилот, потом контроль деградации, регулярное дообучение.

Графовые нейросети пока находятся на этапе прототипирования. Их непросто внедрить из-за требований по вычислительным ресурсам и сложной интерпретации. Поэтому сейчас ставка на гибкие, но простые в эксплуатации подходы.

Перспективы — вектор на интеграцию и масштабирование

Профиль клиента — живая экосистема, которую нужно развивать. Впереди стоит задача интеграции графов с последовательностями и доработка графовых нейросетей, которые смогут учитывать не только связи, но и временные паттерны поведения, а также учитывать текстовые данные. Мы движемся к тому, чтобы цифровой профиль стал не просто отражением пользователя, а прогнозирующей моделью, которая адаптируется под конкретный контекст, продукт и даже канал взаимодействия.

ссылка на оригинал статьи https://habr.com/ru/articles/944338/