Всем привет! Я Иван Яруков, Data Scientist в команде NLP/OCR моделирования КИБ и СМБ ВТБ. Сегодня банк превращается из просто финансового института в технологическую экосистему, способную анализировать данные, предсказывать сценарии и адаптироваться к изменениям. Одним из ключевых инструментов этой трансформации является единый цифровой профиль клиента — модель, которая учитывает поведение, окружение и историю взаимодействия для принятия банком более точных и справедливых решений.
В ВТБ мы объединили в централизованную витрину эмбеддингов транзакции, связи, балансы, кредитную историю и множество других сигналов. Это стало основой для повышения качества прогнозирования, персонализации продуктов и снижения рисков. Результат — до +6% прироста GINI-метрик. Звучит вдохновляюще? Давайте разберемся, как все устроено.
Почему это важно
Цифровой профиль предназначен не ради хайпа, а для более емкого анализа имеющейся разрозненной информации о клиенте. Персонализированные предложения, точная сегментация, снижение рисков — все это прямой результат качественной работы с данными. Когда система умеет вовремя предлагать нужному клиенту верный продукт, она становится не только полезнее для пользователя, но и эффективнее для бизнеса: растет конверсия, а потери по кредитам сокращаются. И все это благодаря интегральному профилю, который интегрирует десятки источников данных в единую структуру. При этом поведенческие модели не следят за конкретным клиентом, а анализируют исторические поведенческие паттерны. Модель не знает, что это конкретный человек/компания.
Сбор и обработка данных
Чтобы понимать клиента, нужно уметь слышать даже то, что он не говорит напрямую. В качестве источников мы используем транзакции, балансы, кредитную историю — весь возможный цифровой след. Главный вызов — это не дефицит данных, а их разнородность: разные форматы, глубина, периодичность обновления.
Информация поступает из промышленных витрин внутри банковского контура. Это важно для соблюдения регуляторных требований и безопасности. Перед тем как данные попадают в модели, они проходят обязательную валидацию:
-
проверку на полноту,
-
корректность форматов,
-
выбросы,
-
логическую целостность,
-
дубликаты.
Такая предобработка критична, поскольку плохие данные на входе всегда означают плохой результат на выходе.
Графы и последовательности: как мы поняли, что важно
Когда стоит задача выявить нетривиальные связи между клиентами, особенно в контексте транзакционной активности, классические табличные подходы оказываются слишком плоскими. Для более глубокого анализа мы используем графовую модель на основе транзакций: каждая вершина — клиент, каждое ребро — факт перевода денежных средств. Ребро может включать дополнительные атрибуты: сумму, дату, частоту, назначение платежа и т.д. Для повышения качества модели мы строим помесячные графы, чтобы выделять временные паттерны и следить за динамикой взаимодействий.
Дополнительно используется фильтрация на этапе построения графа. Часть информации имеет смысл сохранять в качестве атрибута вершины. Например, взаимодействие с налоговой для таргета комплаенса может быть полезной информацией.. Важно отметить, что граф не просто фиксирует факт связи, но и позволяет вычислять графовые метрики: центральность, плотность кластера, медианное расстояние до других узлов. Эти признаки становятся дополнительным входом в модель.
Генерация эмбеддингов: когда клиент становится словом
Чтобы получить числовое представление клиента, мы превращаем граф взаимодействий в пространство эмбеддингов. Одним из наиболее эффективных подходов является метод случайных блужданий (Random Walks). Он позволяет формировать последовательности узлов, аналогичные предложениям в языке, где каждое «слово» — это клиент, а его «контекст» — клиенты, с которыми он связан в графе.
На основе этих последовательностей обучается адаптированная версия Word2Vec. Эта модель, изначально созданная для языковых задач, здесь перенастраивается под графовую структуру. Так формируется плотный вектор признаков, в котором зашито множество параметров: от структурной роли клиента до его поведенческого паттерна в сети транзакций.
Особое внимание уделяется вершинам с высокой степенью связности (например, массовые получатели платежей или крупные корпоративные клиенты). Для них используется техника ограничения длины и количества проходов, чтобы избежать переобучения и сохранить значимость локальных связей.
В качестве альтернатив рассматривались:
-
Graph Neural Networks (GNN) — позволяют обучаться напрямую на структуре графа, учитывая не только соседей, но и их признаки;
-
COLES (Contrastive Learning on Sequences) — контрастивный подход, обучающий модель различать «похожих» и «разных» клиентов на основе анализа их последовательных данных (например, поведенческих паттернов во времени).
GNN фокусируется на топологии и структуре связей, тогда как COLES — на временной динамике поведения.
Текущий же выбор в пользу Random Walks + Word2Vec объясняется оптимальным соотношением качества, интерпретируемости и производительности: модель легко масштабируется и показывает устойчивый прирост GINI без необходимости развертывания сложной инфраструктуры.
Проверка качества моделей: рост GINI и жесткие тесты
Оценка цифрового профиля основана на метриках. В качестве ключевой мы используем индекс GINI. Он показывает, насколько хорошо модель ранжирует клиентов по целевой метке: будь то вероятность дефолта, склонность к продукту или аномальное поведение. После внедрения графовых эмбеддингов прирост GINI составил от +1,5 до +6 п.п. в зависимости от задачи.
Ключевое требование — устойчивость во времени. Поэтому тестирование проводится на сдвинутых по горизонту hold-out выборках (обычно +1–3 месяца к train-периоду). Это позволяет зафиксировать поведение модели в условиях real-world-дрейфа и отсеять случайные улучшения.
Для задач склонности дополнительно оцениваются:
-
precision@k / recall@k — насколько модель точно отбирает целевых клиентов в топе ранжирования;
-
coverage — доля охваченных релевантных клиентов;
-
uplift — прирост вовлечения в продукт относительно контрольной группы;
-
а также feature attribution — оценка вклада эмбеддингов в итоговый прогноз (через permutation importance или SHAP-значения).
Важно не просто угадать, кто купит, а точно исключить тех, на кого не стоит тратить коммуникационные ресурсы. В этом плане графовые признаки особенно ценны: они помогают не только повысить общую точность, но и дают резкий прирост в верхнем сегменте скорингового ранжирования — а именно он критичен для бизнеса.
Реальные кейсы: цепочки подозрений и региональные паттерны
Один из показательных кейсов — выявление сомнительных клиентов. Вместо анализа каждой транзакции отдельно, граф позволяет находить цепочки переводов между контрагентами, формируя группы риска. Так можно, например, начать с одного подозрительного клиента и «распутать» всю его сеть.
Аналогично можно анализировать поведенческие паттерны, выявляя регионы или кластеры с одинаковой динамикой. Пока интерпретация таких аномалий требует доработки, но даже на раннем этапе такие инструменты помогают аналитикам фокусироваться на нестандартных сценариях.
Внедрение в банк от моделей до реализации на практике
Чтобы модель заработала «вживую», нужен не только хороший код, но и продуманный MLOps-процесс. В ВТБ этот процесс строится в зависимости от режима — batch или online. Модель развертывается через промышленный конвейер: сначала пилот, потом контроль деградации, регулярное дообучение.
Графовые нейросети пока находятся на этапе прототипирования. Их непросто внедрить из-за требований по вычислительным ресурсам и сложной интерпретации. Поэтому сейчас ставка на гибкие, но простые в эксплуатации подходы.
Перспективы — вектор на интеграцию и масштабирование
Профиль клиента — живая экосистема, которую нужно развивать. Впереди стоит задача интеграции графов с последовательностями и доработка графовых нейросетей, которые смогут учитывать не только связи, но и временные паттерны поведения, а также учитывать текстовые данные. Мы движемся к тому, чтобы цифровой профиль стал не просто отражением пользователя, а прогнозирующей моделью, которая адаптируется под конкретный контекст, продукт и даже канал взаимодействия.
ссылка на оригинал статьи https://habr.com/ru/articles/944338/
Добавить комментарий