Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

Современные скоринговые системы — это не просто статистика и математические модели, а мощные инструменты анализа рисков, которые могут определять не только кредитоспособность клиентов, но и выявлять угрозы для бизнеса на ранних стадиях.

В условиях быстро меняющихся финансовых рынков и растущей неопределенности использование ML в оценке рисков становится решающим фактором для банков и финансовых организаций. ML позволяет выйти за рамки стандартных моделей и анализировать гораздо больше факторов, включая поведение клиента, макроэкономические условия и другие непрямые признаки.

Подходы, о которых пойдет речь в этой статье, будут полезны как специалистам в области data science и нейронных сетей, так и бизнесу, ищущему надежные решения для управления рисками.

Что такое скоринговая система и зачем она нужна?

Давайте уточним, что такое скоринговая система и как она работает. Это такой инструмент, с помощью которого компании принимают решения на основе данных, будь то одобрение кредита, оценка благонадежности клиентов или прогнозирование рисков.

Эта система рассчитывает балл на основе информации о клиенте и выдает ответ «выдать» или «не выдать» кредит. Но традиционные кредитные модели исключают значительную часть населения, которая не набрала внушительной кредитной истории или просто имеет слишком мало данных для оценки. По данным TransUnion, США более 45 миллионов человек «невидимы» для кредитных систем. В других странах доля людей, находящихся за пределами внимания кредитных бюро, еще выше. В Индии количество таких «невидимок» составляет почти 63%, в ЮАР 51%, а в Гонконге 16%. И тут в игру вступает ML.

Модели машинного обучения могут помочь финансовым организациям учитывать больше данных при оценке заемщиков и принимать более точные решения о кредитовании без увеличения операционных рисков. Они позволяют сделать этот процесс более точным, быстрым и адаптирующимся к меняющимся условиям. Преимущества ML-скоринга очевидны: решения принимаются на основе больших объемов данных, минимизируются ошибки, а производительность бизнеса увеличивается за счёт автоматизации.

Как это работает на практике?

Чтобы модель корректно выполняла скоринг, существуют несколько этапов:

Сбор данных

Первым шагом в построении скоринговой модели является сбор данных, который включает разнообразные сведения о заемщике. Чем более разнообразны и точны данные, тем лучше модель сможет предсказать риск невозврата кредита. Обычно используются следующие типы данных:

Демографические данные: возраст, пол, семейное положение, наличие детей. Например, молодые заемщики могут демонстрировать более рисковое поведение, а семейные люди часто рассматриваются как более стабильные.
История кредитов: данные о прошлых кредитах — выплачивались ли они вовремя или были задержки. Эта информация позволяет оценить надежность заемщика. Например, заемщик с историей без просрочек, скорее всего, покажет хорошую дисциплину и в будущем.
Уровень доходов: информация о заработке заемщика и источниках его дохода. Чем выше доход, тем больше вероятность, что заемщик сможет выполнять свои обязательства. Например, заемщик с постоянной высокой зарплатой из крупной компании вызывает меньше сомнений, чем фрилансер с нерегулярным доходом.
Дополнительные данные: наличие имущества (автомобиль, недвижимость), образование, текущее место работы и даже социальные данные, такие как активность в соцсетях. Эти данные помогают более точно моделировать риск заемщика.
Макроэкономические показатели: уровень инфляции, ключевая ставка, курс валют и стоимость потребительской корзины на момент выдачи кредита. Например, высокий уровень инфляции или растущая ключевая ставка сигнализируют об увеличении финансовой нестабильности, что также следует учитывать при оценке рисков.

Предобработка данных

Эффективность моделей ML во многом зависит от качества и релевантности данных, используемых для обучения. Правильный выбор значимых признаков, таких как возраст, уровень дохода, история запросов в кредитные бюро, географическое местоположение и многие другие, существенно улучшает точность моделей. Обычно она включает такие шаги:

Заполнение пропусков: если данные о каком-то признаке отсутствуют, можно использовать средние значения или медиану. Например, если информация о доходе у части заемщиков не указана, можно воспользоваться усреднённым доходом по возрастной или профессиональной группе.
Обработка выбросов: иногда встречаются аномальные значения, например, возраст «100 лет» или доход «1 миллиард рублей». Эти выбросы нужно либо исключить, либо скорректировать, чтобы не исказить работу модели.
Группировка признаков: некоторые признаки могут иметь слишком много уникальных значений, например, профессия заемщика. В таких случаях имеет смысл объединить их в более крупные категории, например, по отраслям («инженеры», «менеджеры», «строители»), чтобы сократить разнообразие и упростить модель.
Исключение нерелевантных данных: признаки с большим количеством пропусков или те, которые не оказывают существенного влияния на предсказания, могут быть исключены. Например, если менее 5% заемщиков указали свое образование, этот признак можно убрать.
Оценка признаков по уровню важности: Один из инструментов, активно применяемых для анализа важности признаков, — SHAP (SHapley Additive exPlanations). Этот метод позволяет понять, какой вклад каждый признак вносит в окончательное решение модели.

Например, как мы видели в одном из примеров, кредитный рейтинг заемщика (score_bki) оказался самым важным фактором для предсказания его платежеспособности. Анализ этих данных помогает лучше понять, какие характеристики заемщиков критичны при оценке их рисков.

Обучение модели

В основе многих моделей скоринга лежит задача классификации. Это может быть бинарная классификация, при которой модель определяет, является ли заемщик «хорошим» или «плохим», или многоклассовая классификация, где заемщиков делят на несколько категорий, отражающих степень их кредитоспособности. Примеры алгоритмов, используемых для этих целей:

Логистическая регрессия: наиболее популярная и простая модель для скоринга, которая прогнозирует вероятность дефолта заемщика (например, 0 — дефолт, 1 — нет дефолта). Модель состоит из уравнения вида w1x1+w2x2+w3x3 + …wnxn = y,

где x1..xn‑ значения независимых переменных (значения в столбцах таблицы),

w1..wn — веса этих переменных, которые модель выставляет на основании исторических данных по уровню важности каждой переменной

y — предсказанное значение 0/1 (выдать кредит/ не выдать кредит) Модель строит зависимость между признаками (данные заемщика) и вероятностью того, что он выполнит свои обязательства.

Деревья решений и случайные леса:

Дерево решений — это алгоритм машинного обучения, который классифицирует данные, последовательно принимая решения на основе значений их признаков. Он представляет собой структуру с узлами, где каждый узел содержит условие разделения данных на подгруппы, а конечные узлы (листья) дают итоговое предсказание. Дерево решений легко интерпретировать и визуализировать, но его можно переобучить, поэтому часто применяют техники ограничения глубины или обрезки дерева.

Градиентный бустинг (XGBoost, LightGBM):

Градиентный бустинг строит ансамбли простых моделей, например, деревьев решений, где каждая следующая модель учится на ошибках предыдущей. Бустинг называется градиентным, так как для поиска наилучших значений (минимальных значений функции потерь) используется метод градиентного спуска.

Оценка качества моделей

При разработке моделей для кредитного скоринга обучение направлено на минимизацию функции потерь, соответствующей специфике задачи. Если модель предсказывает скоринговыйбалл (уровень «доверия» к клиенту), то для оценки качества обученной модели применяются метрики линейной регрессии, такие как MSE (среднеквадратичная ошибка), RMSE (корень из MSE), MAE (средняя абсолютная ошибка) и SMAPE (симметричная средняя абсолютная процентная ошибка).

Если же модель принимает решение о выдаче/невыдаче кредита, то для оценки качества используются такие метрики как F1-score,ROC-AUC (площадь под кривой ошибок),,Precision(точность),Recall (полнота).

(ROC-кривая)

Минимизация этих метрик позволяет модели более точно предсказывать вероятность дефолта, что помогает в оценке рисков заемщиков.

Прогнозирование

После завершения обучения модель может делать прогнозы, основанные на новых данных о заемщиках. Основная задача модели — оценить вероятность невозврата кредита. Прогноз может выражаться в виде оценки риска (например, от 0 до 1, где 1 — высокий риск, а 0 — низкий) или в виде конкретного решения (например, «одобрить» или «отказать» в кредите).

Пример: если модель видит, что заемщик имеет высокий доход, стабильную работу и хорошую кредитную историю, она скорее всего отнесёт его к категории благонадёжных. Если же есть признаки нестабильности, такие как нерегулярный доход или частые просрочки, вероятность отказа возрастет.

Классификация заемщиков

Заемщиков разделяют на категории, анализируя множество признаков:

Благонадежные заемщики: обычно это люди с высоким доходом, стабильной работой, хорошей кредитной историей и активами (например, наличием автомобиля или недвижимости). Для таких заемщиков модель предсказывает высокую вероятность возврата кредита.
Неблагонадежные заемщики: сюда попадают заемщики с нестабильной работой, низким доходом или плохой кредитной историей. Модель предсказывает высокий риск невозврата кредита.

Например, заемщик с высоким уровнем образования и наличием автомобиля может получить одобрение, даже если его текущий доход ниже среднего, потому что другие признаки повышают его шансы. С другой стороны, заемщик с нерегулярной занятостью и плохой историей погашения кредитов скорее всего будет отвергнут.

Распространенные проблемы существующих решений

Несмотря на эффективность нейронных сетей в классификации заемщиков, некоторые из текущих решений имеют свои ограничения:

Ограничение на понимание контекста: Модели, ориентированные только на предсказание исхода на основе данных заемщика, не учитывают важные макроэкономические и социальные факторы. Например, заемщик может временно оказаться неплатежеспособным из-за кризиса, несмотря на хорошую кредитную историю. Игнорирование контекста ведет к ошибочным решениям, что снижает эффективность модели.
Уязвимость к мошенническим схемам: Мошенники часто целенаправленно накапливают положительную кредитную историю, чтобы в конечном итоге взять крупные кредиты и исчезнуть. Классические ML модели, опирающиеся на историю кредитных операций, не в состоянии распознать этот риск, так как они не оценивают взаимосвязанные факторы.
Невозможность планирования и мониторинга в реальном времени: Ключевая проблема традиционных моделей скоринга заключается в их статичности. В то время как бизнес-задачи, особенно в банковской сфере, требуют динамической оценки рисков. В этом плане современные ML-модели позволяют осуществлять мониторинг рисков в реальном времени с использованием потоков данных (например, с обновлениями финансовой информации клиента, макроэкономических индикаторов и других факторов).

Поэтому, несмотря на активное применение нейронных сетей в скоринге, мы можем понять, что многие из текущих решений всё ещё оторваны от реального бизнеса. А что вы думаете — как сильно ML влияет на управление рисками в вашей компании? Используете ли вы в своих организациях ML для оценки рисков? Делитесь своим опытом в комментариях!

ссылка на оригинал статьи https://habr.com/ru/articles/858540/