Прогнозирование банкротства физических лиц: опыт t2 Fintech

от автора

Введение

Привет, я Булат Юсупов, бизнес-аналитик команды t2 Fintech. Я расскажу о том, как наша команда исследовала признаки и индикаторы, по которым можно прогнозировать финансовое состояние пользователя. И сегодня поговорим о банкротстве.

Вопрос банкротства физических лиц – острая тема. Количество банкротов в России в 2023 году составило 350 тысяч человек, против 278 тысяч в 2022, а вместе с этим и сумма общего долга изменилась со 384 до 437 млрд руб (https://fedresurs.ru/news/16e6ef70-49cd-4e6b-8f84-691963b99a9e). Начало процедуры банкротства физических лиц открывает двери для реструктуризации долгов и освобождения от финансового бремени, но также требует более детального анализа этого явления. Для финансовых организаций и компаний возможность прогнозировать банкротства представляет основную ценность, поскольку помогает избегать рисков и принимать обоснованные решения.

Источник целевой переменной

Основным источником целевой переменной послужил ЕФРСБ – федеральный ресурс, содержащий отчеты о судебных делах и банкротствах. Наличие или отсутствие дела о банкротстве в будущем и стало бинарным признаком, используемым для обучения. Следует отметить, что наличие аффилированных дел о банкротстве не всегда означает, что банкротство действительно произошло. Для более точного определения банкротства необходимо углубляться в детали документов и анализировать судебное решение. Также на данном ресурсе представлена подробная информация как по физическим лицам, так и по юридическим.

Моделирование

Так мы и решили, что пора нам взять дело в свои руки и начать разработку модели прогнозирования банкротства заемщика. Данная модель прогнозирует риск банкротства заемщика в течение трех лет. Если совсем конкретизировать, то мы добились предсказания вероятности, что заемщик решит попытаться банкротиться в следующие три года, с момента скоринга.
Процесс обучения модели состоял из этапов поиска и сбора соответствующих признаков, предобработки данных, фильтрации признаков, настройки гиперпараметров и валидация модели. В качестве базового алгоритма мы выбрали CatBoost из-за способности эффективно работать с категориальными переменными, которых имеется достаточное количество в сырых источниках.
С помощью разработанных нами стандартов разработки и созданных автоматизированных процедур, время, затраченное на разработку, значительно сокращается, что позволяет команде решать подобные задачи быстро и эффективно.

Качественный анализ

В качестве одного из инструментов выбора признаков использовался WOE-анализ и расчета информационного индекса (Information Value). Среди признаков, которые являются исключительными знаниями телеком-операторов, а также имеют достаточно высокий Information Value и значимость для моделей, оказались, к примеру такие, как наличие недействительного документа (doc_invalid), время жизни абонента (bc_lifetime), минимальная сумма на балансе (bal_min_amt), и общее количество отправленных SMS (sms_tot_cnt).
При генерации гипотез мы всегда предполагаем эмпирику, на которую будет опираться модель:

  • Наличие недействительного документа (doc_invalid): наличие недействительных или устаревших документов у абонента может свидетельствовать о риске мошенничества или нерегулярной активности. В телекоме корректность данных об абоненте напрямую влияет на его возможность полноценно использовать услуги.

  • Время жизни абонента (bc_lifetime): касательно времени жизни абонента предполагается, что чем дольше человек является активным абонентом, тем более он лоялен и надежен. Время жизни абонента может коррелировать с возрастом и стабильностью его поведения, а также с его общей активностью. Абоненты с долгим временем жизни, как правило, показывают более устойчивые и предсказуемые модели поведения, что облегчает анализ их активности и формирование прогнозов.

  • Минимальная сумма на балансе (bal_min_amt): баланс играет важную роль в определении финансового состояния абонента. Регулярное низкое значение баланса говорит о нечастом использовании услуг, возможных финансовых трудностях. И наоборот, абоненты с высоким значением баланса часто демонстрируют большую финансовую стабильность и предсказуемость.

  • Общее количество отправленных SMS (sms_tot_cnt): количество отправленных сообщений является показателем активности абонента. Большое количество SMS может говорить как о высоком уровне вовлеченности, так и о возможной подозрительной активности, например спам, а также, SMS-информирование о задолженностях и из коллекторских агентств.

    doc_invalid

    doc_invalid
bc_lifetime

bc_lifetime
bal_min_amt

bal_min_amt
sms_tot_cnt

sms_tot_cnt

Метрики

Определение метрик
Метрики – это количественные показатели, используемые для оценки качества работы модели машинного обучения. Основные метрики, используемые для оценки бинарных классификационных моделей, включают F1-меру, полноту, точность и ROC AUC.

  • F1-мерa – это гармоническое среднее между полнотой и точностью, обеспечивает баланс между ними.

  • Recall (Полнота) – это доля правильно предсказанных положительных примеров среди всех реальных положительных примеров.

  • Precision (Точность) – это доля истинных положительных примеров среди всех положительных примеров, предсказанных моделью.

  • ROC AUC (Площадь под ROC-кривой) – это обобщенная метрика, оценивающая способность модели различать положительные и отрицательные классы на разных порогах классификации.

Оценка работоспособности модели выполнялась в соответствии с этими метриками. Пространство признаков было оптимизировано на основе метрики ROC AUC. Результаты оценки модели демонстрировали превосходные показатели метрик: TRAIN AUC = 0.86 и TEST AUC = 0.82, что свидетельствует о высокой точности и надежности модели для данного сегмента.

Применение

Модель прогнозирования банкротства физических лиц может быть использована для достаточно широкого набора бизнес-кейсов, в том числе в качестве дополнительного критерия. Особые признаки, доступные только телеком-операторам, такие как балансы, лайфтайм, признаки по контактам абонентов между собой и абонентами других операторов, дают преимущество при использовании не только банкам, но и маркетплейсам, страховым компаниям. Для банков, например, модель может помочь уменьшить кредитные риски при принятии решения о кредитовании, улучшить обслуживание клиентов через предоставление персонализированных предложений и услуг. Маркетплейсы могут оценить своих клиентов при предоставлении BNPL-продуктов, а также проверить своих продавцов, самозанятых и ИП. Страховым компаниям открывается возможность исключать случаи мошенничества проблемных клиентов.

Развитие

Мы планируем улучшить метрики точности, добавить новую функциональность, в частности, скоринг юридических лиц на банкротство. Основой доработок подобной модели является, несомненно, расширение набора источников данных и углубленный feature engineering. Именно уникальные данные абонентской активности и опыт t2 обеспечивают дальнейший рост качества, причем не только собственных моделей, но моделей партнеров компании. Постоянное улучшение и интеграция новейших достижений в области анализа данных и машинного обучения в конечном итоге приведут нас к инструменту, который будет являться неотъемлемой частью управления рисками.

Заключение

Желание создать новый продукт привело нашу команду к тому, что мы представили модель прогнозирования банкротства физических лиц. Благодаря данным телеком-оператора и нашим исследованиям, нам удалось создать продукт, представляющий значительные преимущества компаниям из разных секторов бизнес-среды. Простая архитектура решения на основе одного алгоритма машинного обучения и данных t2 уже показала хорошие результаты точности и может успешно применяться в различных бизнес-кейсах. Будущие доработки, направленные на повышение точности и расширения функциональности, позволят повысить надежность и эффективность, а внедрение все новых технологий и методологий обеспечат создание незаменимого инструмента для управления рисками.


ссылка на оригинал статьи https://habr.com/ru/articles/849374/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *