Введение
Привет, я Булат Юсупов, бизнес-аналитик команды t2 Fintech. Я расскажу о том, как наша команда исследовала признаки и индикаторы, по которым можно прогнозировать финансовое состояние пользователя. И сегодня поговорим о банкротстве.
Вопрос банкротства физических лиц – острая тема. Количество банкротов в России в 2023 году составило 350 тысяч человек, против 278 тысяч в 2022, а вместе с этим и сумма общего долга изменилась со 384 до 437 млрд руб (https://fedresurs.ru/news/16e6ef70-49cd-4e6b-8f84-691963b99a9e). Начало процедуры банкротства физических лиц открывает двери для реструктуризации долгов и освобождения от финансового бремени, но также требует более детального анализа этого явления. Для финансовых организаций и компаний возможность прогнозировать банкротства представляет основную ценность, поскольку помогает избегать рисков и принимать обоснованные решения.
Источник целевой переменной
Основным источником целевой переменной послужил ЕФРСБ – федеральный ресурс, содержащий отчеты о судебных делах и банкротствах. Наличие или отсутствие дела о банкротстве в будущем и стало бинарным признаком, используемым для обучения. Следует отметить, что наличие аффилированных дел о банкротстве не всегда означает, что банкротство действительно произошло. Для более точного определения банкротства необходимо углубляться в детали документов и анализировать судебное решение. Также на данном ресурсе представлена подробная информация как по физическим лицам, так и по юридическим.
Моделирование
Так мы и решили, что пора нам взять дело в свои руки и начать разработку модели прогнозирования банкротства заемщика. Данная модель прогнозирует риск банкротства заемщика в течение трех лет. Если совсем конкретизировать, то мы добились предсказания вероятности, что заемщик решит попытаться банкротиться в следующие три года, с момента скоринга.
Процесс обучения модели состоял из этапов поиска и сбора соответствующих признаков, предобработки данных, фильтрации признаков, настройки гиперпараметров и валидация модели. В качестве базового алгоритма мы выбрали CatBoost из-за способности эффективно работать с категориальными переменными, которых имеется достаточное количество в сырых источниках.
С помощью разработанных нами стандартов разработки и созданных автоматизированных процедур, время, затраченное на разработку, значительно сокращается, что позволяет команде решать подобные задачи быстро и эффективно.
Качественный анализ
В качестве одного из инструментов выбора признаков использовался WOE-анализ и расчета информационного индекса (Information Value). Среди признаков, которые являются исключительными знаниями телеком-операторов, а также имеют достаточно высокий Information Value и значимость для моделей, оказались, к примеру такие, как наличие недействительного документа (doc_invalid), время жизни абонента (bc_lifetime), минимальная сумма на балансе (bal_min_amt), и общее количество отправленных SMS (sms_tot_cnt).
При генерации гипотез мы всегда предполагаем эмпирику, на которую будет опираться модель:
-
Наличие недействительного документа (doc_invalid): наличие недействительных или устаревших документов у абонента может свидетельствовать о риске мошенничества или нерегулярной активности. В телекоме корректность данных об абоненте напрямую влияет на его возможность полноценно использовать услуги.
-
Время жизни абонента (bc_lifetime): касательно времени жизни абонента предполагается, что чем дольше человек является активным абонентом, тем более он лоялен и надежен. Время жизни абонента может коррелировать с возрастом и стабильностью его поведения, а также с его общей активностью. Абоненты с долгим временем жизни, как правило, показывают более устойчивые и предсказуемые модели поведения, что облегчает анализ их активности и формирование прогнозов.
-
Минимальная сумма на балансе (bal_min_amt): баланс играет важную роль в определении финансового состояния абонента. Регулярное низкое значение баланса говорит о нечастом использовании услуг, возможных финансовых трудностях. И наоборот, абоненты с высоким значением баланса часто демонстрируют большую финансовую стабильность и предсказуемость.
-
Общее количество отправленных SMS (sms_tot_cnt): количество отправленных сообщений является показателем активности абонента. Большое количество SMS может говорить как о высоком уровне вовлеченности, так и о возможной подозрительной активности, например спам, а также, SMS-информирование о задолженностях и из коллекторских агентств.
Метрики
Определение метрик
Метрики – это количественные показатели, используемые для оценки качества работы модели машинного обучения. Основные метрики, используемые для оценки бинарных классификационных моделей, включают F1-меру, полноту, точность и ROC AUC.
-
F1-мерa – это гармоническое среднее между полнотой и точностью, обеспечивает баланс между ними.
-
Recall (Полнота) – это доля правильно предсказанных положительных примеров среди всех реальных положительных примеров.
-
Precision (Точность) – это доля истинных положительных примеров среди всех положительных примеров, предсказанных моделью.
-
ROC AUC (Площадь под ROC-кривой) – это обобщенная метрика, оценивающая способность модели различать положительные и отрицательные классы на разных порогах классификации.
Оценка работоспособности модели выполнялась в соответствии с этими метриками. Пространство признаков было оптимизировано на основе метрики ROC AUC. Результаты оценки модели демонстрировали превосходные показатели метрик: TRAIN AUC = 0.86 и TEST AUC = 0.82, что свидетельствует о высокой точности и надежности модели для данного сегмента.
Применение
Модель прогнозирования банкротства физических лиц может быть использована для достаточно широкого набора бизнес-кейсов, в том числе в качестве дополнительного критерия. Особые признаки, доступные только телеком-операторам, такие как балансы, лайфтайм, признаки по контактам абонентов между собой и абонентами других операторов, дают преимущество при использовании не только банкам, но и маркетплейсам, страховым компаниям. Для банков, например, модель может помочь уменьшить кредитные риски при принятии решения о кредитовании, улучшить обслуживание клиентов через предоставление персонализированных предложений и услуг. Маркетплейсы могут оценить своих клиентов при предоставлении BNPL-продуктов, а также проверить своих продавцов, самозанятых и ИП. Страховым компаниям открывается возможность исключать случаи мошенничества проблемных клиентов.
Развитие
Мы планируем улучшить метрики точности, добавить новую функциональность, в частности, скоринг юридических лиц на банкротство. Основой доработок подобной модели является, несомненно, расширение набора источников данных и углубленный feature engineering. Именно уникальные данные абонентской активности и опыт t2 обеспечивают дальнейший рост качества, причем не только собственных моделей, но моделей партнеров компании. Постоянное улучшение и интеграция новейших достижений в области анализа данных и машинного обучения в конечном итоге приведут нас к инструменту, который будет являться неотъемлемой частью управления рисками.
Заключение
Желание создать новый продукт привело нашу команду к тому, что мы представили модель прогнозирования банкротства физических лиц. Благодаря данным телеком-оператора и нашим исследованиям, нам удалось создать продукт, представляющий значительные преимущества компаниям из разных секторов бизнес-среды. Простая архитектура решения на основе одного алгоритма машинного обучения и данных t2 уже показала хорошие результаты точности и может успешно применяться в различных бизнес-кейсах. Будущие доработки, направленные на повышение точности и расширения функциональности, позволят повысить надежность и эффективность, а внедрение все новых технологий и методологий обеспечат создание незаменимого инструмента для управления рисками.
ссылка на оригинал статьи https://habr.com/ru/articles/849374/
Добавить комментарий