
Center for AI Safety (CAIS) и Scale Labs обновили результаты Remote Labor Index (RLI) — бенчмарка, который проверяет ИИ-агентов не на синтетических тестах, а на настоящих фриланс-заказах: 3D и CAD, архитектура, дизайн, видео и анимация, аудио, аналитика данных, веб-приложения. Живой эксперт сравнивает работу агента с эталонной работой оплаченного профессионала, и решает, справился ли ИИ. Новая модель Claude Fable 5 показала лучший результат за всю историю теста по ключевой метрике automation rate (доля проектов, принятых как минимум наравне с человеческой работой) — 16,1%. Это почти вдвое больше, чем у Opus 4.8 (8,3%), и еще больше, чем у GPT-5.5 (6,3%).
Когда RLI только запустили в конце октября 2025 года, лучший агент автоматизировал лишь 2,5% проектов. Планка росла постепенно: предыдущим лидером был Opus 4.6 со связкой Claude Cowork — 4,17%. А за неполные восемь месяцев показатель вырос примерно в шесть раз, и авторы теста называют это конкретным сигналом того, насколько быстро ИИ-агенты приближаются к реальной экономической пользе, а не просто к более высоким баллам в лабораторных бенчмарках.
У результата Fable 5 есть оговорка, напрямую связанная с историей вокруг экспортных ограничений на эту модель: CAIS успели прогнать только 218 из 240 проектов бенчмарка, после чего доступ к Fable 5 ограничили по решению властей США. Оставшиеся 22 проекта равномерно распределены по всем категориям сложности, и даже в худшем случае, если бы Fable 5 провалила все из них, итоговый показатель все равно составил бы 14,6% — выше, чем у любой другой модели.
При этом принятая работа не означает безупречное качество — планка automation rate это сравнение с тем, что реально сдал по этому заказу живой фрилансер, а не с абстрактным идеалом. То есть, бенчмарк учитывает, что живые подрядчики работают не идеально.
Насколько велика дистанция до настоящего профессионального уровня, хорошо видно на примерах, которые не попали в число побед: скажем, в задаче на 3D-модель кольца с заменой огранки камня дизайн Fable 5 заметно обошел прошлые модели, но при ближайшем разборе остается неаккуратным — оправа камня сделана слишком просто, и такую работу, по словам авторов, профессиональной не назовешь.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1054574/