Исследование: как скоро ИИ будет работать полный рабочий день

Недавний анализ METR Evaluations показывает, что способность систем искусственного интеллекта поддерживать выполнение задач улучшается быстрыми темпами. Продолжительность автономной работы ИИ удваивается каждые семь месяцев, а к 2027 году системы смогут работать восьмичасовой рабочий день с 50%-ным показателем успешности.

Аналитики METR установили чёткие границы для тестирования успешности длительной работы ИИ. Инструкции для каждой задачи однозначные и предлагают минимальный дополнительный контекст, необходимый для понимания. Каждая задача поставляется с простой для описания алгоритмической функцией оценки.

В то же время большинство задач, выполняемых инженерами-программистами или машинным обучением, как правило, требуют объёмные ссылки на предшествующий контекст, а также не формулируются однозначно. Таким образом, тесты METR сосредоточены на условиях, которые не всегда применимы в реальных сценариях.

Кроме того, 50%-ный показатель успеха вряд ли можно назвать высоким, если сопоставить его с человеческой работой.

Тем не менее, когда пользователь X визуализировал данные METR, отобразив показатели точности 80%, 95% и 99% на логарифмической шкале, результаты подтвердили выводы аналитиков. Шкала показывает, что пороги точности ИИ быстро повышаются, в то время как достижение почти идеальной производительности (99%) следует по гораздо более плавной кривой. Это подчёркивает проблему достижения высокой надёжности выходных данных ИИ. Если достичь показателя в 80% для четырёхчасовых задач можно уже к 2028 году, то показатель в 99% потребует экспоненциально больше усилий.

Даже быстрая, дешёвая и точная на 50% система может изменить правила игры — при условии, что человек сможет быстро проверить её работу. Однако подобный мониторинг может сделать внедрение ИИ нерентабельным.

С другой стороны, показатель в 80% кажется более реальным для практического внедрения. Например, для каждой задачи требуется 1 млн токенов стоимостью примерно по $10, а затем человеческая проверка в течение 15 минут. Если задача выполнена неправильно, то живой специалист переделает работу примерно за четыре часа. При этом средняя оплата человеческого труда будет составлять $100 в час. Если же выполнять тысячу таких задач вручную, то это потребует 4000 человеко-часов и будет стоить $400 000. Таким образом, делегирование работы ИИ с последующей проверкой будет экономически выгоднее.

Главы компаний из сферы ИИ уже указывают на то, что программистам придётся приобретать новые навыки. Так, генеральный директор OpenAI Сэм Альтман уверен, что ключевым навыком для начинающих программистов становится умение эффективно применять инструменты искусственного интеллекта. Ранее генеральный директор Anthropic Дарио Амодеи заявил, что ИИ будет писать весь код для программистов в течение года. В январе генеральный директор Meta* Марк Цукерберг рассказал Джо Рогану, что компания разрабатывает новый ИИ, который сможет писать «большую часть кода» в приложениях компании.

_{*Meta Platforms признана экстремистской организацией, её деятельность в России запрещена}

ссылка на оригинал статьи https://habr.com/ru/articles/894870/

Исследование: как скоро ИИ будет работать полный рабочий день

Комментарии

Добавить комментарий Отменить ответ