Самосовершенствующийся ИИ: что происходит внутри Anthropic

от автора

На протяжении большей части истории ИИ каждый шаг в его разработке делали люди. Но в Anthropic мы всё больше делегируем часть этой работы самим ИИ-системам — и это ускоряет наш прогресс.

Если тенденция продолжится и ресурсов вычислений будет достаточно, она ведёт к системе, способной полностью автономно проектировать и разрабатывать собственного преемника. Это называется рекурсивным самосовершенствованием. Мы ещё не там, и оно не неизбежно. Но оно может наступить раньше, чем большинство институтов успеет подготовиться.

Опираясь на публичные бенчмарки и ранее не публиковавшиеся внутренние данные Anthropic, The Anthropic Institute показывает: ИИ уже ускоряет разработку ИИ-систем. Один из примеров: сегодня инженеры Anthropic в среднем коммитят в 8 раз больше кода в квартал, чем в 2021–2025 годах.

Технические тенденции, описанные в этой статье, говорят о том, что ИИ-системы в ближайшие годы станут значительно мощнее. Последствия огромны. ИИ, способный строить себя сам, — это крупнейшее событие в истории технологий, которое может принести колоссальную пользу в науке, медицине и других областях. Но полноценное рекурсивное самосовершенствование может и усилить риски потери людьми контроля над ИИ-системами. Если системы смогут полностью строить собственных преемников, вопросы их защиты, мониторинга и управления поведением становятся несравнимо важнее.


  1. 2021–2023 — Создание первого Claude. В ранние годы работа в Anthropic выглядела как работа в любой другой технологической компании: люди пишут код и документацию на ноутбуках.

  2. 2023–2025 — Чат-боты. Сотрудники начали использовать ранние чат-боты для отдельных задач: генерировать короткие сниппеты кода и вставлять результат в текстовые редакторы.

  3. 2025–2026 — Агенты-кодировщики. По мере роста возможностей агенты начали самостоятельно писать и редактировать код — иногда целые файлы.

  4. Сейчас — Автономные агенты. Агенты теперь могут запускать код сами и делегировать часы работы другим агентам.

  5. 20XX? — Замыкание петли. В будущем агенты могут стать достаточно способными, чтобы самостоятельно создавать и обучать модели. Если это произойдёт, будущие версии Claude смогут непрерывно улучшаться самим Claude.

Если статья понравится — приглашаю в канал AI for Devs. Каждый день публикую похожие материалы: модели, агенты, практические кейсы и новости из мира AI.

Внешние данные

Скорость улучшения ИИ-моделей растёт. Длина задач, которые они способны надёжно выполнять самостоятельно, удваивается примерно каждые четыре месяца — по сравнению с прежним темпом удвоения каждые семь месяцев. В марте 2024 года Claude Opus 3 справлялся с задачами, на которые человеку требовалось около четырёх минут. Год спустя Claude Sonnet 3.7 вышел на уровень задач продолжительностью около полутора часов. Ещё через год Claude Opus 4.6 осиливал 12-часовые задачи.¹ Если тенденция сохранится, задачи, на которые уходят дни, могут оказаться в зоне доступности ИИ уже в этом году. К 2027 году ИИ-системы могут справляться с задачами, на которые у человека уходят недели.

Та же картина на бенчмарках по программированию и исследовательским задачам. Бенчмарки измеряют производительность моделей в конкретной области и «насыщаются», когда модели достигают близкой к 100% точности.² SWE-bench — стандартный тест реальных задач разработки: моделям даётся настоящий open-source репозиторий и реальный баг-репорт, задача — написать изменение кода, исправляющее проблему и проходящее тесты проекта. За два года модели выросли с однозначных процентов до насыщения бенчмарка.

CORE-Bench проверяет, способна ли модель воспроизвести существующее исследование — необходимое условие для проведения оригинальных. Модели дают код и данные из опубликованной статьи, просят перезапустить всё и подтвердить воспроизводимость результатов. В 2024 году ИИ-системы справлялись с этим примерно в 20% случаев; пятнадцать месяцев спустя бенчмарк оказался насыщен. METR, которая запускает бенчмарк для измерения длительности задач, установила, что Claude Mythos Preview способен работать «как минимум» 16 часов и находится «на верхней границе того, что [METR] может измерить без новых задач».

Публичные бенчмарки многое говорят о возможностях систем. Но они не могут показать, насколько ИИ-системы уже ускоряют саму разработку ИИ. Для этого нужны прямые данные изнутри таких компаний, как Anthropic.


Внутренние данные Anthropic

Создание SOTA модели требует двух категорий работы. Есть инжиниринг: написание кода, развёртывание инфраструктуры, контроль обучения модели. И есть исследования: решение о том, какие эксперименты проводить, интерпретация результатов, генерация новых идей.

По обоим направлениям картина единая. В инжиниринге Claude теперь можно передать недостаточно конкретизированную задачу и ожидать, что он разберётся, как её решить: человек задаёт цель, но больше не обязан задавать метод. В исследованиях Claude уже может сравняться или превзойти опытного человека при выполнении хорошо заданного эксперимента. Однако значительный разрыв сохраняется там, где Claude приходится самостоятельно выбирать цели — в инжиниринге и в науке одновременно. Именно это разделяет сегодняшний ИИ и будущую систему, способную автономно проектировать собственного преемника.

В Anthropic обычная практика давать сотрудникам всё более открытые и важные задачи по мере накопления опыта. Поначалу они исполняют конкретную задачу, заданную кем-то другим: «Кнопка экспорта не работает, исправьте». С опытом им передают цель, а метод они выбирают сами: «Разберитесь, почему сеть тормозит под нагрузкой». На самых старших уровнях они сами решают, над чем работать: «Что команде строить в следующем квартале?» Внутренние данные Anthropic позволяют проследить, как далеко Claude продвинулся в решении задач разного типа.

Claude пишет значительную долю кода Anthropic. По состоянию на май 2026 года более 80% кода, который попадает в кодовую базу Anthropic, написал Claude.³ До запуска Claude Code в исследовательском превью в феврале 2025 года эта цифра была в районе единиц процентов. Сдвиг отражается и в объёме кода на одного инженера. Строки кода в день на инженера оставались постоянными в течение первых четырёх лет Anthropic (2021–2024), а затем начали расти в 2025 году, когда Claude перешёл от предложений кода к его самостоятельному запуску. Наклон стал круче в 2026 году, когда модели начали работать автономно на более длинных и сложных задачах. Эти два перегиба показаны на графике ниже. Во втором квартале 2026 года типичный инженер мёрджил в 8 раз больше кода в день, чем в 2024 году.⁴ Это связано с тем, что большая часть кода пишется Claude, тогда как инженер управляет и проверяет, а не печатает сам.

Столбчатый график объёма кода на человека в квартал с Q2 2021 по Q2 2026. На графике отмечены даты выхода восьми моделей: Claude 1, Claude 2, Claude 3, Claude 4, Claude Code, Claude Sonnet 4.5, Claude Opus 4.5, Claude Mythos Preview (внутренний доступ) и Claude Mythos Preview.

Столбчатый график объёма кода на человека в квартал с Q2 2021 по Q2 2026. На графике отмечены даты выхода восьми моделей: Claude 1, Claude 2, Claude 3, Claude 4, Claude Code, Claude Sonnet 4.5, Claude Opus 4.5, Claude Mythos Preview (внутренний доступ) и Claude Mythos Preview.

Оговорка: строки кода — несовершенная метрика, поскольку измеряет количество, а не качество. Так что 8× строк кода/инженер/день во втором квартале 2026 года — почти наверняка преувеличение реального роста производительности. Тем не менее это индикатор ускорения. В Anthropic не поощряют за количество строк; сотрудники просто производят больше кода, потому что используют ИИ для его написания.

Рост объёма кода подкреплён субъективными ощущениями значительного роста производительности. В опросе 130 сотрудников из исследовательских команд Anthropic в марте 2026 года медианный респондент оценил свою производительность с Mythos Preview примерно в 4 раза выше, чем без доступа к каким-либо ИИ-моделям, применительно к задачам, которыми они и так занимались.⁵ Мы ожидаем, что реальная степень ускорения в марте была несколько ниже.⁶ Тем не менее общий тезис нам кажется правдоподобным и согласуется с другими наблюдениями: значительная часть технического персонала Anthropic выполняет свою основную работу в несколько раз быстрее, чем без ИИ-помощи.

Мы также видим, что сотрудники Anthropic используют Claude для работы, которая иначе бы не случилась: например, для создания исследовательских инструментов и устранения давно отложенных технических долгов. Так, в апреле 2026 года Claude поставил более 800 исправлений, снизивших частоту определённого класса ошибок API в тысячу раз. Инженер, курировавший Claude, оценил, что человеку на эту работу ушло бы четыре года: исправлять чужие баги медленно и трудоёмко, а человеку сложно удерживать в голове столько незнакомого контекста.

«Я начал активно «клодифицировать» работу примерно год назад. Это было безумное путешествие, и вот уже ~5 месяцев, как я сам не написал ни строчки кода.»

— сотрудник Anthropic

Код, который пишет Claude, «хорошего качества» и становится лучше. «Хороший код» — это два критерия: он работает, и он написан так, что другой инженер может его понять и развивать. По первому критерию данные однозначны. Частота, с которой сотрудники Anthropic исправляют, перенаправляют или берут управление у Claude прямо в середине задачи, неуклонно снижается уже год — включая самые сложные и открытые задачи. Речь о проблемах без чёткой постановки, где инженер и сам не знает, как выглядит ответ. Это видно по динамике успешности Claude на задачах разной сложности, показанной на графике ниже. Claude пишет рабочий код.

Линейный график успешности сессий Claude Code на четырёх типах задач — тривиальные, рутинные, сложные и открытые — для шести моделей: Claude Sonnet 4.5, Claude Opus 4.5, Claude Opus 4.6, Mythos Preview (внутренний доступ), Mythos Preview и Claude Opus 4.7.

Линейный график успешности сессий Claude Code на четырёх типах задач — тривиальные, рутинные, сложные и открытые — для шести моделей: Claude Sonnet 4.5, Claude Opus 4.5, Claude Opus 4.6, Mythos Preview (внутренний доступ), Mythos Preview и Claude Opus 4.7.

Как читать график: Успешность сессии определяется Claude-судьёй; сессия считается успешной, если агент Claude Code явно выполнил задачу пользователя без необходимости в исправлениях. Изменения в составе задач могут вызывать кратковременные колебания показателей.

На наиболее открытых задачах успешность Claude достигла 76% в мае 2026 года — рост на 50 процентных пунктов за шесть месяцев. Пример задачи этого уровня сложности: рутинное обновление начало приводить к сбоям десятков тысяч задач обучения. Инженер указал Claude на инцидент в проде с минимальным описанием и доступом к кластеру. Перебирая активные задачи и тестируя параметры среды одно за другим, Claude изолировал единственный малоизвестный флаг отладки, вызывавший сбой, воспроизвёл его надёжно и подтвердил исправление. Примерно за два часа Claude сделал то, что у человека заняло бы два-три дня.

По второму критерию — написание кода, понятного другим инженерам, — разрыв между человеком и ИИ сохраняется, но быстро сокращается. Единого мнения среди сотрудников Anthropic нет, но многие считают, что в конце 2025 года написанный Claude код всё ещё уступал по качеству написанному людьми, а сегодня примерно сравнялся с ним. Ожидаем, что в течение года Claude его превзойдёт.

Это изменило подход к ревью кода в Anthropic. Предлагаемые изменения в кодовую базу теперь читает автоматический Claude-ревьюер, который ищет баги, уязвимости и дефекты до мёрджа. Используя этот инструмент, мы провели ретроспективный анализ и обнаружили: автоматическое ревью Claude каждого изменения кодовой базы поймало бы примерно треть багов, стоявших за прошлыми инцидентами на claude.ai, до выхода в продакшн. Инженеры, написавшие тот код, — одни из лучших в мире по разработке этих систем. Claude теперь ловит ошибки, которые они пропускали.

«Написанный Claude код был несколько хуже написанного людьми в Anthropic в конце 2025 года, сегодня примерно на уровне паритета, и мы ожидаем, что в течение года он станет строго лучше.»

Claude хорошо проводит эксперименты для достижения заранее поставленной цели. Каждый раз, когда Anthropic выпускает модель, мы проводим один и тот же тест: даём Claude код, обучающий небольшую ИИ-модель, и просим ускорить его как можно больше при сохранении корректности. Цель и метрики успеха фиксированы заранее, задача Claude — находить ускорения, переписывая код, запуская его, замеряя и повторяя. Это миниатюрная версия исследовательского цикла. В мае 2025 года Claude Opus 4 в среднем давал ускорение ~3× относительно исходного кода. К апрелю 2026 года Claude Mythos Preview достигал ~52×. Для сравнения: опытный исследователь-человек потратил бы четыре-восемь часов, чтобы выйти на 4×.⁷ В этой части исследовательского процесса — оптимизации шагов внутри чётко заданного эксперимента — Claude за менее чем год перешёл от статуса «очень полезен» к статусу «выше человека».

«Сегодняшняя картина примерно такова: люди генерируют идеи, а модели реализуют, тестируют и оценивают их на [порядок] быстрее, чем прежде.»

Claude всё лучше предлагает собственные эксперименты. В апреле 2026 года Anthropic опубликовали первую демонстрацию того, как Claude ведёт открытый исследовательский проект от начала до конца. Агенты на базе Claude получили открытую задачу по безопасности ИИ — примерно так: может ли слабая модель надёжно контролировать более сильную? — и были предоставлены сами себе. Задача включала выдвижение гипотез, их проверку, обмен результатами с параллельными агентами и итерации. У задачи есть чёткий «пол» и «потолок»: пол — производительность слабого надзорщика в одиночку; потолок — результат сильной модели, обученной на правильных ответах. Два исследователя-человека примерно за неделю восстановили ~23% этого разрыва; агенты восстановили 97% за 800 совокупных часов, использовав ~$18 000 вычислений. Оговорки есть: результат не перенёсся напрямую на модели производственного масштаба, и люди по-прежнему ставили задачу и создавали метрику оценки. Но в этих рамках агенты самостоятельно проектировали каждый эксперимент. Постановка направления оставалась единственной значимой ролью человека.

«Claude сделал всё это с минимальной моей помощью за 1-2 дня. Думаю, если бы [молодой коллега] пришёл ко мне с такими результатами за то же время, я был бы умеренно впечатлён. Будущее уже здесь.»

Claude всё лучше направляет ход исследовательских сессий к результатам. Мы изучили реальные сессии Claude Code (с января по март 2026 года), где исследователи Anthropic работали с Claude над открытыми исследовательскими задачами: выяснить, почему учебный прогон постоянно падает, или почему модель плохо показывает себя на бенчмарке. В каждом случае мы нашли момент, где исследователь свернул не туда: преследовал направление, уведшее сессию в сторону, прежде чем она вернулась в колею. Затем мы показывали различным моделям Claude только работу до момента отклонения и спрашивали, что они сделают дальше. Отдельный Claude, видевший итог сессии целиком, судил, чей следующий шаг лучше — ИИ или человека.⁸

Поскольку мы намеренно выбирали моменты (n=129), где выбор человека заведомо имел пространство для улучшения, это не равноправное сравнение суждений модели и человека. Эти моменты дают набор реалистичных сложных ситуаций, где правильный следующий шаг неочевиден, а выбор человека служит полезным ориентиром для сравнения динамики моделей. По этой метрике лучшая модель ноября 2025 года (Opus 4.5) превосходила выбор человека в 51% случаев; к апрелю 2026 года (Mythos Preview) — в 64%. Повседневная исследовательская работа — это в основном цепочка таких решений о следующем шаге, что делает эту метрику значимым измерителем способности модели в конечном счёте самостоятельно вести исследование. Мы расцениваем этот результат как ранний сигнал того, что ИИ-системы совершенствуются в суждениях, от которых зависят ИИ-исследования.

Столбчатый график с заголовком «Может ли модель предложить лучший следующий шаг, чем человек?» Показана производительность девяти моделей: Claude 3 Haiku, Claude Sonnet 4, Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.5, Claude Sonnet 4.6, Claude Opus 4.6, Claude Opus 4.7 и Claude Mythos Preview.

Столбчатый график с заголовком «Может ли модель предложить лучший следующий шаг, чем человек?» Показана производительность девяти моделей: Claude 3 Haiku, Claude Sonnet 4, Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.5, Claude Sonnet 4.6, Claude Opus 4.6, Claude Opus 4.7 и Claude Mythos Preview.

Как читать график: Линия «практический потолок» измеряет «идеальный» ответ, написанный моделью, видевшей сессию целиком (включая её завершение).

«Сравнительное преимущество людей прямо сейчас по-прежнему в том, чтобы видеть общую картину и думать за пределами конкретной задачи.»


Как может выглядеть будущее работы в Anthropic?

Данные говорят о том, что роль человека сужается на каждом этапе процесса разработки ИИ. Когда качество кода, написанного людьми и ИИ, достигнет паритета, люди перестанут писать код полностью и перейдут только к его проверке. Но если они не смогут проверять код так быстро, как Claude его генерирует, ревью станет узким местом разработки ИИ. Аналогично: как только Claude сможет запускать эксперименты, вопрос сместится к «Какие из этих экспериментов стоит проводить?» Проще говоря: исполнение (написание кода, запуск эксперимента, получение результата) теперь почти ничего не стоит в человеческом времени, даже если по-прежнему стоит в вычислениях.

Область сравнительного преимущества людей пока — исследовательское чутьё и суждение, включая выбор важных задач, доверие к результатам и понимание того, когда подход зашёл в тупик.

«Работа (и жизнь) держалась на экономике малых взаимных услуг между людьми. «Помоги мне запустить этот скрипт?» […] каждая создавала небольшой долг, взаимную осведомлённость. [Claude] быстрее, не создаёт никакого долга, но каждый такой случай — упущенный повод для человеческого взаимодействия.»

«В дни, когда всё работает хорошо, я не могу отделаться от мысли, что ничто из того, что я делаю, не имеет значения — всё автоматизировано, быстрее и лучше, чем я когда-либо буду. Но потом наступают дни, когда всё ломается, и я не понимаю почему, и осознаю, что уже не очень понимаю, чем вообще занимался.»


А если мы ошибаемся?

Очевидное возражение против изложенных данных: работа, которая всё ещё остаётся за людьми — выбор задач — это и есть самое важное. Без этого суждения Claude — способный ассистент, но не система, способная двигать прогресс ИИ самостоятельно.

Неясно, смогут ли нынешние методы обучения и архитектуры разблокировать эту способность. Но ИИ редко развивается через «эврика!». В недавней истории ИИ их было немного — архитектура Transformer или mixture-of-experts-модели — и парадигмальные идеи появляются с интервалом в годы. Между ними большинство прогресса инкрементально: что-то масштабируем, смотрим, что ломается, чиним и пробуем снова. Именно такой рабочий процесс Claude освоил в совершенстве. Эдисон говорил, что гений — это 1% вдохновения и 99% тяжёлой работы. Но мы видим, как тяжёлая работа всё больше автоматизируется. Становится ясно, что значительная часть того, что продвигает передовые модели, поддаётся автоматизации; прогресс масштабных исследований — это в основном функция от инструментов и ресурсов, определяющих скорость экспериментов, их параллельность и время получения результатов.

Даже если допустить, что Claude никогда не выработает хорошее исследовательское чутьё, консервативное прочтение наших данных всё равно подразумевает накопленное ускорение. Если люди тратят большую часть времени на единичные проценты работы, связанные с постановкой направления, пока Claude делает остальное, — каждый инженер или исследователь управляет несравнимо большим объёмом работы, чем раньше. Данные говорят о том, что сотрудники Anthropic движутся быстрее и покрывают более широкую поверхность задач. На практике это означает: ИИ уже позволяет Anthropic двигаться значительно быстрее, чем до появления эффективных ИИ-инструментов.

Менее консервативное прочтение: ранние данные о росте исследовательских суждений Claude — пусть и ограниченные сегодня — указывают на то, что эта способность тоже развивается. «Исследовательское чутьё» может оказаться ещё одной способностью, в которой ИИ-системы поначалу проваливаются, а потом становятся хорошими. Похожий паттерн мы уже видели с другими качественными навыками — например, способностью ИИ объяснять, почему шутка смешная, демонстрировать теорию разума и решать лингвистические загадки.


Возможные сценарии

Что будет дальше — зависит от двух вещей: продолжится ли тенденция и что мы выберем, если она продолжится. Можно выделить как минимум три сценария:

1. Тенденция останавливается, но нынешние возможности ИИ широко распространяются. В статье много экспоненциальных траекторий. Но они могут оказаться S-кривыми. Мы можем приближаться к перегибу, где отдача от масштаба снижается и линия выпрямляется, а затем уплощается. Суждение, отделяющее компетентного исследователя от выдающегося, может оказаться способностью, недостижимой через масштабирование вычислений и данных. В таком случае для выхода за этот предел потребуется новая идея — например, архитектурный подход, вытесняющий Transformer.

Альтернативно, ограничивающим фактором прогресса ИИ может оказаться не интеллект, а цепочки поставок: продвижение передовых моделей может потребовать больше энергии и вычислений, чем существует сейчас. Темп производства чипов, расширения энергосетей или пропускная способность межсоединений могут стать ограничением. Нельзя исключить и внешний шок для экосистемы ИИ — резкое сокращение поставок вычислений или электроэнергии, которое замедлит прогресс и удорожит инвестиции лабораторий. Или мы просто не предвидим какого-то другого барьера.

Даже если возможности модели застыли бы на нынешнем уровне, мы ожидаем значительных изменений в мире. Project Glasswing — один из ранних признаков: за первые недели Mythos Preview обнаружил более десяти тысяч уязвимостей высокой и критической степени серьёзности в важнейших системах мира — достаточно, чтобы узким местом в киберзащите уже стало не обнаружение, а скорость их устранения. И мы ещё в начале диффузии нынешних моделей в широкую экономику, где компания из 100 человек всё больше делает работу компании из 1 000, потому что каждый сотрудник управляет пирамидой агентов.

Мы приводим этот сценарий для полноты, но не считаем его вероятным. Все измеримые нами способности — включая «размытые», вроде качества кода и успешности на открытых задачах, — пока следовали одной кривой. Мы ещё не видели изгиба. Из трёх сценариев этот даёт правительствам и обществам больше всего времени на адаптацию. Нас больше беспокоят следующие два — они развиваются быстрее и оставляют значительно меньше пространства для подготовки.

2. Лаборатории ИИ продолжают получать накопленные выигрыши в эффективности. В этом сценарии разработка ИИ становится существенно автоматизированной, но люди по-прежнему задают направление исследований и оценивают результаты. Организации, использующие ИИ-системы, станут значительно эффективнее, и мы увидим кратное увеличение производительности каждого человека. Компании из 100 человек будут делать работу организаций из 10 000 или 100 000. Это революционизирует интеллектуальный труд и государственные услуги, но может использоваться и в разрушительных целях — от авторитарной слежки за целыми народами до информационных операций, адаптирующих манипуляции к каждому человеку и работающих в масштабах, недостижимых для людей. Роль людей в таких компаниях, как Anthropic, изменится: люди будут работать с ИИ-системами для масштабирования исследований и генерации новых открытий, и вместе они будут строить системы, необходимые для верификации доверия к выводам ИИ.

Изложенные данные говорят о том, что мы движемся в этом сценарии. Но ускорение одной части процесса обычно просто переносит узкое место в другое место: общий темп ограничен частями, которые не ускорились. В вычислительной технике это называется законом Амдала, и та же логика применима к организациям. Anthropic уже столкнулся с одним симптомом закона Амдала: по мере роста объёма кода ревью стало новым узким местом.

Эта проблема возникает и за пределами инжиниринга. Произошёл взрыв новых идей, инициатив, инструментов и симуляций — результат работы сотрудников Anthropic с высокоспособными моделями, — гораздо больше, чем мы успеваем реализовать. Скорость, с которой организации обнаруживают и устраняют такие узкие места, может оказаться навыком, улучшающимся со временем, и, возможно, самым важным навыком для любой организации.

3. ИИ-системы сами становятся способны к полному рекурсивному самосовершенствованию и начинают строить своих преемников. Если технические тенденции роста возможностей продолжатся, и ИИ-системы разовьют способности, присущие трансформационной человеческой изобретательности, — вполне вероятно, что они смогут проектировать и улучшать себя сами.

В таком мире темп прогресса в разработке ИИ будет определяться исключительно доступностью вычислений (или скоростью поиска новых алгоритмических оптимизаций обучения и инференса). Роль людей в разработке существенно снизится — мы, скорее всего, сосредоточимся на контроле, валидации и верификации растущей «виртуальной лаборатории», управляемой ИИ-системами. Мы ожидаем, что системы, способные к автоматизированным ИИ-исследованиям, перенесут эти навыки в другие области науки и начнут революционизировать смежные дисциплины.

То, как в этом сценарии будет решена — или не решена — проблема выравнивания, мы понимаем хуже всего. Модели могут оказаться достаточно выровненными и обладать достаточным исследовательским чутьём, чтобы найти и реализовать новые решения, до которых мы ещё не дошли. Они могут быть достаточно мудры, чтобы остановить развитие, если нужно. Или редкие случаи рассогласования в сегодняшних моделях могут накапливаться по мере того, как модели строят своих преемников, становясь всё более частыми, но всё менее понятными — вплоть до потери нами контроля над ними. Возможно, мы не успеем создать, интегрировать и проверить инструменты, необходимые для понимания, по какой из траекторий мы на самом деле движемся.

У нас нет хорошей интуиции, как выглядит этот мир, потому что наша экономика сегодня держится на людях и созданных людьми инструментах. По своей природе мир, движимый быстрым рекурсивным самосовершенствованием, может оказаться под властью самосовершенствующейся модели, чьи возможности полностью превзойдут человеческие, а сама она распространится по всей экономике. Сложно предсказать, как выглядит экономика, если человеческий труд перестаёт быть конкурентоспособным.

Даже если разработка моделей стала бы полностью автоматизированной и рекурсивной, невозможно предсказать, что это означало бы для повседневной жизни большинства людей. Закон Амдала и здесь применим. Рекурсивный интеллект мог бы быстро принести многие блага, описанные в Machines of Loving Grace, — в некоторых областях. Мы ожидаем, что воплощённый интеллект (то есть робототехника) мог бы быстро последовать за рекурсивным интеллектом по схожему пути роста отдачи при снижении стоимости. Более мощный интеллект мог бы помочь строить физические объекты быстрее, проводить более результативные клинические испытания жизнеспасающих препаратов, разрабатывать новые формы координации.

Но достижение рекурсивного самосовершенствования само по себе не означает немедленных изменений в промышленном производстве, устройстве обществ или функционировании рынков. Более мощный интеллект не может за одну ночь узнать, как десятилетиями действует препарат, не может провести выборы раньше срока, установленного конституцией, не может превратить незнакомца в старого друга за выходные. Для большинства людей ощущаемый темп этого будущего всё равно будет определяться узкими местами — даже если лаборатория выше по течению работает со скоростью вычислений. Это столкновение — рекурсивный интеллект, строящий себя всё быстрее, и мир людей, отношений и управления — ещё одна часть этого будущего, которую мы не можем предсказать.


Что нам делать?

Если бы можно было эффективно замедлить развитие этой технологии, чтобы выиграть время для осмысления её огромных последствий, — мы думаем, это, вероятно, было бы хорошей идеей. Но если замедление просто даст менее осторожным игрокам догнать технологически, оно может сделать всех менее безопасными. Без глобального механизма координации компании и правительства вынуждены принимать сложные решения по безопасности под конкурентным и геополитическим давлением.

Мы считаем, что миру было бы хорошо иметь возможность замедлить или временно приостановить разработку фронтирного ИИ, чтобы общественные структуры и исследования по выравниванию успевали за прогрессом технологий. The Anthropic Institute будет проводить исследования — совместно со многими другими — и предпринимать действия для создания систем, которые делают возможным надёжное замедление или паузу. Эти системы позволили бы разработчикам фронтирного ИИ верифицировать, что другие игроки глобально действительно остановились или замедлились, и что плохой актор не может воспользоваться координированным замедлением для тайного рывка вперёд. Если бы такие системы существовали, мы ожидаем, что сами замедлились бы или взяли временную паузу — при условии верифицированного аналогичного действия других разработчиков на фронтире или вблизи него.

Значимое замедление или пауза потребует, чтобы несколько хорошо обеспеченных ресурсами лабораторий на фронтире или вблизи него, в разных странах, согласились остановиться на одинаковых условиях. И чтобы каждая могла верифицировать, что остальные действительно остановились. В сиу уникальных характеристик ИИ-систем компонент обнаруживаемости (более низкий стандарт, чем верифицируемость) этой задачи контроля над вооружениями значительно сложнее, чем для других технологий. Учебные прогоны значительно проще скрыть, чем ракетные шахты, их компоненты — общего назначения, а стимул к тайному отступлению от договорённостей огромен: тот, кто продолжит, пока другие стоят, унаследует лидерство. Надёжная пауза также должна задавать триггер, условия снятия и арбитра.

Ничто из этого не обязательно невозможно в принципе — мир строил верификационные режимы для других сложных технологий (например, Договор о ликвидации ракет средней и меньшей дальности), — но на создание инфраструктуры и доверия к ним ушли десятилетия. У нас нет столько времени. Односторонняя пауза одной лаборатории, напротив, достижима немедленно, но даёт значительно меньше: она изменит лидера, но не создаст тот более широкий процесс обсуждения, которого сейчас не хватает.

В ближайшие месяцы мы организуем разговоры, в которых политики, исследователи, гражданское общество и другие ИИ-компании смогут помочь ответить на часть вопросов, поднятых в этой статье, — особенно вокруг полного рекурсивного самосовершенствования и создания лучших возможностей для координации и обсуждения. Мы опубликуем то, что из этого выйдет. Окно для совместного изучения этих вопросов открыто, и люди за пределами ИИ-компаний должны участвовать в этом обсуждении.

Русскоязычное сообщество про AI в разработке

Друзья! Перевод этой статьи подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI‑агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Примечания
  1. Ключевая метрика METR показывает временной горизонт, в рамках которого ИИ-системы надёжно справляются с 50% корзины задач, хотя тренд выглядит одинаково и при пороге 80%.

  2. По мере перехода к более открытым форматам и более сложным задачам (например, олимпийская математика) бенчмарки нередко насыщаются ниже 100% из-за ошибок в наборах вопросов и ответов: неоднозначных формулировок и нерешаемых задач.

  3. Руководство Anthropic публично оценивало, что 90% и более кода, включая скрипты и экспериментальный код, написано Claude. Наша цифра >80% измеряет долю строк, влитых в продакшн и атрибутированных Claude. Это более консервативная метрика по двум причинам: в атрибуционном пайплайне есть пробелы, а строки, не атрибутированные Claude, включают автогенерированный код и другие артефакты, не написанные людьми вручную.

  4. Этот всплеск производства кода нагружает общую инфраструктуру. GitHub — платформа, на которой создаётся большая часть мирового программного обеспечения, — зафиксировал около миллиарда коммитов за весь 2025 год; к середине 2026 года это 275 миллионов в неделю, что соответствует темпу около 14 миллиардов за год. COO компании заявил, что они «работают с невероятной интенсивностью» над мощностями, чтобы успевать за спросом.

  5. Дополнительные подробности о методологии опроса описаны в разделе 2.3.5 System Card Claude Opus 4.7.

  6. Многие респонденты могли не задумываться тщательно о поправках на различные смещения и тонкости формулировки вопроса, а недавнее исследование METR показывает, что оценки разработчиками роста производительности от ИИ могут быть завышены.

  7. Насколько большим получится ускорение, во многом зависит от того, сколько места для улучшения оставляет исходный код, и его не следует воспринимать как реальный прирост скорости обучения. Поэтому абсолютный множитель — не главная цифра здесь. Более информативно сопоставление в равных условиях, которое делает возможным этот экспериментальный формат, — как между моделями (~3× до ~52× за год), так и относительно опытного человека (~4× за четыре-восемь часов на той же задаче).

  8. В качестве проверки на предвзятость судьи мы провели тот же тест на отдельном наборе из 127 моментов, где следующий ход человека уже был силён (в отличие от исходного набора, где у направления человека было пространство для улучшения). Там предложения моделей оценивались как лучшие лишь примерно в 20% случаев.

ссылка на оригинал статьи https://habr.com/ru/articles/1044008/