
Google DeepMind представил AI co-mathematician — агентную систему на базе Gemini 3.1, которая работает не как чатбот, а как рабочее пространство для математика с командой ИИ-агентов. С ее помощью топологист Марк Лакенби закрыл проблему 21.10 из Куровской тетради — сборника открытых задач по теории групп, который ведется в Новосибирске с 1965 года. Параллельно система поставила новый рекорд на самом сложном математическом бенчмарке FrontierMath Tier 4 — 48% правильных ответов.
Сама задача формулируется так: имеет ли каждая конечная группа «просто конечное» представление — такое, в котором удаление любого соотношения превращает группу в бесконечную. Лакенби загрузил вопрос в систему и попросил параллельно атаковать его с двух сторон, доказать и опровергнуть. Первый «доказательный» документ AI co-mathematician сам пометил как некорректный: один из агентов-ревьюеров нашел в аргументе дыру. Но Лакенби, прочитав текст, увидел в нем «очень-очень умную стратегию», а в критике ревьюера — подсказку, как закрыть пробел. Он указал направление в чате, и система собрала полное доказательство. Финальную версию математик дополнил примерами и прогнал через еще один круг ревью — агенты нашли и поправили две мелкие ошибки. Это уже не первое сотрудничество Лакенби с DeepMind: в 2021 году он работал с командой над открытиями в теории узлов.
Сама система — не диалоговый интерфейс, а рабочее пространство с иерархией агентов. На верхнем уровне сидит project coordinator: он общается с пользователем и распределяет работу. Под ним — координаторы воркстримов, каждый ведет одну линию исследования (обзор литературы, разработка вычислительной библиотеки, поиск контрпримера). На нижнем уровне — узкоспециализированные субагенты: поисковик по статьям, кодовый агент, Gemini Deep Think в роли пруфера. По духу это похоже на Claude Code или Google Antigravity, только переориентировано с разработки на математические артефакты.
Ключевые отличия от обычного агента:
-
Жесткие программные ограничения: кодовый агент не может пометить работу как готовую, пока не пройдут тесты и пока ревьюер не одобрит код и эталонные значения.
-
Тупики не стираются — провалившиеся попытки сохраняются в файловой системе как полноценный артефакт, и новые воркстримы стартуют с учетом того, что уже не сработало.
-
Каждое утверждение в финальном LaTeX-документе сопровождается маргиналиями — пометками на полях с источником числа, ссылкой на лемму или указанием, что направление подсказал пользователь.
-
Перед закрытием воркстрима обязателен круг ревью несколькими агентами: они проверяют ссылки, прогоняют код и спорят между собой о логике, пока не сойдутся.
С системой работали и другие математики. Гергели Берци использовал ее для проверки гипотез о коэффициентах Стирлинга — она нашла два доказательства, которые сейчас проходят детальную ручную проверку. Семен Резчиков получил элегантную лемму в задаче о возмущениях гамильтоновых диффеоморфизмов и резюмировал так: «эстетически я бы поставил ее стиль доказательств на первое место среди всех моделей, которыми пользовался». Сами авторы признают ограничения: ревьюеры иногда сходятся на правдоподобной, но ошибочной аргументации, а в обратной ситуации зацикливаются в бесконечных пересмотрах — «спираль смерти» (death spiral). Доступ к системе пока ограничен узким кругом тестировщиков, но DeepMind задумывает архитектуру как контейнер, куда можно вставлять более сильные движки вроде AlphaProof или AlphaEvolve. Главная идея — не «ИИ-оракул, который выдает решение одним выстрелом», а инструмент, который держит контекст исследования неделями и работает с математиком в паре.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1033214/