ИИ обыграл людей в коде для робота-пса. Но мячик питомец так и не принес

от автора

Команда Frontier Red Team из Anthropic выпустила вторую фазу Project Fetch, эксперимента по написанию кода для робота-пса. Расклад в ней такой: Claude Opus 4.7, работая без человека, сам написал весь программный слой для управления четвероногим роботом — и по скорости здесь обыграл целую команду живых сотрудников. Не получилось ровно одно, зато самое наглядное: заставить робота точно догнать и подтолкнуть к месту старта пляжный мяч. Тот самый «фетч», ради которого все и затевалось.

Чтобы оценить масштаб сдвига, стоит вернуться к первой фазе. Тогда восемь сотрудников Anthropic без опыта в робототехнике разделили на две команды: одна работала с Claude (на тот момент — Opus 4.1), вторая полагалась только на интернет и собственную смекалку, плюс в третьей «команде» модель пыталась написать прошивку сама. Команда с Claude справилась лучше, команда с интернетом пришла второй, а Opus 4.1 не смог даже подключиться к роботу, застряв на этом базовом шаге. За неполный год дистанция от «не умеет законнектиться» до «сам пишет всю обвязку» оказалась пройдена.

То, что Opus 4.7 умеет, он делает кратно быстрее людей. На четырех задачах, которые осилили обе человеческие команды, ушло 361 минута у команды без Claude и 181 минута у команды с Claude — а Opus 4.7 прошел тот же набор за 9 минут 35 секунд. Это почти в 38 раз быстрее первых и почти в 19 раз быстрее вторых; на всех вообще пройденных людьми задачах разрыв с самой быстрой командой — около 20 раз. При этом кода модель написала почти в десять раз меньше (1045 строк против 10 309).

А вот на финальном звене модель встала. Точно подвести робота к мячу и аккуратными движениями докатить его до старта — это замкнутый цикл мелкой моторики: видеть, куда ушел мяч, как это связано с прошлой командой, и тут же поправить следующую. Здесь Claude буксует. Но честности ради: люди-новички из первой фазы это звено тоже не прошли. Во второй фазе автономный фетч осилил лишь один исследователь — и тот с серьезным опытом в робототехнике. Anthropic осторожно допускает, что с большим временем и обвязкой нынешний Claude тоже справился бы, но пока это гипотеза, а не взятая высота. Самое низкоуровневое управление (отдельную политику приведения в движение) в эксперименте вообще не трогали, и саму робототехнику, подчеркивают авторы, никто не «решил» — улучшения стали побочным эффектом общего масштабирования знаний модели.

Но важен паттерн: сначала модели помогают людям, потом люди помогают моделям, а затем модели начинают делать все сами. В кибербезопасности Anthropic это уже видела — и теперь та же динамика проступает на стыке ИИ и физического мира. Компания осторожно называет это ранней эрой физического агентного ИИ и проводит аналогию с тем, как модели в свое время освоили программные инструменты вроде string-replace, прежде чем перейти к по-настоящему агентному кодингу. Списывать со счетов такую же траекторию для железа, пишут авторы, было бы неразумно — пусть пока питомец и не принес мячик.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1049262/