Sakana Fugu обогнала Opus 4.8 и GPT-5.5, не обучив ни одной большой модели

Японская лаборатория Sakana AI выпустила Fugu и Fugu Ultra — модели, которые не пытаются быть большими, а дирижируют чужими. За одним API скрывается пул сильных LLM, между которыми Fugu распределяет задачу, а затем собирает из их работы единый ответ. В опубликованных бенчмарках одна из двух версий Fugu обходит Opus 4.8, Gemini 3.1 Pro и GPT-5.5 в десяти тестах из одиннадцати — при том что собственной фронтир-модели у Sakana AI попросту нет.

Сама Fugu — это небольшая языковая модель, обученная вызывать другие LLM из пула, в том числе собственные копии рекурсивно: на долгой задаче она запускает себя же еще раз, читает предыдущий вывод и правит ход решения. Также модель обращается к Gemini 3.1 Pro, Claude Opus 4.8 и GPT-5.5 для сложных вопросов. Версий две. Обычная Fugu держит баланс скорости и качества и метит в повседневную работу — код, ревью, чат-боты. Fugu Ultra жертвует временем ответа ради качества на тяжелых многошаговых задачах и подключает более широкий пул экспертов. Обе доступны через один OpenAI-совместимый API, цена по подписке начинается от $20.

В тестах Sakana AI преимущество выглядит убедительно. На инженерном SWE Bench Pro Fugu Ultra набирает 73.7 против 69.2 у Opus 4.8 и 58.6 у GPT-5.5. На Humanity’s Last Exam — одном из самых сложных тестов общих знаний — Fugu Ultra берет 50.0 и впритык обходит Opus 4.8 (49.8). На GPQA-D обе версии показывают 95.5, выше всех конкурентов. Любопытно, что на части тестов (SciCode, τ³ Banking, длинный контекст) обычная Fugu обходит даже старшую Ultra. Единственный тест, где Fugu уступает, — MRCRv2: здесь первым остается GPT-5.5 с 94.8 против 93.6 у Fugu Ultra.

Но все результаты — со слов самой Sakana AI, независимой проверки пока нет. И главное: Fable 5 и Mythos Preview от Anthropic, формально самые сильные модели на рынке, в пул Fugu не входят — просто потому что недоступны публично. Именно вокруг этого построена реклама Sakana AI: компания прямо ссылается на экспортные ограничения, наложенные на Fable и Mythos, и предлагает Fugu как страховку — фронтир-уровень без риска, что доступ к модели исчезнет за одну ночь из-за смены регуляторных правил. Если один провайдер закрывает доступ, Fugu перенаправляет работу на оставшиеся модели в пуле.

Это продолжение давней линии Sakana AI — от эволюционного слияния моделей до автономного AI Scientist. Сооснователь лаборатории Дэвид Ха называет будущее ИИ «коллективным интеллектом». Что за этим стоит, показывает один из примеров Sakana: ИИ-агент на Fugu Ultra сам прогнал 123 эксперимента примерно за 14 часов на одной видеокарте H100, перебирая размер батча, глубину сети и настройки оптимизатора, и улучшил обучающий рецепт небольшой модели сильнее, чем все три анонимных фронтир-бейзлайна.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1050272/