На конференции I/O 2026 Google представил новое семейство моделей Gemini 3.5. Первой вышла младшая версия — 3.5 Flash, и компания сразу назвала ее своей сильнейшей моделью для агентов и кодинга. Но посмотрим на бенчмарки.

Где 3.5 Flash действительно вне конкуренции — это агентские задачи и работа с инструментами. На MCP Atlas (многошаговые сценарии через внешние инструменты) она набирает 83,6%, обходя и Claude Opus 4.7, и GPT-5.5. На Finance Agent v2 — 57,9% против примерно 51% у обоих конкурентов и 43% у своего же 3.1 Pro. Сильна она и в мультимодальности: 83,6% на MMMU-Pro и 84,2% на CharXiv — лучшие результаты в таблице. По кодингу Flash обгоняет 3.1 Pro (76,2% против 70,3% на Terminal-Bench 2.1), но здесь ее уже опережает GPT-5.5 с 78,2%.
А вот в глубоком рассуждении и длинном контексте картина обратная. На академическом тесте Humanity’s Last Exam новая Flash набирает 40,2% — меньше, чем прошлый флагман 3.1 Pro (44,4%) и Claude Opus 4.7 (46,9%). На головоломках ARC-AGI-2 — 72,1% против 77,1% у 3.1 Pro. На GDPval-AA, где модели сравнивают по Elo-рейтингу как шахматистов на экономически ценной работе, у Flash 1656 — ниже, чем у Claude Sonnet 4.6 (1676), Opus 4.7 (1753) и GPT-5.5 (1769). Логика простая: это скоростной агентский «рабочий конь», а не чемпион по сложным размышлениям.
Зато по скорости разрыв огромный. По замерам независимого сервиса Artificial Analysis, 3.5 Flash выдает 289 токенов в секунду — больше чем вчетверо быстрее Claude Opus 4.7 (67 токенов/с) и GPT-5.5 (71), и вдвое быстрее самого Gemini 3.1 Pro (135). При этом по общему индексу интеллекта Artificial Analysis модель держится вровень с 3.1 Pro и Claude Opus 4.7. Все это, по словам Google, за долю стоимости конкурентов.
Самую наглядную демонстрацию компания показала на своей агентской платформе Antigravity — среде, где ИИ-агенты пишут код самостоятельно. Google поручил агентам на Antigravity 2.0 и Gemini 3.5 Flash собрать работающую операционную систему с нуля. Результат: 12 часов работы, 93 параллельных субагента, больше 15 тысяч обращений к модели, 2,6 млрд обработанных токенов — и меньше чем на $1000 кредитов API. Агенты написали каждую строку кода сами: от ядра до системы управления процессами и памятью. Вместе с моделью Google расширил саму Antigravity: появились консольная версия и SDK, нативная поддержка голоса через аудиомодели Gemini, десктопное приложение Antigravity 2.0 и интеграции с Google AI Studio, Android, Firebase и вебом.
3.5 Flash уже раскатывается всем пользователям в приложении Gemini и в AI-режиме Поиска Google, а разработчикам доступна через Antigravity и Gemini API. Старшая Gemini 3.5 Pro уже проходит внутреннее тестирование в Google и ожидается в пределах месяца.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1037062/