Как Gemini 3.5 Flash сломали ради красивых графиков (и почему она обходит 3.1 Pro только на бумаге)

от автора

На презентациях нам показывают графики, где новая, более дешевая gemini 3.5 flash рвет флагманскую gemini 3.1 pro. Цифры выглядят солидно: 76.2% против 70.3% на агентском terminal bench.

Но когда я пошел ее тестить, я задался вопросом: «Почему она такая деревянная?». Модель генерирует текст так, словно это не нейросеть, а скрипт. Исчезла вариативность, исчез контекстный тон, исчезла та самая искра, которая была даже в прошлой 3.0 flash.

Почему модель, которая умнее по метрикам, оказывается глупее и скучнее в жизни? Ответ кроется в архитектурном компромиссе и законе Гудхарта.

1. Проклятие Агентов

Если вы внимательно почитаете релизы Google, вы заметите одно слово, которое повторяется сотни раз: Agentic. gemini 3.5 flash создавали не для того, чтобы с ней болтать. Ее создавали как движок для antigravity 2.0 и платформы agent OS.

Что такое хороший агент с точки зрения автоматического скрипта-оценщика?
Это модель, которая на промпт «создай файл» выдает строго {«action»: «create», «file»: «x.txt»}.
Если модель ответит: «Конечно, сейчас создам файл, вот ваш JSON: …», эвалюатор сломается при парсинге и поставит модели ноль баллов.

Чтобы побить gemini 3.1 pro на бенчмарках вроде MCP atlas или toolathlon, разработчикам пришлось провести жесточайший файнтюн. На миллионах примеров модель жестко штрафовали за разговорчивость и поощряли за сухую, детерминированную генерацию команд.

Оптимизируя модель под бенчмарки агентов, google буквально выжег из модели ассоциативные связи, отвечающие за метафоры, эмпатию и вариативность синтаксиса. Модель разучилась быть собеседником, потому что за это снижали награду на этапе обучения.

2. Смерть Энтропии

То, что вы чувствуете как сухость, это математический коллапс мод распределения.

В старой gemini 3.0 flash распределение вероятностей на выходе softmax было достаточно широким. У сети всегда было 5-10 хороших вариантов следующего слова, и за счет параметра temperature она могла выбирать разные, интересные пути развития текста.

В gemini 3.5 flash, переоптимизированной под бенчмарки, softmax стал экстремально острым. Для любого контекста модель выучила один-единственный «безопасный, агентский, правильный» ответ. Вероятность остальных слов стянута к нулю.
Вы можете ставить температуру 1.2 или 1.5 это не поможет. Если вероятность живого токена в латентном пространстве равна 10-6 никакая температура его не спасет. Сеть физически заперта в узком коридоре бюрократического словаря.

3. Закон Гудхарта во плоти

«Когда мера становится целью, она перестает быть хорошей мерой».

Вся индустрия сейчас одержима графиками. Чтобы продать модель B2B сектору, нужно показать, что она на 5% лучше конкурента на terminal bench.
Но проблема бенчмарков в том, что они измеряют утилитарность, а не интеллект.

Gemini 3.1 pro это огромная модель с гигантской емкостью параметров. Она может одновременно хранить в себе и способность писать код, и способность тонко шутить, и способность к сложным логическим выводам.
У gemini 3.5 flash емкость параметров маленькая. Чтобы впихнуть в эту маленькую емкость SOTA результаты по кодингу и вызову инструментов, инженерам пришлось выбросить из нее всё остальное.

Маркетологи водят нас за нос, они выдают переобучение на специфический формат ответов за рост общего интеллекта. Модель не стала умнее 3.1 pro. Она просто научилась лучше проходить конкретные тесты.

Заключение

gemini 3.5 flash это не плохая модель. Это идеальный рабочий муравей для систем, где ИИ общается с другим ИИ через API.

Но это катастрофически плохой собеседник для человека.
Мы подошли к той черте, когда разработка ради бенчмарков начинает разрушать то, за что мы вообще полюбили большие языковые модели, их способность к человекоподобной генерации и неожиданным абстракциям.

Если вам нужно парсить логи или вызывать bash скрипты используйте 3.5 flash. Но если вам нужен шторминг идей, написание текстов или живой диалог откатывайтесь на 3.1 pro / 3.0 flash.

ссылка на оригинал статьи https://habr.com/ru/articles/1038570/