GPT-5.5 возглавила рейтинг сильнейших ИИ с тревожной оговоркой

Artificial Analysis поставила GPT-5.5 на первое место в своем Intelligence Index. По оценке компании, новая модель OpenAI обошла ближайших конкурентов на 3 пункта и прервала ничью между OpenAI, Anthropic и Google. Artificial Analysis получила предварительный доступ к модели и протестировала все пять уровней рассуждения: xhigh, high, medium, low и non-reasoning.

Но в результатах есть важная оговорка. На AA-Omniscience, бенчмарке на знание фактов и склонность к галлюцинациям, GPT-5.5 xhigh показала лучший результат по точности — 57% правильных ответов на предельно сложные вопросы. Однако hallucination rate у нее составил тревожные 86% — против 36% у Claude Opus 4.7 max и 50% у Gemini 3.1 Pro Preview.

Это не значит, что GPT-5.5 галлюцинирует в 86% всех ответов. В методологии Artificial Analysis hallucination rate — это доля неправильных ответов среди всех случаев, где модель не дала полностью правильный ответ: ошиблась, ответила частично или отказалась. Проще говоря, метрика показывает, как часто модель выбирает уверенный неверный ответ вместо того, чтобы признать незнание.

AA-Omniscience устроен именно вокруг этой проблемы. В тесте 6000 вопросов по 42 темам из шести областей: бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, наука, техника и математика. Модели отвечают без поиска и внешних инструментов, а оценка поощряет правильные ответы, штрафует неверные и не наказывает за отказ, если модель не уверена.

Сама OpenAI пишет в System Card компания пишет, что GPT-5.5 стала фактически точнее GPT-5.4 на выборке разговоров ChatGPT, которые пользователи ранее отмечали как содержащие фактические ошибки: отдельные утверждения были на 23% чаще корректными, а ответы на 3% реже содержали фактическую ошибку. Но компания уточняет, что это не репрезентативный срез всего трафика, а специально сложные для фактологичности случаи.

Получается парадоксальная картина: GPT-5.5 выглядит сильнейшей универсальной моделью по независимому рейтингу и действительно знает больше конкурентов в AA-Omniscience, но хуже калибрует собственную уверенность. Для задач вроде фактчекинга, ресерча, юридических и медицинских справок это может быть не менее важно, чем общий балл в рейтинге: убедительный ответ сильной модели все равно нужно проверять, особенно если она работает без источников и внешних инструментов.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1027258/