Независимый бенчмарк AA-Omniscience зафиксировал у новой Claude Opus 4.7 почти двукратное снижение галлюцинаций — когда у модели нет ответа на вопрос, она выдумывает его в 32% случаев, а в остальных говорит «не знаю». У Opus 4.6 этот показатель составлял 61%. Точность ответов на сложные вопросы при этом осталась на прежнем уровне, около 46%. Anthropic улучшила не объем знаний модели, а ее калибровку — способность признавать незнание вместо фабрикации ответа.

AA-Omniscience — бенчмарк от Artificial Analysis, вышедший в ноябре 2025 года: 6000 вопросов из шести экономически значимых доменов (бизнес, право, медицина, разработка ПО, наука и гуманитарные дисциплины). Вопросы намеренно отбирались так, чтобы на них мог ответить только эксперт в своей области. Например: как в Rust 2024 называется конкурентность внутри одной задачи в отличие от конкурентности между задачами, или что означает аббревиатура EAPR в колоректальной хирургии применительно к extralevator-технике. Отвечает модель без доступа к интернету и инструментам — проверяется то, что модель реально запомнила при обучении. При запуске бенчмарка в ноябре 2025 максимальную точность среди всех моделей показывали Grok 4 и GPT-5 (high) — всего 39%. 46% у Opus 4.7 на таком уровне сложности — сильный результат.
Уникальность метрики — в системе штрафов: +1 балл за правильный ответ, −1 за неправильный, 0 за отказ отвечать. Hallucination rate здесь — доля неправильных ответов среди всех случаев, где модель не дала правильного: то есть мера переуверенности, а не незнания.
Лидером общего индекса AA-Omniscience остается Gemini 3.1 Pro Preview — 33 балла против 26 у Opus 4.7. Но это две разные стратегии. Google выходит в топ через высокую точность (55% против 46% у Opus 4.7), хотя Gemini 3.1 Pro всё равно фабрикует ответ в 50% случаев, когда не знает правильного. У предыдущей Gemini 3 Pro этот показатель был 88% — Google уже вложился в калибровку, но Opus 4.7 с 32% ушел еще дальше. Anthropic идёт обратным путём: меньше эрудиции, но модель чаще отказывается отвечать, чем выдумывать.
Обычно маленькие модели калибруются лучше больших — меньше знают и охотнее признаются в этом. В текущем рейтинге подтверждение: в тройке лидеров по низкой доле галлюцинаций стоит компактная Claude 4.5 Haiku (25%). Но Opus 4.7 ломает эту закономерность: большая модель с такой же точностью, как у предшественника, научилась отказываться от ответа, а не угадывать. Это не побочный эффект размера, а результат целенаправленной работы над калибровкой.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1024450/