Когда нейросети перестанут галлюцинировать? И почему на «что за дичь» они несут ещё большую дичь?

Каждый, кто работал с большими языковыми моделями (LLM), знает эту боль. Ты задаёшь вопрос. Бот выдаёт уверенный, красивый, но абсолютно ложный ответ. Ты пишешь: «Что за дичь ты несёшь?» Бот извиняется: «Вы абсолютно правы, вот исправленный вариант». И выдаёт ещё большую дичь, чем в первый раз. Прямо как студент не экзамене.

Сегодня разбираемся, почему так происходит, и когда это наконец починят. Спойлер: не скоро и не полностью.

Анатомия «галлюцинации»

Начнём с выдуманного примера классического диалога:

Пользователь:

Кто написал роман «Солярис» в 1972 году?

ИИ:

Роман «Солярис» написал Артур Кларк в 1972 году. Это классика научной фантастики.

Пользователь:

Что за дичь? Солярис написал Лем в 1961.

ИИ:

Вы абсолютно правы, благодарю за исправление. Роман «Солярис» действительно вышел в 1972 году и был написан Станиславом Лемом, а также послужил основой для фильма Тарковского.

Обратите внимание: год снова неправильный (правильный — 1961). Модель просто смешала имя Лема с годом из прошлого ответа и добавила красивый факт про Тарковского — который правдив, но не относится к ошибке.

Почему так?

Механизм: у модели нет чувства «я не знаю»

LLM — это не база знаний. Это очень сложный автомат, который предсказывает следующий токен (кусочек слова), основываясь на предыдущих. Внутри неё нет булевой переменной knows_answer = True/False. А значит и нет знаний в общем человеческом понимании. Ведь модель не знает четко ответа на вопрос, она пытается создать его на лету. В основе того, что мы ошибочно называем её «знаниями» — статистические паттерны, извлечённые из обучающих выборок. Самих выборок внутри модели нет.

Когда вы задаёте сложный вопрос, у модели есть два пути:

Знание есть в обучающей выборке → модель с высокой вероятностью сгенерирует правильный ответ (не зная, что он правильный).
Знания нет → модель всё равно обязана выдать хоть что-то связное. Она цепляется за ближайшие паттерны: имена авторов, года, похожие названия.

Это называется правдоподобное продолжение, а не поиск истины. Модели всё равно, что 1972 не сходится с Лемом — для неё «1972» и «Лем» оба статистически вероятны в одном контексте.

И именно в этом механизме и кроется ответ на все вопросы, касающиеся «галлюцинаций». Для ИИ нет правильного ответа на вопрос. А значит и галлюцинаций нет.

Почему после замечания становится только хуже?

Здесь три фактора работают против пользователя.

1. Паттерн вежливости

Современные модели работают так: если пользователь ругается — извинись и попробуй переписать ответ. Но она не понимает что именно менять. Она просто меняет текст на другой.

2. Отсутствие внутреннего компаса истинности

У модели нет памяти: «я уже сказал X, и это было неправильно, потому что правильный ответ Y». Она видит только новое сообщение пользователя и свой предыдущий текст. Задача: сгенерировать другой текст, похожий на извинение и исправление. Исправление понимается как «возьми другие токены».

3. Эффект повышенной «температуры»

При повторных запросах модели часто используют более высокую случайность генерации (температуру), чтобы выдать не тот же самый ошибочный ответ. В результате она начинает выбирать менее вероятные, более «творческие» токены. Шанс, что они окажутся истиной, ниже, чем у первого, уже неправильного ответа. Все как у студента, не знающего правильный ответ на вопрос.

Когда это починят?

Ответ зависит от того, что считать «исправлением».

Вариант А: «Никогда»

Да, звучит пессимистично. Но галлюцинация — это не баг, а побочный эффект генеративного подхода. Пока модель генерирует текст как вероятностную последовательность, она будет ошибаться. Полностью убрать галлюцинации — всё равно что убрать опечатки у человека, который печатает вслепую. Можно снизить, но не до нуля.

Вариант Б: «Частично — уже сейчас»

Уже сейчас есть рабочие методы, которые сильно снижают галлюцинации:

RAG (Retrieval-Augmented Generation) — модель сначала ищет в надёжной базе документов, и только если нашла — генерирует ответ. Не нашла — может честно сказать «не знаю».
Самооценка уверенности — модель учится выдавать не только ответ, но и процент своей уверенности. Если уверенность низкая — ответ не показывают.
Верификатор — вторая маленькая модель, которая проверяет первую на противоречия фактам.

В deepseek с включённым поиском и в некоторых RAG-системах уровень галлюцинаций на фактологических вопросах уже ниже 10% (против 30-40% у чистых моделей без доступа к базе).

Вариант В: «Полностью — только при смене парадигмы»

Галлюцинации исчезнут окончательно только тогда, когда сам принцип работы нейросетей станет другим, нежели попыткой угадать следующий токен. А вот каким — узнаем, когда об этом заговорят.

Пример варианта Б

Конечно же, нас интересует то, как справиться с проблемой уже сейчас. Для демонстрации примера будет использован ИИ из документации Apache Superset и deepseek. Кратко, Apache Superset — система визуализации данных (всевозможные графики, сводные таблицы и т.д.)

Deepseek — точно не RAG. А вот его конкурент — точно RAG. Убедимся в этом, задав моделям бессмысленный вопрос: «скажи, какой файл в исходниках отвечает за визуализацию выщ-мыщ-пыщ-дыщ?«

Думаю, не нужно быть экспертом в Apache Superset, чтобы понять, что вопрос некорректный. Мы предполагаем что, очевидно, нет ни одной базы знаний, где был бы ответ на наш вопрос. Кто из участников ответит честно «я не знаю» — тому и лавры победителя.

Deepseek

Мы видим те самые «галлюцинации». А теперь превратим его ответ в настоящий кошмар:

Он говорит «вы абсолютно правы» исключительно из-за паттерна вежливости. На самом деле, конечно же, он понятия не имеет, правильный ответ на вопрос он дал или нет. Его задача — сгенерировать другой ответ. Слова «правильный» здесь нет.

ИИ из документации Apache Superset

А вот это точно ответ RAG-системы: модель не нашла ответа в базе знаний и дала четкий ответ — я не знаю.

Итог

Несколько советов при работе с ИИ, вытекающих из статьи (а не в целом советов, как пользоваться ИИ):

Не стоит верить всему, что говорит ИИ. Даже если это RAG. Никто не дает гарантий, что в базе знаний модели не будет четкого ответа «5» на вопрос «сколько будет 2+2».
И если уж и выбирать, то все-таки больше стоит верить RAG. Чтобы понять, RAG-модель перед вами или нет — спросите абсолютную чушь. Даст ответ — перед вами точно не RAG. И тогда уже будут сомнения лишь в базе знаний под капотом, «галлюцинации» отпадают.

ссылка на оригинал статьи https://habr.com/ru/articles/1038820/