Почему нейросеть уверенно врёт — и при этом искренне убеждена что права

Просишь нейросеть назвать источник цитаты — она без паузы выдаёт название книги, фамилию автора, год, издательство. Всё выглядит убедительно. Идёшь проверять. Книги не существует. Автора тоже.

Или просишь помочь с расчётом. Нейросеть объясняет каждый шаг, всё аккуратно, с формулами. В конце — неправильный ответ. При этом ни малейшего намёка на сомнение.

Многие в такой момент думают: сломалась, глючит, надо перезапустить. Но дело не в этом.

У этого поведения есть конкретная техническая причина — и она никуда не денется с обновлением версии. Это не ошибка в коде, это следствие того, как языковые модели устроены изнутри.

Технически: как нейросеть вообще «знает» что-либо

Начнём с основ, потому что без этого остальное не сложится.

Нейросеть не хранит информацию как база данных. Нет такой таблицы где написано «Наполеон — 1769 год рождения» и нейросеть её просто читает. Вместо этого — миллиарды параметров, веса которые настроились в процессе обучения на огромном массиве текстов.

Когда нейросеть читала интернет, книги, статьи — она не запоминала факты. Она улавливала статистику: какие слова встречаются рядом, какие фразы следуют за какими, какие конструкции типичны для ответов на конкретные типы вопросов.

«Знание» нейросети — это по сути высокая вероятность того, что следующее слово будет именно таким. Не потому что это правда. А потому что именно так чаще всего писали в обучающих данных.

Хорошая аналогия: человек прочитал миллион книг, но не запомнил ни одного конкретного факта. Зато он очень хорошо чувствует как устроена речь, какие слова идут рядом, как звучит уверенный ответ на вопрос про историю или науку. И вот он начинает отвечать — убедительно, складно, в правильном стиле. Только факты при этом может придумывать.

Откуда берётся уверенность без знания

Это самый важный момент, и он не очевидный.

У нейросети нет внутреннего индикатора «я знаю это точно» или «я предполагаю». Такого механизма просто не существует в базовой архитектуре трансформера. Модель генерирует текст — и всё. Она не оценивает достоверность того что генерирует.

Больше того: в процессе обучения модели получали позитивный сигнал за уверенные, чёткие, полезные ответы. И негативный — за уклончивые, неопределённые, перегруженные оговорками. Люди которые оценивали ответы в ходе обучения хотели видеть конкретику, а не «ну, сложно сказать, по-разному бывает».

В итоге модели научились давать уверенные ответы — потому что уверенный ответ статистически оценивался лучше. Даже если ответ неправильный.

Это и есть механика уверенности без знания. Не обман, не злой умысел. Просто результат обучения на человеческих оценках, где уверенность воспринималась как признак качества.

Три типа галлюцинаций — с примерами

Галлюцинации бывают разные, и важно их различать.

Фактические галлюцинации. Самые распространённые. Нейросеть называет несуществующие книги, выдуманных авторов, неверные даты, несуществующие законы. Классический пример — попросить назвать источники по узкой теме. Модель выдаст список ссылок которые выглядят правдоподобно, но часть из них не существует.

Логические галлюцинации. Факты верные, вывод — нет. Нейросеть правильно излагает предпосылки и делает из них неправильное заключение. Особенно часто встречается в задачах где нужна цепочка рассуждений: математика, право, многоходовая логика.

Контекстные галлюцинации. Нейросеть противоречит сама себе в рамках одного разговора. В начале сказала одно, ближе к концу — другое. Это связано с тем как работает контекстное окно: когда разговор длинный, ранние части «уходят» из активного внимания модели.

Все три типа объединяет одно: никаких признаков сомнения. Модель излагает это с одинаковой интонацией что верный ответ, что выдуманный.

Какие модели врут меньше — честное сравнение

Не все модели галлюцинируют одинаково. Разница между ними довольно существенная — и она обусловлена архитектурными решениями, размером модели и тем, как проводилось дообучение.

Claude (Anthropic) — меньше всего галлюцинирует в своём классе.

Anthropic при создании Claude использовали подход Constitutional AI — модель обучалась не только отвечать полезно, но и оценивать собственные ответы на соответствие набору принципов. Это встраивает элемент самопроверки прямо в архитектуру.

На практике это выражается в том, что Claude чаще добавляет оговорки когда не уверен, реже выдумывает источники и — что важно — умеет находить собственные ошибки если его попросить перепроверить. Не всегда, но заметно чаще чем конкуренты.

Кроме того, Claude с подключённым веб-поиском может проверять фактические утверждения прямо в процессе ответа — это принципиально снижает количество фактических галлюцинаций. Попробовать Claude с поиском можно на Study AI.

ChatGPT 5.2 — хороший результат, но с оговорками.

На сложных фактических вопросах держится уверенно. Слабое место — длинные цепочки рассуждений и узкоспециализированные темы где в обучающих данных было мало материала. Там галлюцинации появляются заметно чаще.

Gemini (Google) — неравномерно.

На темах где Google имеет сильную поисковую базу — хорошо. На других — результаты непредсказуемы. Интеграция с поиском помогает, но не везде.

DeepSeek — на последнем месте по надёжности.

Здесь стоит говорить честно. DeepSeek показывает неплохие результаты на простых задачах и произвёл впечатление в момент выхода. Но на практике сыпется там где другие держатся: сложные многоходовые рассуждения, редкие фактические вопросы, длинный контекст. Уверенность при этом не снижается — модель продолжает отвечать с той же интонацией, просто неправильно. Это и делает её опасной для задач где точность критична. Впрочем, для простых вопросов она идеальна — тем более что она бесплатная.

Сравнить модели на одном вопросе можно самостоятельно — на Study AI все они доступны в одном интерфейсе.

Как поймать нейросеть на лжи — практические техники

Несколько подходов которые реально работают.

Просить источники и проверять их. Если нейросеть называет конкретную книгу или статью — проверьте что она существует. Это занимает 30 секунд и часто открывает глаза.

Задавать один вопрос двумя способами. Сначала спросить прямо, потом переформулировать — например, с противоположной стороны. Если ответы противоречат друг другу, перед вами галлюцинация или как минимум зона неуверенности.

Попросить оценить уверенность. Добавить к вопросу: «Оцени насколько ты уверен в этом ответе по шкале от 1 до 10 и объясни почему». Модель не всегда даёт точную самооценку, но это лучше чем ничего.

Попросить перепроверить самостоятельно. «Перечитай свой ответ и найди в нём возможные ошибки» — Claude с этим справляется лучше других. Иногда сам находит и исправляет то что только что написал.

Использовать модели с веб-поиском для фактов. Для вопросов где важна точность — дата, имя, закон, исследование — лучше использовать модели которые могут проверить информацию в реальном времени, а не полагаться только на обучающие данные.

Когда галлюцинации не страшны, а когда критичны

Это важный практический момент который часто упускают.

Галлюцинация при написании художественного текста, мозговом штурме или генерации идей — не проблема. Там точность не нужна, нужна креативность.

Галлюцинация при ответе на медицинский вопрос, юридическую задачу, финансовый расчёт или техническую документацию — это уже другой разговор. Там уверенный неправильный ответ хуже чем честное «не знаю».

Хорошее правило: чем выше цена ошибки — тем больше нужна проверка. Нейросеть как инструмент первого прохода работает хорошо. Нейросеть как единственный источник истины в важных задачах — рискованно.

Итог

Нейросеть не врёт в том смысле в котором врут люди. Она не знает что говорит неправду — у неё просто нет механизма который это различает. Она генерирует наиболее статистически вероятный текст, и если этот текст оказывается неправдой — она об этом не узнает.

Понимание этого меняет то как с ней работать. Не как с энциклопедией. Не как с оракулом. Как с очень начитанным помощником у которого нет жизненного опыта, нет доступа к проверке фактов в реальном времени — и которого нужно перепроверять там где это важно.

Из всех доступных сейчас моделей Claude ближе всего подходит к тому чтобы самостоятельно замечать собственные ошибки. Это не значит что он не галлюцинирует — значит что с ним это происходит реже и он лучше справляется с самокоррекцией.

✨ Попробовать Claude и сравнить модели на Study AI

ссылка на оригинал статьи https://habr.com/ru/articles/1033792/