Как поменять дизайн ИИ чата, чтобы лучше находить его ошибки. Обзор исследований

Кажется, что в ИИ чатах интерфейс довольно вторичен: ты пишешь, модель тебе отвечает, особо больше ничего и не надо (если модель отвечает хорошо). Но интерфейс очень влияет на то, насколько правильное решение вы примете, и насколько легко будет найти ошибку модели. Я собрала несколько научных исследований, которые могут пригодится тем, кто делает ИИ фичи в своих продуктах.

Как показывать источники в ИИ чате, чтобы пользователи писали осмысленные тексты

372 участника писали эссе на спорную политическую тему с помощью перплексити.

У разных участников ссылки на источники показывались по-разному:

в выпадашке над ИИ ответами
прямо в ответе ИИ были сноски с всплывашками
под текстом
на постоянно открытой боковой панели

Я приложила график, там можно посмотреть, какие действия люди чаще совершают при разном дизайне. В целом

в выпадашке над текстом люди проводили больше времени. Как открыли, так и читают, но лишний раз не открывают
если нужно, чтобы пользователь проверял ссылку и дальше писал → сноски в тексте
боковая панель хорошо влияет, когда источников много.
ссылки в футере ничем не хороши

Удовлетворенность была одинаковой для всех интерфейсов, но те, кто писал с боковой панелью, лучше опирались на данные, избегали подмены понятий, различали сильные и слабые источники.

Если предполагаете, что пользователи погружаются глубоко и им важно включить критическое мышление, то источники лучше располагать в боковой панели. Если не хотите прерывать поток, то лучше всплывашки прямо в тексте. Как будто, ничто не мешает сделать и то, и другое.

Надо сказать, что в последней версии перплексити есть ссылки в тексте + боковая панель со ссылками по клику + постоянная вкладка со ссылками сверху. В целом, логично.

https://www.researchgate.net/publication/399963408_Seeing_to_Think_How_Source_Transparency_Design_Shapes_Interactive_Information_Seeking_and_Evaluation_in_Conversational_AI

Если модель будет показывать, что она не уверена, это поможет не повторять тупо всё, что она предлагает?

50 студентов-будущих врачей распознавали рак кожи и пытались отличить его от обычных родинок.

ИИ давал им подсказки в разных форматах

Я уверен в ответе на 90%
Из 100 похожих случаев ИИ в среднем распознает 72 доброкачественных опухолей, и 51 из них окажется действительно доброкачественной

И в первом формате эта надпись вообще не влияла на частоту изменения ответов, хоть там большая уверенность, хоть маленькая (люди плохо воспринимают проценты). А вот второй вариант влиял, хоть и немного (разбег становился 6%).

Выводы: скорее всего, даже если вы заставите ИИ писать вам, что он не уверен, это не поможет, как и надписи во всех популярных моделях, что ИИ может ошибаться. Лучше писать на примере — «2 раза из 10 эта рекомендация будет буллшитом». Влияет не только на общение с ИИ, в других статьях понимание задачи при показе в процентах падает еще драматичнее.

https://dl.acm.org/doi/10.1145/3637318

Какой интерфейс может помочь снизить количество неправильных решений, если ИИ подсказывает фигню

200 участников эксперимента должны были, глядя на фотку тарелки, выбрать самый углеводосодержащий продукт на ней и выбрать из списка, чем его заменить.

Пользователи в разных группах:

видели подсказку ИИ сразу,
нажимали на кнопку, чтобы подсказка появилась
подсказка появлялась сама, но через 30 секунд
надо было сначала решить самому а потом уже увидеть результат ИИ (и изменить решение, если надо).

Если ИИ ошибается, то с первым интерфейсом люди дают 3% правильных ответов, а со вторым — 9%

В 75% случаев ИИ был прав и тогда все группы с ИИ отвечали лучше группы без ИИ в 2 раза (17% против 34%).

Но в 25% случаев ИИ ошибался. И тогда люди без ИИ давали 18% правильных ответов. Люди, которые сразу видели подсказку ИИ, давали только 3% верных ответов (!). А те, кому подсказка не показывалась сразу и надо было сначала подумать — в 9%.

Если в вашем продукте принимаются критически важные решения (медицина и т.п.), то лучше не показывать ИИ подсказку по дефолту, а сначала предложить пользователю включить мозг (перейти на систему 2 по Канеману). Хотя полностью это не поможет, конечно. Но надо учитывать, что все интерфейсы, где ИИ был скрыт, вызывали меньше доверия и удовлетворенности.

https://dl.acm.org/doi/pdf/10.1145/3449287

Как AI может интерфейсно отображать рассуждения, чтобы пользователь понимал, что происходит и мог найти ошибку

Обычно промежуточные шаги рассуждения модели — это просто текст, иногда разбитый по шагам. Они помогают самой модели, но не особо подходят для человека, который хочет проследить, что происходит.

Экспериментаторы попробовали несколько разных форматов, как отображать процесс рассуждения модели, на выборке в 125 человек.

Участники видели решение 10 задачек по математике, уровня 5 класса. В 9 из них были ошибки и 1 была решена правильно, нужно было найти на каком шаге ошиблась модель.

Варианта было 4:

просто текст по шагам
текст с подсветкой чисел
кодообразная структура
граф решения

Сверху виды объяснений, снизу формат чата с вопросом и ответом сбоку

Так же проверяли формат, когда задача и ответ показываются постоянно, в боковой панели, а рассуждения видно отдельно.

Быстрее и точнее всего пользователи находили ошибки, когда рассуждения показывались графом. Если сравнивать с обычном текстом, то получалось находить на 11% ошибок больше (74% у текста и 86% в случае графа).

Мне очень понравились дизайн-решения в этой статье! Понятно, что какие-то гуманитарные вопросы чуть сложнее показать в этом формате, но тем не менее все еще возможно. Ну и боковая панель с запросом — отличная штука.

https://arxiv.org/pdf/2510.22922

А насколько вообще показ рассуждений модели помогает? Может их вообще показывать не надо?

233 человека читали предложения, в каждом из которых было 3 факта, которые надо было проверить по вики и понять, какой правдивый, а какой нет.

Типа «Льюис Фридман, номинированный на две премии Эмми, ставил театральные шоу, получил Золотой глобус, а также написал документальные фильмы о Бобе Марли.

Интерфейсы, которые видели участники эксперимента

Интерфейс у разных групп различался:

видели совет ИИ (True/False) без доп.шагов
видели разбивку на три шага и ответы ИИ по каждому шагу
выносили промежуточный вердикт по каждому под-факту, потом видели ответ ИИ
то же самое, плюс оценивали, насколько каждый документ полезен

Интересно, что второй вариант, когда пользователь видел шаги и то, что ИИ проверил каждый шаг — оказался хуже всех по критичеcкому мышлению. В нем пользователь чаще всего соглашался с ИИ и очень плохо мог удержать свое решение, если ИИ ошибался.

Если же говорить про общий результат: то контрольная группа была точнее всех, обгоняя самый сложный интерфейс почти на 10 п.п.

Авторы говорят, что это потому, что пользователю надо было сделать в 3 раза больше решений и они когнитивно уставали.

https://arxiv.org/pdf/2501.10909

Выводы

Есть показать человеку готовый ответ — то думать своей головой или критически решать задачу он, почти наверняка, не будет. Если показать ему ход рассуждений модели, то он станет ей больше доверять, но ошибку, вероятно, не найдет.

А если не показывать готовый ответ и требовать постоянно думать головой и проверять промежуточные действия — то будет уставать и ошибаться.

Короче, если сервис влияет на что-то критичное, видимо, лучше просить пользователя принимать решения до ответа нейросети и проверять некоторые промежуточные утверждения, но не слишком часто. А если это какой-то развлекательный сервис, то лучше показывать некоторые шаги рассуждений, причем желательно структурированно, а не простыней текста. Читать никто не будет, но доверие решениям ии повысится.

Если у человека близко и под рукой исходные данные — список источников, изначальный запрос, ответ (если он уже есть), то следить за ходом рассуждения модели будет легче.

ссылка на оригинал статьи https://habr.com/ru/articles/1043088/