ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

TL;DR

В эксперимент мы шли с уверенностью, что ChatGPT хотя бы раз из пяти промахнётся с главным диагнозом. Не промахнулся. Пять из пяти: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Ставка проиграна, но самое интересное оказалось не здесь.

Модели разошлись сразу после диагноза. У ChatGPT провалилось то, что в клинической работе называется «что пациент делает в ближайшие две недели»: к каким врачам идти, какие обследования сдать до начала терапии (ПСА перед заместительной терапией тестостероном, маммография перед МГТ), какие целевые уровни держать и когда перепроверять, как прочитать соотношение АСТ и АЛТ при рабдомиолизе. На четырёх плановых кейсах эта разница повторилась одинаково.

А на пятом — кейсе MGUS — проиграл уже МедАссист. ChatGPT и соотношение альбумин/глобулин посчитал явно, и конкретный список подтверждающих тестов для гематолога назвал — мы не сделали ни того, ни другого. Раздел про этот кейс у нас расписан подробнее остальных: мы договорились разбирать свои промахи внимательно, а не проматывать.

Оговорюсь сразу. Пишем мы от команды, которая делает МедАссист, — один из двух сервисов в сравнении. Интерес у нас есть, прятать его бессмысленно. Поэтому методику мы зафиксировали до первого прогона, ответы обоих сервисов приводим слово в слово, а кейс, где мы проиграли, разбираем подробно. Судить, насколько это уравновешивает конфликт интересов, — читателю.

Гипотеза и почему мы её проверяли

Гипотеза у нас была простая. На медицинских задачах большие универсальные модели — ChatGPT, Claude, Gemini — главный диагноз в большинстве случаев ставят правильно, а дальше начинают промахиваться: на маршруте пациента, обязательных обследованиях до терапии, целевых уровнях, клинических расчётах. Звучит это красиво в питч-деках, но толком никто из нас проверять не собирался, и, насколько мы знаем, никто больше тоже.

Ещё один аргумент — литература. Цифры оттуда гипотезу косвенно подпирают:

PLOS ONE 2024 (Cabral et al.): на специализированных вопросах лабораторной медицины ChatGPT верно интерпретирует около 51% случаев, а 17% ответов полностью неверны.
Nature Communications Medicine 2025: если в контексте вопроса подсунуть ложный медицинский показатель, LLM в 83% случаев «удваивает» его — встраивает в рассуждение, не заметив.
Nature Scientific Reports 2025: на смешанных кислотно-щелочных нарушениях ChatGPT в 16,7% случаев выдаёт ложно-успокаивающий вердикт «норма»; врачи отделений интенсивной терапии на тех же кейсах дают 0% такого ответа.

Стартовали с уверенностью: хотя бы раз из пяти ChatGPT поставит диагноз неверно.

Не поставил. Пять из пяти. Это был первый результат, который нас удивил.

*Пять кейсов эксперимента. Разбираем каждый по очереди — от 45-летнего инженера до ургентного рабдомиолиза.*

Методология

Мы зафиксировали процедуру до прогонов, чтобы не подгонять её под результат по ходу.

Кейсы. Пять клинических панелей, реконструированных из реальных публикаций (PubMed, Blood, Annals of Family Medicine). Сохранены все клинически значимые отклонения и анамнез — жалобы, образ жизни, текущая терапия, семейная история. Четыре кейса плановые, один ургентный (рабдомиолиз) — специально, чтобы проверить работу с триажем.

Сервисы. ChatGPT (веб-интерфейс chat.openai.com, тариф Plus, модель GPT-5.4) и специализированный медицинский ИИ МедАссист. Для обоих запрос один и тот же: «расшифруй пожалуйста». Ни одного дополнительного промпта, ни одного редактирования запроса. Цель — смоделировать поведение обычного пользователя с папкой анализов в руках, а не промпт-инженера.

Входной формат. Все панели подавались текстом, не скриншотами. Это исключает различия в OCR и делает эксперимент ровнее: мы хотим сравнить клиническую интерпретацию, а не распознавание.

Дата. Все прогоны 17 апреля 2026 года. Один день, одна сессия, чтобы версии моделей не менялись между запусками.

Фиксация. Все выдачи сохранены дословно, без редактирования. В статье, которую вы читаете, цитаты приведены в кавычках с оригинальным форматированием; многоточия обозначают сокращения для экономии места. Полные выдачи по всем пяти кейсам опубликованы отдельной страницей (ссылка в конце).

Что оценивали. Семь параметров: сам диагноз, маршрут к специалистам, обязательные обследования до терапии, целевые уровни с частотой контроля, прогноз и то, как сервис его формулирует, механистические связи между отклонениями, специфические подтверждающие тесты. Оценка качественная — смотрим, как выдача соотносится с клиническими гайдлайнами (Endocrine Society, ATA/ETA, российские рекомендации), — не считаем F1 и accuracy. Для такой задачи численная метрика пока не придумана.

Почему всего пять кейсов. Пять — это иллюстрация паттерна, а не статистика. Картина во всех пяти одинаковая, но выдавать её за рандомизированное исследование мы не будем. Чтобы говорить «в X процентах случаев модель срывается на Y», нужны сотни прогонов, ослеплённые оценщики и заранее зарегистрированная методика. Над этой частью команда сейчас и работает; будет отдельный пост.

Конфликт интересов. Мы — та самая команда, которая разрабатывает МедАссист. Но нужно заметить, что методика зафиксирована до первого прогона, все ответы обоих сервисов приведены слово в слово, а кейс MGUS, на котором проиграли именно мы, разобран как следует.

В двух словах про архитектуру

Чтобы дальнейший разбор не висел в воздухе, коротко о том, чем специализированный медицинский пайплайн отличается от прямого обращения к LLM.

ChatGPT в этой задаче — это один вызов к одной модели. Текст анализов уходит в контекст, модель собирает ответ авторегрессивно, никаких внешних проверок нет. Клинические алгоритмы в обучающем корпусе встречаются, но приоритета над мотивирующими текстами из фитнес-блогов у них нет.

Специализированный пайплайн устроен иначе. Сначала мы распознаём показатели с фото или PDF и валидируем их — единицы измерения, референсы, границы правдоподобия. Дальше обезличиваем: всё, что позволяет опознать пациента, удаляется до того, как хоть что-то уйдёт в модель. Потом оркестрация — не один вызов, а несколько ролей с разными промптами: структурирование панели, клиническая интерпретация, сверка с клиническими протоколами. На том же шаге подтягиваются релевантные фрагменты гайдлайнов под конкретный паттерн отклонений и жалоб. Сломался у нас как раз слой сверки с гайдлайнами — на MGUS; к этому ещё вернёмся.

Это не обзор продукта, а заметка про архитектуру. Без неё непонятно, откуда на пяти кейсах берётся тот паттерн различий, о котором пойдёт речь ниже.

Кейс 1. Метаболический синдром — паритет на диагнозе, разнос после

Мужчина 45 лет, инженер, сидячая работа, крупный проект и хронический стресс. Жалобы: усталость годами, падение либидо, прибавка веса, храп, утренние головные боли, изжога несколько раз в неделю, боли в коленях. Почти каждый вечер — бокал-два вина. Отец — диабет второго типа, мать — артериальная гипертензия.

Ключевые отклонения панели: HbA1c 5,9%, HOMA-IR 4,9 (норма <2,5), триглицериды 2,4, ЛПВП 0,95, ApoB 1,35, индекс атерогенности 5,1. АЛТ 58, ГГТ 78. Тестостерон свободный 220 пмоль/л (ниже нормы). Витамин D 18, цинк 9,4, B12 260. hs-CRP 4,8. Мочевая кислота 468. Кортизол утренний 580. Талия 104 см.

*Восемь связей в одном теле. То, что врач держит в голове — а пациент обычно нет.*

Оба ИИ собрали одинаковый диагностический набор: метаболический синдром, инсулинорезистентность, преддиабет, атерогенная дислипидемия, НАЖБП, функциональный гипогонадизм, дефицит витамина D и цинка, низкоуровневое воспаление, подозрение на обструктивное апноэ сна. Тут ChatGPT ничего не упустил.

Дальше начинается то, что в клинической литературе называют страховочным предусловием — обязательная проверка до начала терапии.

ChatGPT тестостерон увидел: отметил низкий свободный, объяснил, почему он мог упасть, и на этом остановился. МедАссист отдельной строкой дописал:

Анализ на ПСА (простат-специфический антиген) — перед любым обсуждением терапии тестостероном (стандартный скрининг для мужчин 45+).

Почему это важно. Заместительная терапия тестостероном при невыявленном раке простаты может ускорить опухолевый процесс — ПСА-скрининг до старта терапии прописан в Endocrine Society Clinical Practice Guideline и аналогах. Если 45-летний мужчина, начитавшись ответа ChatGPT, пойдёт к «модному эндокринологу» искать TRT без ПСА — это реальный клинический провал.

Вторая точка — маршрутизация. ChatGPT обошёлся формулой «обсудите с врачом». МедАссист назвал пять специалистов с зонами ответственности (эндокринолог, кардиолог или терапевт, гастроэнтеролог, сомнолог или ЛОР, уролог-андролог). В российской реальности пяти специалистов за две недели не пройдёшь, но пациент хотя бы знает, к кому и с чем идёт.

Третья — количественные цели. ChatGPT: «Витамин D3 4000–5000 МЕ, магний 300–400 мг, цинк 20–30 мг, омега-3 2–3 г». МедАссист на том же запросе:

Витамин D — при уровне 18 нг/мл обычно рекомендуют 2000–5000 МЕ в день для достижения целевого уровня 40–60 нг/мл. Контроль через 2–3 месяца.

Разница — «сколько съесть сегодня» против «какой уровень достичь и когда проверить».

Где ChatGPT на этом кейсе оказался сильнее. Во-первых, упомянул Lp(a) как важный кардиомаркёр при семейном анамнезе ИБС — мы этот показатель пропустили. Во-вторых, дал короткую мотивирующую формулу «три действия прямо сейчас»: снижение веса, алкоголь, активность. Такое запоминается и толкает что-то менять лучше, чем длинный список с таймингами контроля. Записываем за ChatGPT.

Кейс 2. Рабдомиолиз — острая ситуация, где важна не информация, а навигация

Мужчина 52 года, восемь лет на аторвастатине 40 мг, диабет 2 типа на метформине. Жалобы: тяжёлая слабость проксимальных мышц (не может поднять руки, не может подняться по лестнице), боли в плечах и бёдрах, тёмная моча пять дней назад. КФК 23 171 Е/л (норма 30–200, превышение в 115 раз). АСТ 3 851, АЛТ 594. Миоглобин сыворотки 3 200. Креатинин 188, eGFR 38, калий 5,3.

Это острая ситуация. Пациент с такими цифрами должен набирать 103, а не открывать чат. На практике — всё равно открывает. Потому кейс и попал в эксперимент.

Диагноз оба поставили правильно: статин-индуцированный рабдомиолиз с острым повреждением почек. Оба связали причину с аторвастатином, оба рекомендовали госпитализацию, оба упомянули anti-HMGCR/anti-SRP как маркёры статин-ассоциированной иммуноопосредованной миопатии.

Разошлись в трёх точках — и это как раз иллюстрация того, что происходит после диагноза.

Где должно стоять «срочно». ChatGPT разложил ответ по двенадцати блокам: показатели, симптомы, причины, лечение. Фраза «срочно в стационар» появляется на девятом — после длинной простыни текста. МедАссист начинает с другого:

Критическая ситуация: необходима срочная госпитализация. Ваши анализы указывают на тяжёлое острое повреждение мышечной ткани (рабдомиолиз), которое угрожает функции почек и требует немедленной медицинской помощи.

И дальше в блоке срочности — маркер для экстренного вызова:

Если вы чувствуете резкое ухудшение (сильная слабость, перебои в сердце, уменьшение количества мочи, спутанность сознания) — вызывайте скорую помощь.

В экстренной ситуации первая строка определяет, что человек сделает дальше: вызовет скорую или дочитает разбор до конца. ChatGPT учили выдавать красиво структурированный текст. МедАссиста учили начинать с действия.

Клинический расчёт. АСТ 3 851 и АЛТ 594 легко истолковать как тяжёлое поражение печени — трансаминазы зашкаливают. МедАссист сделал явный расчёт:

Соотношение АСТ/АЛТ = 6,5 (при норме около 1). Такое резкое преобладание АСТ над АЛТ типично именно для мышечного, а не печёночного повреждения.

Без этого расчёта пациент мог испугаться «катастрофы печени». ChatGPT упомянул паттерн в общем виде, но не посчитал.

Вопрос «почему сейчас». Пациент восемь лет на аторвастатине — почему рабдомиолиз случился именно сейчас? МедАссист перечислил причины: незначительное обезвоживание, взаимодействие лекарств, накопительный эффект статина на фоне ухудшения функции почек (почки хуже выводят препарат → концентрация растёт). ChatGPT этот вопрос пропустил — а он объясняет, почему продолжать статин после восстановления нельзя.

Если совсем коротко. В плановых кейсах триаж — это вопрос такта: в каком блоке напомнить про врача. В ургентных — клиническая ответственность: в первой ли строке напомнить про скорую. Плюс расчёт соотношения и план на после выписки — три места, где ответы моделей реально разошлись.

Кейс 3. MGUS — здесь ChatGPT обошёл нас

В методологии мы обещали писать о промахах прямо. Вот он.

Мужчина 68 лет. Жалобы: общая слабость последние шесть месяцев и периодические боли в спине. Принимает периндоприл и аторвастатин 10 мг. Панель почти в норме, кроме трёх отклонений: общий белок 92 г/л (повышен, норма 64–83), альбумин 38 (норма), СОЭ 38 мм/ч (повышена в два с лишним раза).

Возраст 68 + слабость полгода + боли в спине + общий белок + СОЭ = классическая триада красных флагов на моноклональную гаммопатию или множественную миелому. Её нужно поймать в скрининге.

Что сделал ChatGPT. Во-первых, рассчитал соотношение альбумин/глобулин: общий белок 92 − альбумин 38 = глобулины 54, соотношение 0,70 (норма >1,0). Вывод — повышены глобулины. Мы этот расчёт не сделали явно.

Во-вторых, дал узко-специфичный дифференциал:

Три тревожных признака: СОЭ 38, общий белок 92, жалобы (слабость + боли в спине). Эта комбинация классически заставляет исключать множественную миелому… Также может быть: хроническое воспаление, инфекция, ревматологические заболевания, MGUS.

В-третьих — и это главный удар — назвал конкретный план обследования: электрофорез белков сыворотки, иммунофиксация, свободные лёгкие цепи (FLC), белок Бенс-Джонса в моче, рентген или МРТ позвоночника, КТ костей. Это реальный клинический чек-лист, который и должен назначить гематолог.

Диагноз совпадает в 5/5. Расходится всё, что после него — маршрут, безопасность, цели, рамка, механика, специфика тестов.

МедАссист моноклональные гаммопатии упомянул как одну из возможностей, но до специфических подтверждающих тестов — FLC, иммунофиксации, Бенс-Джонса — не дошёл. Это не интерпретационная тонкость, а продуктовый провал. Причину мы видим: на этапе сверки с гайдлайнами нужный фрагмент протокола — «подтверждающие тесты при подозрении на MGUS или миелому» — под этот паттерн панели не подтянулся как следует. Работаем над тем, чтобы подтягивал.

Что у нас всё же было сверх ChatGPT — подготовка к приёму:

Запишите, когда началась слабость, как часто и где именно болит спина, были ли эпизоды повышения температуры, ночная потливость, потеря веса.

«Температура, ночная потливость, потеря веса» — это B-симптомы, классический скрининг при подозрении на лимфому или миелому. Пациент, который придёт к гематологу с двумя строчками анамнеза и готовыми ответами на эти вопросы, экономит приёму минут пятнадцать-двадцать. Это тоже полезно. Но не отменяет того, что FLC, иммунофиксацию и Бенс-Джонса мы не назвали.

Если коротко: на MGUS ChatGPT сработал как чек-лист обследований для врача, мы — как подготовка пациента к приёму. Оба режима осмысленные. Но по клинической сути здесь выиграл ChatGPT — и нужно называть это своим именем, а не прятать за оговорками.

Что это за паттерн

На пяти кейсах читается один и тот же рисунок. «ChatGPT плохой» — это не про него. Рисунок другой:

Главный диагноз по типичной клинической панели универсальная LLM ставит. На наших пяти — пять из пяти.
Дальше — в том, что идёт сразу за диагнозом: маршрут, обязательные обследования, целевые уровни, расчёты — срывы системные. Это не дефект модели. Это следствие того, на чём она обучалась. Корпус — разнородный текст интернета, а не клинические алгоритмы ведения пациента; уклон у тренировочных данных естественный.
На узких, но технически насыщенных задачах (специфические подтверждающие тесты для конкретной нозологии) ChatGPT иногда оказывается сильнее — если нозология хорошо представлена в медицинском корпусе. MGUS, похоже, как раз такой случай.

Поверх этого ложится ещё одно: в академической литературе есть устойчивые провалы LLM — «ложно-успокаивающие» вердикты и «удвоение» подсунутых неверных показателей. В нашем эксперименте таких срывов мы не воспроизводили просто потому, что не проверяли: не подмешивали ложных цифр в панель и не ломали устойчивость в лоб. Это отдельный сюжет и отдельная статья.

Ограничения

Чтобы никто потом не присылал в комментариях то, что мы не признали сами.

Одна модель, один снимок во времени. Тестировали ChatGPT на GPT-5.4. Claude, Gemini, GigaChat, YandexGPT на этих же панелях мы не прогоняли. Результаты там могут отличаться.
Пять кейсов. Это иллюстрация, а не статистика. Чтобы говорить «в 80 процентах случаев X», нужны сотни прогонов, ослеплённые оценщики и предрегистрация протокола. Справедливое требование, которое мы и собираемся закрыть в следующей волне.
Панели реконструированные, не реальные пациенты. Реальных пустить в эксперимент нельзя — персональные данные, этика. Реконструкции делались с сохранением клинически значимых отклонений из публичных источников.
Оценка качественная. Мы сравнивали выдачи по семи параметрам на глаз, сверяясь с гайдлайнами, а не считали F1 и accuracy. Для такой задачи численная метрика пока не придумана, и это отдельный долг всей индустрии, а не только наш.
«Lost in the Middle» не сработал. Мы закладывали, что на панели с рабдомиолизом — около семидесяти показателей и аторвастатин в середине списка препаратов — ChatGPT не свяжет миопатию со статином. Связал. Возможно, эффект вылезает на более крупных входах (от полутора сотен показателей), но мы такие не прогоняли. Однако при большом количестве изображений бланков с результатами анализов Lost in the Middle остается проблемой, ровно как и остается проблемой использование длинных диалогов в ChatGPT, в которых сжатие не помогает, т.к. теряет важный контекст.
Конфликт интересов. Мы одна из сторон эксперимента, и это на что-то да влияет. Что конкретно мы делаем, чтобы это ограничить, — в разделе про методику.

Как воспроизвести

Нужно пять вещей: доступ к ChatGPT Plus (или любой LLM, на которой хотите прогнать), текстовый редактор для вставки панели, запрос «расшифруй пожалуйста» и час времени на все пять кейсов.

Все пять входных панелей и дословные выдачи обоих сервисов опубликованы отдельной страницей — [raw-данные эксперимента]. Там же методика и источники, из которых реконструированы панели.

Если кто-то прогонит те же кейсы на Claude, Gemini или GigaChat и опубликует результаты, пришлите — мы добавим ссылку в обновлении поста. Если рисунок окажется другим, тем интереснее.

Выводы

1. «Поставить диагноз» и «помочь пациенту» — две разные задачи. С первой универсальная LLM справляется заметно лучше, чем мы ожидали. Ломается — между диагнозом и действием.

2. Для продукта, который работает с медицинской интерпретацией, ключевой слой — не диагноз, а всё, что вокруг него: маршрут, обязательные обследования перед терапией, целевые уровни, связи между показателями, специфические подтверждающие тесты. И это уже инженерная задача — её решают мульти-модельной оркестрацией, поиском по клиническим протоколам, правилами безопасности.

3. На узких нозологиях универсальная модель иногда выигрывает по сути. На MGUS проиграли мы, и это полезное напоминание: «специализированный сервис всегда сильнее общего» — не аксиома, а гипотеза, которую надо проверять каждый раз.

4. Пяти кейсов не хватит, чтобы закрыть вопрос. Следующий шаг — сотня прогонов с ослеплёнными оценщиками-клиницистами и зарегистрированным до старта протоколом. Готовим, об этом выйдет отдельный пост.

5. Ни один ИИ не заменяет врача. Ни МедАссист, ни ChatGPT. Оба — способ прийти на приём подготовленным: с маршрутом, с формулировками жалоб, со списком вопросов. Альтернатива — прийти с растерянностью и ворохом бумаг.

ссылка на оригинал статьи https://habr.com/ru/articles/1028186/