Искусственный интеллект · Медицина
Когда алгоритм ставит диагноз: готова ли медицина доверять искусственному интеллекту?
Большие языковые модели уже обгоняют врачей на экзаменах и проигрывают им там, где речь идёт о самом важном для безопасности пациента, — в умении сомневаться. А тем временем искусственный интеллект расходится по клиникам быстрее, чем накапливаются доказательства его надёжности и появляются правила игры.
Искусственный интеллект стремительно приближается к рубежу, за которым в профессиях, основанных на сложных знаниях и экспертных решениях, он начинает превосходить даже наиболее квалифицированных специалистов. Одной из первых областей, где это стало особенно заметно, оказалась медицина. Всего несколько лет назад универсальные языковые модели лишь приближались к проходному баллу на медицинских квалификационных экзаменах. Новейшие топовые модели на тех же тестах стабильно показывают точность выше 90% — при том что студенты-медики в среднем набирают 59,3%.
Прогресс оказался настолько быстрым, что способность объективно оценивать результаты моделей начала утрачиваться: в ряде случаев достигнуто «насыщение бенчмарков», когда разработать тесты, достаточно сложные, чтобы значимо различать модели, становится всё труднее. Недавнее крупное исследование и вовсе показало, что языковая модель продемонстрировала более высокую точность диагностики, чем многочисленная группа практикующих врачей, решавших сложные клинические задачи — как на основе описаний реальных пациентов, так и на специально подготовленных сценариях. Результат стал важной вехой и одновременно поводом для серьёзной тревоги.
Экзамен — это ещё не клиника
Отличная сдача экзамена — не то же самое, что эффективная работа в реальных условиях. А в принятии клинических решений результаты на практике гораздо важнее идеальных оценок за тесты. Высокие баллы способны делать модели более авторитетными в глазах медицинского сообщества, чем они есть на самом деле. Куда важнее, чтобы модель демонстрировала безупречное клиническое мышление — а на практике она может неверно считывать контекст, зацикливаться на неполной информации, не задавать правильных уточняющих вопросов или проявлять ложную уверенность там, где оправданы сомнения.
Отсюда два связанных вопроса. Насколько модели справляются со всем спектром задач клинического мышления? И какое место — если оно вообще есть — они занимают в реальном врачебном процессе: как инструменты поддержки решений, помощники при сортировке пациентов или что-то близкое к автономным агентам? Даже самые успешные лабораторные результаты ещё не означают, что подобные системы безопасны, надёжны и способны заменить врача. При этом технологии развиваются значительно быстрее, чем накапливаются научные доказательства и формируются механизмы регулирования.
Проверка мышления на всех этапах
Чтобы оценить не только финальный диагноз, но и всю цепочку рассуждений, недавно была предложена комплексная методика. На 29 стандартизированных клинических сценариях (виньетках) из авторитетного медицинского справочника протестировали 21 передовую языковую модель ведущих разработчиков. Каждый сценарий — это полная клиническая картина: анамнез, осмотр органов и систем, результаты физикального обследования и лабораторных анализов. Обследование моделировалось последовательно — от дифференциальной диагностики до назначения анализов и выбора тактики лечения; клинический контекст сохранялся на каждом шаге, воссоздавая реальный ход событий. Для учёта вариативности ответов каждый сценарий запускался трижды.
Ключевой стала новая система оценки, построенная на простом принципе: модель, которая блестяще справляется с одной областью, но проваливается в других, не должна получать такой же балл, как модель со стабильными результатами по всем направлениям. Вместо единого среднего показателя точности рассчитывается нормированная площадь многоугольника по пяти осям — дифференциальная диагностика, диагностические исследования, финальный диагноз, тактика лечения и прочие клинические рассуждения. Модель с ровными результатами образует крупный сбалансированный многоугольник; модель с одним провалом — перекошенную фигуру с малой площадью. Такая метрика штрафует за неравномерность, которую легко замаскировать простым усреднением.
Когда правильного ответа недостаточно
На первый взгляд сырые цифры обнадёживают: по 29 сценариям и более чем 16 тысячам ответов общая точность всех моделей уложилась в диапазон 81–90%. Но сбалансированная оценка показала иную реальность — разброс от 64% до 78%, заметно более широкий, и куда более честную картину. На этапах финального диагноза и тактики лечения, где доступна почти полная клиническая картина, модели выступили хорошо — около 85–95% точности. Даже по строгому критерию, при котором ответ засчитывался лишь полностью правильным, частота ошибок при постановке финального диагноза оставалась ниже 40%.
Сильнее всего модели споткнулись на дифференциальной диагностике — этапе, где врач рассматривает не только самое вероятное объяснение симптомов, но и менее очевидные, потенциально более опасные альтернативы. Именно здесь вопрос «чем ещё это может быть?» определяет, какие анализы назначить, какие тревожные сигналы заметить и какие диагнозы не упустить. Точность держалась около 75%, однако по жёсткому критерию частота ошибок превысила 80% у всех 21 модели — без единого исключения. Поскольку метрика поощряет сбалансированность, один этот провал ощутимо потянул вниз даже самые сильные результаты.
Наиболее точное объяснение этого пробела таково: модели склонны преждевременно зацикливаться на одном ответе вместо того, чтобы удерживать неопределённость и последовательно взвешивать конкурирующие версии — то есть делать ровно то, что отличает хорошего клинициста. Высокие результаты при финальном диагнозе это, скорее, подтверждают: когда ответ можно подобрать по шаблону из полного набора данных, модели справляются отлично; но когда нужно держать в голове несколько версий, оценивать их при неполной информации и понимать, какой вопрос быстрее всего сузит круг поиска, — они пасуют.
Уместна простая аналогия. На кулинарном конкурсе участник определяет блюдо по вкусу: чувствует томаты, базилик, моцареллу, тесто — и говорит «пицца». Возможно, он прав. Но искусный повар рассмотрел бы и другие варианты — брускетту, капрезе на тосте, флэтбред, цыплёнка пармиджано — и знал бы, какие вопросы помогут сузить выбор: хрустящий хлеб или мягкий, томаты свежие или уваренные в соус, есть ли снизу паста. Модели неплохо научились называть «пиццу» — наиболее вероятный диагноз, — но с трудом составляют полный список жизнеспособных альтернатив. На конкурсе ценой ошибки станет проигранный раунд. В медицине ставки иные: клинические проявления пересекаются гораздо сильнее рецептов, и зацикливание на очевидном, когда более опасный диагноз остаётся незамеченным, — это невыявленный рак, упущенное время для операции или лечение, бьющее мимо цели.
Базовый уровень, а не потолок
Важно точно зафиксировать, что именно измерялось. Оценивались готовые коммерческие модели «из коробки» — без надстроек, к которым со временем получает доступ специализированная медицинская система: без поиска рекомендаций в реальном времени, клинических калькуляторов, карт пациентов, структурированных процедур рассуждения и агентских возможностей. Это была базовая оценка последовательного клинического мышления, а не тест предельного потенциала. Более продвинутая система имела бы доступ к справочникам, клиническим рекомендациям, лабораторным калькуляторам, полной истории болезни и инструментам структурированного анализа, помогающим генерировать и ранжировать дифференциальные диагнозы.
Закроют ли эти надстройки выявленный пробел — вопрос открытый. Показательно, однако, что уже в базовой комплектации модели, оптимизированные для рассуждений, показали значительное преимущество: в среднем 76% против 67% у обычных. Разрыв оказался и статистически значимым, и большим по величине эффекта. Это указывает на существенную роль архитектуры и алгоритмов вывода — и на то, что специализированные надстройки способны поднять планку ещё выше.
Лучше или хуже врача? Картина неоднозначная
Отдельный и, возможно, более важный вопрос — работают ли модели лучше или хуже врачей-людей. Имеющиеся данные противоречивы. В прямых сравнениях передовые модели превосходили практикующих врачей и ординаторов в клиническом мышлении на стандартизированных кейсах; оптимизированная для рассуждений модель сравнялась с базовым уровнем врачей или превзошла его в серии экспериментов, включая реальные случаи из отделений экстренной помощи, причём её преимущество было наиболее заметным на ранней стадии сортировки, когда решения принимаются при минимуме информации.
Вместе с тем рандомизированное исследование показало, что доступ врачей к языковой модели во время диагностического поиска значимо не улучшил их результаты по сравнению с традиционными ресурсами. Иными словами, модели могут обыгрывать врачей на структурированных задачах в изоляции, но главный клинический вопрос — улучшают ли они решения врача при реальном целевом использовании — во многом остаётся без ответа. И именно этот сценарий важнее всего. Сходная картина и при самостоятельном применении систем пациентами: генеративный ИИ далеко не всегда улучшает способность правильно оценить собственное состояние, а некоторые чат-боты могут не распознать ситуацию, требующую срочной помощи, и не порекомендовать вовремя обратиться за ней.
Внедрение, которое уже не остановить
Несмотря на нерешённость этих вопросов, внедрение генеративного ИИ в здравоохранение идёт повсеместно. Медицинские учреждения дают врачам доступ к интеллектуальным помощникам для анализа клинической информации, подготовки документов, составления заключений и поддержки решений. Число таких продуктов выросло так быстро, что многие специалисты потеряли им счёт, а значительная часть решений не проходила полноценную оценку безопасности именно как медицинские изделия.
Подобная скорость особенно необычна для медицины — одной из самых консервативных сфер, где новые технологии внедряют медленно и только после долгих проверок, ведь любая ошибка может обернуться тяжёлыми последствиями для пациента. Именно поэтому в практике до сих пор широко живут устоявшиеся, порой устаревшие технологии. Но в случае генеративного ИИ принцип неожиданно ослаб: врачам не просто разрешают пользоваться новыми инструментами — во многих организациях это поощряют, нередко ограничиваясь формальным предупреждением, что ИИ способен ошибаться.
От ошибки диагноза до автоматического письма пациенту
Последствия ошибок могут быть серьёзными. Часть исследований показывает, что генеративный ИИ помогает в диагностике редких болезней, анализе необычных симптомов и поиске маловероятных диагнозов; другие демонстрируют обратную сторону: если модель выдаёт ошибочную или вводящую в заблуждение информацию, даже опытные специалисты могут изменить верное решение и выбрать неправильную стратегию.
Проблема не сводится к диагнозу. По мере проникновения ИИ в повседневную работу клиник появляются новые источники риска. Некоторые системы автоматически используют генеративные модели для писем пациентам, медицинской документации и сообщений от имени врачей. Иногда результат настолько неудачен, что требует полного переписывания человеком. Окончательное утверждение остаётся за врачом, но сам факт автоматизации поднимает вопрос о надёжности и качестве таких решений.
Лазейки в регулировании
Во многом стремительное распространение стало возможным благодаря особенностям регулирования. Многие системы позиционируются не как самостоятельные медицинские изделия, а как инструменты поддержки клинических решений. Если программа лишь помогает врачу анализировать данные, опирается на опубликованные источники, объясняет логику выводов и оставляет финальное решение специалисту, она часто не требует полного цикла государственной регистрации. По этой модели построено большинство современных генеративных систем для медиков.
Похожая ситуация и в потребительском сегменте: если приложение официально заявлено для поддержки здорового образа жизни или общего информирования, а не для диагноза и лечения, требования к контролю заметно снижаются. Поэтому крупные разработчики сопровождают продукты предупреждениями, что те не заменяют врача. Но на практике граница между информированием и медицинским консультированием размывается. Чат-боты анализируют симптомы, интерпретируют анализы, объясняют показатели, оценивают изображения, сопоставляют данные с клиническими рекомендациями и формулируют весьма конкретные выводы. Некоторые сервисы подключают электронные карты, результаты анализов и данные носимых устройств, строя подробные персонализированные отчёты о состоянии организма, выявляя риски и предлагая дальнейшие шаги. Формально это «не диагноз» — но функциональность уже очень близка к работе клинициста.
Лицензировать ИИ как врача?
Поэтому всё чаще обсуждают пересмотр самого подхода к регулированию медицинского ИИ — предложение перестать видеть в подобных системах лишь разновидность приборов. В отличие от традиционного оборудования, генеративные модели обучаются, анализируют огромные массивы данных, адаптируются под конкретного пациента и фактически выполняют многие интеллектуальные функции врача. Отсюда идея оценивать их не по каждой отдельной функции, а так, как оценивают профессиональную подготовку специалиста: теоретически такой ИИ мог бы проходить процедуру, напоминающую медицинское лицензирование, — с экзаменами, подтверждением компетентности и длительной работой под наблюдением.
Пока это преимущественно предмет научных дискуссий. На практике большинство разработчиков идут традиционным путём, добиваясь официального разрешения через существующие процедуры оценки безопасности и эффективности. Но такой путь требует многих лет клинических исследований, тогда как новые системы появляются почти ежемесячно и начинают применяться задолго до завершения полноценной проверки.
Урок сервисов такси
Сложившаяся картина напоминает развитие цифровых сервисов совместных поездок в начале прошлого десятилетия: платформы стремительно завоевали рынок раньше, чем государство успело адаптировать законодательство, и регулированию пришлось подстраиваться под уже сложившуюся практику. Похожий сценарий вполне возможен и в здравоохранении. Перед обществом встаёт принципиальный вопрос: сохранятся ли традиционные требования к доказательству безопасности и эффективности медицинских технологий — или их существенно пересмотрят, чтобы узаконить инструменты ИИ, уже получившие массовое распространение.
Что со всем этим делать
Главный вывод — необходимость жёсткой точности в том, для каких задач, в каких условиях и с каким уровнем контроля уместно внедрять языковые модели в медицине. Для задач низкого риска под присмотром врача — обобщения информации о пациенте, понятных объяснений, структурирования документации — аргументы в пользу внедрения разумны: сильные стороны технологии здесь к месту, а последствия неточностей контролируемы.
Автономное диагностическое мышление — совсем другая история. Дело не только в галлюцинациях, то есть в хорошо известной склонности моделей генерировать правдоподобную, но вымышленную информацию. Дело в том, что модель может демонстрировать абсолютную уверенность ровно там, где клиническое мышление требует сомнения и осторожности.
Модель, ставящая верный финальный диагноз в 90% случаев, кажется полезной — пока не вспомнишь, что для оставшихся 10% она может оказаться неспособной выстроить более широкий дифференциальный ряд. Проблема не в том, что она иногда ошибается, а в том, что у неё нет проверенного механизма спросить себя: «а что, если я не права?» Ключевая мысль обзора
В медицине уверенность оправдана лишь после того, как альтернативы рассмотрены и исключены; модель, пропускающая этот шаг, не экономит время, а проявляет хрупкость там, где цена ошибки максимальна. Стремление к более широкому внедрению понятно: прирост возможностей реален, а темпы прогресса заставляют думать, что осторожность оставляет позади. Но медицина уже сталкивалась с подобным вызовом. Лекарства не одобряют только за многообещающие ранние результаты — нужны доказательства безопасности и эффективности именно на тех пациентах и при тех состояниях, где средство будет применяться. Тот же стандарт должен действовать и здесь.
Пока не получены долгосрочные данные, доказывающие, что конкретное внедрение ИИ надёжно улучшает результаты лечения в реальных условиях — не в симуляциях, а в живых рабочих процессах клиник, — при интеграции больших языковых моделей в практику следует сохранять предельную осторожность. И всё же распространение технологий уже во многом необратимо: большинство врачей так или иначе используют инструменты ИИ, а пациенты всё активнее обращаются к чат-ботам за информацией о здоровье. Доказательства пользы и безопасности продолжают накапливаться — и именно от того, удастся ли совместить скорость внедрения с надёжностью доказательной базы, зависит, станет ли генеративный ИИ безопасным дополнением к медицине или источником новых, плохо контролируемых рисков.
Источники
- Kung T. H., Cheatham M., Medenilla A., et al. Performance of ChatGPT on USMLE. PLOS Digit Health. 2023;2(2):e0000198.
- Bicknell B. T., Butler D., Whalen S., et al. Critical analysis of ChatGPT 4 Omni in USMLE disciplines, clinical clerkships, and clinical skills. JMIR Med Educ. 2024;10:e63430.
- Rao A. S., Esmail K. P., Lee R. S., et al. Large language model performance and clinical reasoning tasks. JAMA Netw Open. 2026;9(4):e264003.
- Cabral S., Restrepo D., Kanjee Z., et al. Clinical reasoning of a generative artificial intelligence model compared with physicians. JAMA Intern Med. 2024;184(5):581–583.
- Brodeur P. G., Buckley T. A., Kanjee Z., et al. Performance of a large language model on the reasoning tasks of a physician. Science. 2026;392(6797):524–527.
- Goh E., Gallo R., Hom J., et al. Large language model influence on diagnostic reasoning: a randomized clinical trial. JAMA Netw Open. 2024;7(10):e2440969.