· Авторская колонка · Наука и общество

Искусственный интеллект · Медицина

Когда алгоритм ставит диагноз: готова ли медицина доверять искусственному интеллекту?

Большие языковые модели уже обгоняют врачей на экзаменах и проигрывают им там, где речь идёт о самом важном для безопасности пациента, — в умении сомневаться. А тем временем искусственный интеллект расходится по клиникам быстрее, чем накапливаются доказательства его надёжности и появляются правила игры.

От симптома к решению: современные модели уверенно проходят путь к «вероятному» ответу — но именно переход от данных к взвешенному клиническому суждению остаётся слабым звеном.

Искусственный интеллект стремительно приближается к рубежу, за которым в профессиях, основанных на сложных знаниях и экспертных решениях, он начинает превосходить даже наиболее квалифицированных специалистов. Одной из первых областей, где это стало особенно заметно, оказалась медицина. Всего несколько лет назад универсальные языковые модели лишь приближались к проходному баллу на медицинских квалификационных экзаменах. Новейшие топовые модели на тех же тестах стабильно показывают точность выше 90% — при том что студенты-медики в среднем набирают 59,3%.

Прогресс оказался настолько быстрым, что способность объективно оценивать результаты моделей начала утрачиваться: в ряде случаев достигнуто «насыщение бенчмарков», когда разработать тесты, достаточно сложные, чтобы значимо различать модели, становится всё труднее. Недавнее крупное исследование и вовсе показало, что языковая модель продемонстрировала более высокую точность диагностики, чем многочисленная группа практикующих врачей, решавших сложные клинические задачи — как на основе описаний реальных пациентов, так и на специально подготовленных сценариях. Результат стал важной вехой и одновременно поводом для серьёзной тревоги.

Базовый уровень, а не потолок

Важно точно зафиксировать, что именно измерялось. Оценивались готовые коммерческие модели «из коробки» — без надстроек, к которым со временем получает доступ специализированная медицинская система: без поиска рекомендаций в реальном времени, клинических калькуляторов, карт пациентов, структурированных процедур рассуждения и агентских возможностей. Это была базовая оценка последовательного клинического мышления, а не тест предельного потенциала. Более продвинутая система имела бы доступ к справочникам, клиническим рекомендациям, лабораторным калькуляторам, полной истории болезни и инструментам структурированного анализа, помогающим генерировать и ранжировать дифференциальные диагнозы.

Закроют ли эти надстройки выявленный пробел — вопрос открытый. Показательно, однако, что уже в базовой комплектации модели, оптимизированные для рассуждений, показали значительное преимущество: в среднем 76% против 67% у обычных. Разрыв оказался и статистически значимым, и большим по величине эффекта. Это указывает на существенную роль архитектуры и алгоритмов вывода — и на то, что специализированные надстройки способны поднять планку ещё выше.

От ошибки диагноза до автоматического письма пациенту

Последствия ошибок могут быть серьёзными. Часть исследований показывает, что генеративный ИИ помогает в диагностике редких болезней, анализе необычных симптомов и поиске маловероятных диагнозов; другие демонстрируют обратную сторону: если модель выдаёт ошибочную или вводящую в заблуждение информацию, даже опытные специалисты могут изменить верное решение и выбрать неправильную стратегию.

Проблема не сводится к диагнозу. По мере проникновения ИИ в повседневную работу клиник появляются новые источники риска. Некоторые системы автоматически используют генеративные модели для писем пациентам, медицинской документации и сообщений от имени врачей. Иногда результат настолько неудачен, что требует полного переписывания человеком. Окончательное утверждение остаётся за врачом, но сам факт автоматизации поднимает вопрос о надёжности и качестве таких решений.

Лазейки в регулировании

Во многом стремительное распространение стало возможным благодаря особенностям регулирования. Многие системы позиционируются не как самостоятельные медицинские изделия, а как инструменты поддержки клинических решений. Если программа лишь помогает врачу анализировать данные, опирается на опубликованные источники, объясняет логику выводов и оставляет финальное решение специалисту, она часто не требует полного цикла государственной регистрации. По этой модели построено большинство современных генеративных систем для медиков.

Похожая ситуация и в потребительском сегменте: если приложение официально заявлено для поддержки здорового образа жизни или общего информирования, а не для диагноза и лечения, требования к контролю заметно снижаются. Поэтому крупные разработчики сопровождают продукты предупреждениями, что те не заменяют врача. Но на практике граница между информированием и медицинским консультированием размывается. Чат-боты анализируют симптомы, интерпретируют анализы, объясняют показатели, оценивают изображения, сопоставляют данные с клиническими рекомендациями и формулируют весьма конкретные выводы. Некоторые сервисы подключают электронные карты, результаты анализов и данные носимых устройств, строя подробные персонализированные отчёты о состоянии организма, выявляя риски и предлагая дальнейшие шаги. Формально это «не диагноз» — но функциональность уже очень близка к работе клинициста.

Лицензировать ИИ как врача?

Поэтому всё чаще обсуждают пересмотр самого подхода к регулированию медицинского ИИ — предложение перестать видеть в подобных системах лишь разновидность приборов. В отличие от традиционного оборудования, генеративные модели обучаются, анализируют огромные массивы данных, адаптируются под конкретного пациента и фактически выполняют многие интеллектуальные функции врача. Отсюда идея оценивать их не по каждой отдельной функции, а так, как оценивают профессиональную подготовку специалиста: теоретически такой ИИ мог бы проходить процедуру, напоминающую медицинское лицензирование, — с экзаменами, подтверждением компетентности и длительной работой под наблюдением.

Пока это преимущественно предмет научных дискуссий. На практике большинство разработчиков идут традиционным путём, добиваясь официального разрешения через существующие процедуры оценки безопасности и эффективности. Но такой путь требует многих лет клинических исследований, тогда как новые системы появляются почти ежемесячно и начинают применяться задолго до завершения полноценной проверки.

Урок сервисов такси

Сложившаяся картина напоминает развитие цифровых сервисов совместных поездок в начале прошлого десятилетия: платформы стремительно завоевали рынок раньше, чем государство успело адаптировать законодательство, и регулированию пришлось подстраиваться под уже сложившуюся практику. Похожий сценарий вполне возможен и в здравоохранении. Перед обществом встаёт принципиальный вопрос: сохранятся ли традиционные требования к доказательству безопасности и эффективности медицинских технологий — или их существенно пересмотрят, чтобы узаконить инструменты ИИ, уже получившие массовое распространение.

Что со всем этим делать

Главный вывод — необходимость жёсткой точности в том, для каких задач, в каких условиях и с каким уровнем контроля уместно внедрять языковые модели в медицине. Для задач низкого риска под присмотром врача — обобщения информации о пациенте, понятных объяснений, структурирования документации — аргументы в пользу внедрения разумны: сильные стороны технологии здесь к месту, а последствия неточностей контролируемы.

Автономное диагностическое мышление — совсем другая история. Дело не только в галлюцинациях, то есть в хорошо известной склонности моделей генерировать правдоподобную, но вымышленную информацию. Дело в том, что модель может демонстрировать абсолютную уверенность ровно там, где клиническое мышление требует сомнения и осторожности.

Модель, ставящая верный финальный диагноз в 90% случаев, кажется полезной — пока не вспомнишь, что для оставшихся 10% она может оказаться неспособной выстроить более широкий дифференциальный ряд. Проблема не в том, что она иногда ошибается, а в том, что у неё нет проверенного механизма спросить себя: «а что, если я не права?» Ключевая мысль обзора

В медицине уверенность оправдана лишь после того, как альтернативы рассмотрены и исключены; модель, пропускающая этот шаг, не экономит время, а проявляет хрупкость там, где цена ошибки максимальна. Стремление к более широкому внедрению понятно: прирост возможностей реален, а темпы прогресса заставляют думать, что осторожность оставляет позади. Но медицина уже сталкивалась с подобным вызовом. Лекарства не одобряют только за многообещающие ранние результаты — нужны доказательства безопасности и эффективности именно на тех пациентах и при тех состояниях, где средство будет применяться. Тот же стандарт должен действовать и здесь.

Пока не получены долгосрочные данные, доказывающие, что конкретное внедрение ИИ надёжно улучшает результаты лечения в реальных условиях — не в симуляциях, а в живых рабочих процессах клиник, — при интеграции больших языковых моделей в практику следует сохранять предельную осторожность. И всё же распространение технологий уже во многом необратимо: большинство врачей так или иначе используют инструменты ИИ, а пациенты всё активнее обращаются к чат-ботам за информацией о здоровье. Доказательства пользы и безопасности продолжают накапливаться — и именно от того, удастся ли совместить скорость внедрения с надёжностью доказательной базы, зависит, станет ли генеративный ИИ безопасным дополнением к медицине или источником новых, плохо контролируемых рисков.

Алмаз Шарман

Об авторе

Алмаз Шарман

Президент Академии профилактической медицины. Доказательная медицина, общественное здоровье и технологии в здравоохранении.

Профиль автора на Tengrinews →

Источники

  1. Kung T. H., Cheatham M., Medenilla A., et al. Performance of ChatGPT on USMLE. PLOS Digit Health. 2023;2(2):e0000198.
  2. Bicknell B. T., Butler D., Whalen S., et al. Critical analysis of ChatGPT 4 Omni in USMLE disciplines, clinical clerkships, and clinical skills. JMIR Med Educ. 2024;10:e63430.
  3. Rao A. S., Esmail K. P., Lee R. S., et al. Large language model performance and clinical reasoning tasks. JAMA Netw Open. 2026;9(4):e264003.
  4. Cabral S., Restrepo D., Kanjee Z., et al. Clinical reasoning of a generative artificial intelligence model compared with physicians. JAMA Intern Med. 2024;184(5):581–583.
  5. Brodeur P. G., Buckley T. A., Kanjee Z., et al. Performance of a large language model on the reasoning tasks of a physician. Science. 2026;392(6797):524–527.
  6. Goh E., Gallo R., Hom J., et al. Large language model influence on diagnostic reasoning: a randomized clinical trial. JAMA Netw Open. 2024;7(10):e2440969.