Первый систематический обзор и метаанализ в своем роде обнаружил, что искусственный интеллект (ИИ) так же хорош в диагностике заболеваний на основе медицинского имиджа, как и медицинские работники. Тем не менее, необходимы более качественные исследования.
медицинский работник смотрит на медицинские сканы
Новые исследования показывают, что специалисты по искусственному интеллекту и медицине одинаково эффективны при диагностике заболеваний на основе медицинской визуализации.
В новой статье рассматриваются существующие доказательства в попытке определить, может ли ИИ диагностировать заболевания так же эффективно, как медицинские работники.
Насколько известно авторам, то есть огромная команда исследователей во главе с профессором Аластером Деннистоном из Доверительного фонда Университета Больниц Бирмингема в Соединенном Королевстве – это первый систематический обзор, в котором сравнивается эффективность ИИ с медицинскими работниками по всем заболеваниям.
Профессор Деннистон и его команда провели поиск в нескольких медицинских базах данных для всех исследований, опубликованных в период с 1 января 2012 года по 6 июня 2019 года. Команда опубликовала результаты своего анализа в журнале The Lancet Digital Health.
ИИ наравне с профессионалами здравоохранения
Исследователи искали исследования, которые сравнивали диагностическую эффективность алгоритмов глубокого обучения с медицинскими работниками, когда они ставили диагноз на основе медицинской визуализации.
Они изучили качество отчетов в указанных исследованиях, их клиническую ценность и структуру исследований.
Кроме того, когда дело дошло до оценки диагностической эффективности ИИ по сравнению с медицинскими работниками, исследователи смотрели на два результата: специфичность и чувствительность.
«Чувствительность» определяет вероятность того, что диагностическое средство получит положительный результат у людей, у которых есть заболевание. Специфика относится к точности диагностического теста, который дополняет меру чувствительности.
Процесс отбора позволил получить только 14 исследований, качество которых было достаточно высоким для включения в анализ. Профессор Деннистон объясняет: «Мы просмотрели более 20 500 статей, но менее 1% из них были достаточно надежными по своему дизайну и сообщили, что независимые рецензенты доверяли своим заявлениям».
«Более того, только 25 исследований подтвердили внешнюю достоверность моделей ИИ (с использованием медицинских изображений из другой популяции), и только в 14 исследованиях сравнивали эффективность ИИ и медицинских работников, использующих один и тот же тестовый образец».
«В рамках этой горстки высококачественных исследований мы обнаружили, что глубокое обучение действительно может выявлять болезни, начиная от рака до заболеваний глаз, так же точно, как и медицинские работники. Но важно отметить, что ИИ существенно не превосходил диагноз человека».
Профессор Аластер Деннистон
В частности, анализ показал, что ИИ может правильно диагностировать заболевание в 87% случаев, тогда как выявление медицинскими работниками дает точность 86%. Специфичность алгоритмов глубокого обучения составила 93%, по сравнению с людьми – 91%.
Уклоны могут преувеличивать производительность ИИ
Профессор Деннистон и его коллеги также обращают внимание на некоторые ограничения, которые они обнаружили в исследованиях, посвященных диагностике ИИ.
Во-первых, в большинстве исследований исследуется точность диагностики ИИ и медицинских работников в изолированной обстановке, которая не имитирует регулярную клиническую практику – например, лишая врачей дополнительной клинической информации, которая им обычно требуется для постановки диагноза.
Во-вторых, говорят исследователи, в большинстве исследований сравнивались только наборы данных, в то время как высококачественные исследования в области диагностики потребовали бы таких сравнений у людей.
Кроме того, по словам авторов, все исследования пострадали от плохой отчетности, поскольку анализ не учитывал информацию, которая отсутствовала в указанных наборах данных. «Большинство [исследований] не сообщали, отсутствовали ли какие-либо данные, какую долю это представляло, и как отсутствующие данные были учтены при анализе», – пишут авторы.
Дополнительные ограничения включают в себя непоследовательную терминологию, неясно установленный порог для анализа чувствительности и специфичности, а также отсутствие проверки вне образца.
«Существует внутреннее противоречие между желанием использовать новую, потенциально спасающую жизнь диагностику и необходимостью разрабатывать высококачественные доказательства таким образом, чтобы это могло принести пользу пациентам и системам здравоохранения в клинической практике», – комментирует первый автор доктор Сяосюань Лю из Бирмингемский университет.
«Ключевой урок из нашей работы заключается в том, что в искусственном интеллекте, как и в любой другой части здравоохранения, важен хороший дизайн исследования. Без него вы можете легко ввести отклонения, которые искажают ваши результаты. Эти отклонения могут привести к преувеличенным заявлениям о хорошей производительности для искусственного интеллекта инструменты, которые не переводят в реальный мир “.
Доктор Сяосюань Лю
«Доказательства того, как алгоритмы ИИ изменят результаты пациентов, должны быть получены из сравнений с альтернативными диагностическими тестами в рандомизированных контролируемых исследованиях», – добавляет соавтор доктор Ливия Фэйс из глазной больницы Moorfields, Лондон, Великобритания.
Гностические решения, принимаемые с помощью алгоритма ИИ, используются для того, чтобы увидеть, что же происходит с исходами, которые действительно имеют значение для пациентов, такими как своевременное лечение, время выписки из больницы или даже показатели выживаемости ».