Программы, которые находят COVID-19 по рентгеновским снимкам, не подходят для клинической практики

В прошлом году научное сообщество построило тысячи систем искусственного интеллекта для идентификации COVID-19 на рентгеновских снимках грудной клетки и компьютерной томографии. Ученые показали, что использовать эти программы в клинической практике нельзя.

Одним из самых надежных инструментов диагностики COVID-19 считается рентген и КТ. Оказалось, что нейросети, обученные обработке этих снимков, на самом деле смотрят на наличие стрелок и текста на фото, а не на особенности структур в легких

Выявить COVID-19 по рентгеновским и КТ-снимкам не всегда так просто, учитывая что пациентов с подозрением на инфекцию к одному врачу могут поступать ежедневно несколько десятков, а то и сотня. В начале пандемии на помощь врачам пришли программисты — они разработали множество моделей с машинным обучением, которые могут ставить диагноз COVID-19 прямо по снимкам.

Конечно, такие программы — скорее подспорье для врачей, так как окончательный диагноз зависит и от других тестов и наличия симптомов. Но если программа даст ложный результат, она может заставить врача усомниться в поставленном диагнозе. Очень часто работа нейросетей представляет собой «черный ящик» — программа получает данные, обрабатывает их путями, выработанными в результате обучения, а затем выдает конечный результат. Но что в ходе обработки происходит с данными, зачастую неясно. В некоторых случаях принципы анализа могут быть основаны на особенностях, которые к медицине не имеют никакого отношения.

Ученые Вашингтонского университета решили проверить, насколько используемые для анализа снимков модели машинного обучения корректно учитывают медицинскую специфику данных. Но проблемы с этим возникли уже на первом этапе, когда исследователи решили воссоздать программы других ученых. Обычно в научных работах ученые не дают исходный код программ, а лишь рассказывают, как они их создавали. И если воссоздать код программы еще возможно, то обучить алгоритм точно так же, как авторы анализируемой работы, невозможно без их участия.

Все же исследователям удалось создать код анализируемых программ и обучить полученные нейросети. Но оказалось, что многие из них обращают внимание при обработке снимков по большей части не на особенности легких человека, а на стрелки и текст, которыми часто сопровождаются опубликованные в интернете картинки. И эти маркеры зачастую служат опорой при принятии решений моделью, хотя стрелки могут указывать и на не имеющие отношения к COVID-19 структуры в легких.

Статья опубликована в журнале Nature Machine Intelligence.