ИИ потерпел неудачу при попытке оценить эффективность лечения шизофрении
Модели ИИ для выявления закономерностей в больших наборах данных и прогнозирования того, как люди будут реагировать на конкретное лечение, занимают центральное место в точной медицине. В новой работе ученые Йельского университета показали, что модели ИИ могут с высокой точностью предсказывать результаты лечения людей из выборки, на которой они обучались. Но их эффективность резко падает при применении к другим наборам данных.
«Это — проблема», — говорит соавтор работы Адам Чекроуд. — «Исследование, по сути, доказывает, что алгоритмы необходимо тестировать на нескольких выборках».
Точность алгоритма
Исследователи оценили алгоритм, который обычно используется в моделях психиатрического прогнозирования. Они использовали данные пяти клинических испытаний антипсихотических препаратов, в которых приняли участие 1513 участников из Северной Америки, Азии, Европы и Африки, у которых была диагностирована шизофрения.
В испытаниях, проводившихся в период с 2004 по 2009 год, измерялись симптомы участников до и через четыре недели после приема одного из трех антипсихотических препаратов (или сравнивались эффекты различных доз одного и того же препарата).
Команда обучила алгоритм прогнозировать улучшение симптомов в течение четырех недель лечения антипсихотиками. Во-первых, исследователи проверили точность алгоритма на данных, на которых он был разработан, — сравнив его прогнозы с фактическими результатами, и обнаружили, что точность была высокой.
Затем они оценили, насколько хорошо модель обобщается на новые данные. Исследователи обучили ИИ на подмножестве данных одного клинического исследования, а затем применили его к другому подмножеству того же исследования. Они также обучили алгоритм на всех данных одного исследования, а затем измерили его эффективность на данных другого.
Модель показала плохие результаты в этих тестах, генерируя, казалось бы, почти случайные прогнозы при применении к набору данных, на котором она не обучалась. Команда повторила эксперимент, используя другой алгоритм прогнозирования, но получила аналогичные результаты.
Лучшее тестирование
Авторы исследования говорят, что их результаты показывают, что модели клинического прогнозирования следует тщательно тестировать на больших наборах данных, чтобы гарантировать их надежность. Систематический обзор 308 моделей клинического прогнозирования психиатрических исходов показал, что только около 20% моделей прошли проверку на выборках, отличных от тех, на которых они были разработаны.
Чекроуд объясняет, что многие лекарства показывают хорошие результаты при ранних клинических испытаниях, но терпят неудачу на более поздних стадиях: «Мы должны очень дисциплинированно относиться к тому, как мы создаем эти алгоритмы и как мы их тестируем. Мы не можем просто сделать это один раз и думать, что все хорошо».