ИИ обучили диагностировать заболевания по звуку кашля
Это не первый случай, когда ученые исследуют звук в качестве биомаркера заболеваний. Эта концепция получила распространение во время пандемии COVID-19, когда ученые обнаружили, что респираторное заболевание можно обнаружить по кашлю.
Новое в системе Google, получившей названий Health Acoustic Representations (HeAR), — это огромный набор данных, на котором она обучалась, и тот факт, что ее можно настроить для выполнения нескольких задач.
Исследователи говорят, что еще слишком рано говорить о том, станет ли HeAR коммерческим продуктом. На данный момент план состоит в том, чтобы предоставить заинтересованным исследователям доступ к модели. Они смогут использовать ее в своих собственных исследованиях. «Наша цель в рамках исследования Google — стимулировать инновации в этой зарождающейся области», — говорит Суджай Какармат, менеджер Google в Нью-Йорке, который работал над этим проектом.
Как обучалась модель: она прослушала 300 миллионов записей
Большинство инструментов искусственного интеллекта, разрабатываемых в этой области, обучаются на аудиозаписях кашля или дыхания. Запись сопровождается медицинской информацией о человеке, издающем эти звуки. Например, клипы могут иметь метку, что на момент записи у человека был бронхит. Инструмент позволяет связать особенности звуков с меткой данных в процессе обучения. Это так называемое обучение с учителем.
«В медицине мы традиционно широко используем обучение с учителем, и это правильно, потому что у нас есть клиническое подтверждение», — говорит Яэль Бенсуссан, ларинголог из Университета Южной Флориды в Тампе. «Недостатком является то, что это действительно ограничивает наборы данных, которые вы можете использовать, потому что наборов аннотированных данных не хватает».
Вместо этого исследователи Google использовали обучение с частичным привлечением учителя (Semi-supervised learning), которое опирается на неразмеченные данные. Ученые собрали из общедоступных видео на YouTube более 300 миллионов коротких звуковых фрагментов кашля, дыхания, покашливания и других человеческих звуков.
Каждый клип был преобразован в визуальное представление звука, так называемую спектрограмму. Затем исследователи «заблокировали» некоторые сегменты спектрограмм, чтобы помочь модели научиться предсказывать недостающие части. Это похоже на то, как обучают большие языковые модели, лежащую в основе чат-ботов. Например, ChatGPT именно так на множестве примеров текста обучался предсказывать следующее слово в предложении. Используя этот метод, исследователи создали то, что они называют базовой моделью, которую, по их словам, можно адаптировать для самых разных задач.
Прилежный ученик
В случае с HeAR команда Google адаптировала его для выявления COVID-19, туберкулеза и, например, определения того курит ли человек. По шкале, где 0,5 представляет модель, которая работает не лучше, чем случайное предсказание, а 1 представляет модель, которая никогда не ошибается, HeAR показал максимальное значение 0,710 при обнаружении COVID-19 и 0,739 при обнаружении туберкулеза.
Али Имран, инженер из Университета Оклахомы в Талсе, говорит, что сам объем данных, используемых Google, придает значимость исследованию:. «Это дает уверенность в том, что это надежный инструмент».
По словам Яэль Бенсуссан область медицинской акустики или «аудиомики» является многообещающей: «Акустическая наука существует уже несколько десятилетий. Отличие заключается в том, что теперь, благодаря искусственному интеллекту и машинному обучению, у нас есть средства для сбора и анализа очень большого количества данных».
Бенсуссан является со-руководителем исследовательского консорциума, который сосредоточился на изучении голоса как биомаркера здоровья: «Существует огромный потенциал не только для диагностики, но и для скрининга и мониторинга. Мы не можем повторять сканирование или биопсию каждую неделю. Вот почему голос становится действительно важным биомаркером для мониторинга заболеваний. Это не инвазивно и требует совсем немного ресурсов».