ИИ «дурачит» ученых, придумывая данные. Но такие данные могут упростить обучение самого ИИ

Исследователи из Университета Иллинойса Урбана-Шампейн разработали ИИ, который генерирует искусственные данные на основе микрофотографий электронного микроскопа, опираясь на технологию, лежащую в основе генераторов изображений. На полученных данных обучаются другие ИИ, и прекрасно находят дефекты в реальных материалах.
ИИ «дурачит» ученых, придумывая данные. Но такие данные могут упростить обучение самого ИИ
Два микроскопических изображения поверхности материала. Левое изображение было сгенерировано ИИ, а правое — получено с помощью микроскопа. The Grainger College of Engineering at the University of Illinois Urbana-Champaign

ИИ расширяет реальность. В буквальном смысле: он создает новые изображения материалов, обучаясь на микрофотографиях. А потом на искусственных изображениях учится другой ИИ и прекрасно находит дефекты в реальных материалах.

Исследователи из Университета Иллинойса Урбана-Шампейн разработали ИИ, который генерирует искусственные данные на основе фотографий материалов, которые получаются при съемке электронным микроскопом. Опираясь на технологию, лежащую в основе генераторов изображений, ИИ позволяет исследователям включать в генерируемые данные фоновый шум и ошибки эксперимента. Данные получаются практически неотличимые от естественных, но их можно получать практически в неограниченных количествах и самые разнообразные и на них обучать другие ИИ.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Генеративные ИИ берут известную информацию и генерируют новые вещи, которых раньше не существовало в мире. Теперь мы их используем для автоматизированного анализа данных», — говорит Пиншан Хуанг, соавтор работы. — «То, что используется для создания картин с ламами в стиле Моне, теперь может сделать научные данные настолько хорошими, что это обманет меня и моих коллег».

Системы ИИ и машинного обучения регулярно используются в материаловедении для анализа данных, но они требуют трудоемкого вмешательства человека. Для повышения эффективности такого анализа требуется большой набор маркированных данных, которые указывают программе, что искать. Кроме того, для обеспечения эффективности анализа необходимо учитывать широкий спектр фоновых шумов и ошибки эксперимента, которые трудно смоделировать.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Поскольку сбор и маркировка такого огромного массива данных с помощью настоящего микроскопа практически невозможна, Хуанг совместно с профессором физики Брайаном Кларком разработала генеративный ИИ, способный создать большой набор искусственных обучающих данных на основе сравнительно небольшого набора реальных, маркированных данных. Для этого исследователи использовали циклическую генеративную состязательную сеть, или CycleGAN.

«Бой двух роботов»

Схема работы генератора данных на основе реальных фотографий.
Схема работы генератора данных на основе реальных фотографий.
https://www.nature.com/articles/s41524-023-01042-3
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Можно представить себе CycleGAN как соревнование между двумя роботами», — говорит Кларк. — «Есть "генератор", задача которого — имитировать предоставленный набор данных, и есть "дискриминатор", задача которого — найти различия между генератором и реальными данными. Они по очереди пытаются обмануть друг друга, совершенствуясь на основе того, что удалось сделать другому. В итоге генератор может создавать искусственные данные, практически неотличимые от реальных».

CycleGAN обучался на сравнительно небольшой выборке реальных микроскопических изображений и научился генерировать изображения, которые были использованы для обучения другой системы ИИ — FCN. Теперь эта система способна распознавать широкий спектр структурных особенностей. Фактически, на искусственных данных она научилась «убирать» фоновый шум и учитывать ошибки эксперимента.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Примечательно то, что нам никогда не приходилось объяснять ИИ, что такое фоновый шум или что такое аберрации в микроскопе», — говорит Кларк. — «Это означает, что даже если есть что-то, о чем мы не подумали, CycleGAN может это узнать и работать с этим».

Исследовательская группа Хуанг включила CycleGAN в свои эксперименты по обнаружению дефектов в двумерных полупроводниках — классе материалов, перспективных для применения в электронике и оптике. Но, возможности метода гораздо шире.