Ученые НГТУ НЭТИ создают быстрообучаемые нейросети

Искусственная нейронная сеть – это программное воплощение математической модели и один из основных элементов искусственного интеллекта, который построен по принципу работы сетей нервных клеток мозга. В разработке искусственного интеллекта важную роль играет машинное обучение, а именно построение алгоритмов, позволяющих быстрее обучать нейросеть. Сотрудники НГТУ НЭТИ решили использовать робастный метод для создания быстрообучаемых нейросетей. Работу специалистов сибирского технического вуза уже поддержали в Российском фонде фундаментальных исследований.

В научной практике робастный подход при создании нейронных сетей применяется впервые. «В рамках исследований будут разработаны принципиально новые нейронные сети, свойства которых еще только предстоит изучить. Кроме того, должно сократиться время на обучение нейронной сети. Архитектура сети при этом будет достаточно простой, а затраты на предобработку данных – минимальными», – рассказывает декан факультета прикладной математики и информатики университета профессор Владимир Тимофеев.

Быстрообучаемые нейросети – часть будущего искусственного интеллекта, который сможет быстро обрабатывать огромные массивы данных исследований в различных научных областях. Одна из проблем традиционных методов обучения нейросетей связана с точностью исходных данных: в любом исследовании могут содержаться аномальные, ошибочные данные – результаты некачественных измерений или влияния посторонних факторов. К наличию таких данных следует относиться с особой осторожностью и вниманием.

Проблема в том, что человек отличает аномальные данные, а для искусственного интеллекта они представляют собой одинаковую ценность. И, чтобы решить эту задачу, специалисты на практике либо усложняют структуру сети, либо запускают процесс предобработки данных (специальная операция по выявлению возможных ошибок), что приводит к увеличению времени. Ученые факультета прикладной математики и информатики (ФПМИ) НГТУ НЭТИ от этого отказались и решили применить другой алгоритм обучения – научить искусственный интеллект распознавать ошибки.

Подход, предложенный учеными вуза, поможет обеспечить не только устойчивость алгоритма обучения нейронной сети к ошибкам, но и точность ее работы на реальных данных. Алгоритм обучения должен сам определять, какими должны быть «правильные» значения, и выделять из этого потока некий идеальный результат. Так, например, это позволит сократить время и другие ресурсы на обучение сетей: вместо недели специалисту понадобится всего один час работы.

«Для того, чтобы понять, как работает робастный метод, необходимо вспомнить, как определяются среднеарифметические значения. Пусть, например, необходимо рассчитать среднюю скорость транспортных средств, находящихся в данный момент на заданном участке дороги. Обычно эта задача решается на основе данных, поступающих с GPS-навигаторов, подключенных к сети ГЛОНАСС. При этом на интересующем нас участке дороги в данный момент времени могут находиться припаркованные автомобили, скорость которых равна нулю. Формальный учет всех поступивших данных с заданного участка дороги приведет к занижению значения среднего арифметического значения. Использование робастной оценки среднего даст верную оценку среднего значения», –комментирует декан факультета прикладной математики и информатики, профессор кафедры теоретической и прикладной информатики Владимир Тимофеев.

Робастный подход в обучении нейронных сетей, который используют ученые НГТУ НЭТИ, позволяет снизить влияние ошибочных наблюдений. Система сама понимает, что объекты «находятся» на большом расстоянии от основной группы наблюдений, а значит, являются нетипичными. Это уменьшает влияние ошибочных значений, опечаток или других отклоняющих показателей на точность результата. Ноу-хау математиков НГТУ НЭТИ в особой формуле, которая позволяет рассчитывать ценность различных значений в зависимости от их частоты обнаружения в потоке информации для различных массивов данных – результатов научных исследований, текстов, научных статей и т.п.

Полученные в результате разработки нейросети можно будет использовать для классификации текстовых данных или создания систем продвинутого поиска по массивам текстов. Сейчас уже создана первая версия алгоритма, который ученые НГТУ НЭТИ разработали для Института цитологии и генетики СО РАН. Задача системы – обрабатывать большие массивы данных из медицинской международной базы научных публикаций «PubMed», искать и выводить необходимую информацию точно по запрашиваемому объекту. Например, по определенной кислоте, вирусу, клетке или органу.

«В среднем специалисту для беглого просмотра содержания научной статьи необходимо 15–20 минут. Для просмотра всей базы научных публикаций человеку понадобится порядка 200 лет. Использование нейронных сетей позволяет сократить время на анализ текста статьи и достаточно быстро извлечь необходимую информацию. В результате появляется возможность выделить в статье объекты, представляющие интерес для ученых, и показать их связь с другими объектами», – рассказала автор проекта, обладатель гранта Российского фонда фундаментальных исследований аспирантка ФПМИ НГТУ НЭТИ Мария Сивак.

По словам молодого ученого, анализ текстов необходим не только для того, чтобы помочь человеку найти информацию, но и решить вопрос организации научного знания. «Каждая научная публикация посвящена решению конкретной задачи. Объединение и систематизация публикаций помогут ученым в дальнейших исследованиях при решении текущих и новых задач», – говорит Мария Сивак.

Сейчас в медицине стоит сложная задача – создать математическую модель организма для того, чтобы снизить к минимуму испытания вакцин или новых препаратов на живых существах. Главные проблемы в реализации этой идеи – отсутствие технических возможностей и знаний. Но если «электронный пациент» перейдет из разряда фантастики в реальность, то работа организма будет описана, например, огромной нейронной сетью, а робастный подход поможет быстро изучать побочные действия вакцин или препаратов.

Проект сотрудников НГТУ НЭТИ будет реализован в течение двух лет. Другие разработки в области нейронных сетей сегодня осуществляются ведущими специалистами таких компаний, как Samsung, Google и других крупных организаций, но, по словам ученых новосибирского вуза, все результаты исследований являются закрытыми.

Материал предоставлен пресс-службой НГТУ НЭТИ