Нейросети дадут роботам трехмерное зрение
Нейронные излучающие поля (Neural radiance fields — NeRFs) — это передовые методы машинного обучения, которые могут генерировать трехмерные (3D) представления объектов или среды на основе двумерных (2D) изображений. Они очень нужны в робототехнике. Но возникла проблема.
Большинство существующих наборов данных и платформ для обучения NeRF в робототехнике не используется: система работает так, что сначала она должна завершить обучение, а потом уже — сможет увидеть. Грубо говоря, надо обойти объект со всех сторон, а потом нейронная сетка NeRF построит 3D-изображение. Для робота это не годится. Ему нужно представить трехмерную форму объекта еще до того, как он этот объект всесторонне исследует. Вот если бы метод позволял строить и перестраивать 3D-изображение по мере того, как робот узнает в реальном времени об объекте что-то новое — совсем другое дело. И вот ученые сделали такую систему.
Исследовательская группа из Стэнфордского университета представила NerfBridge, новый пакет программного обеспечения с открытым исходным кодом для обучения алгоритмов NeRF в реальном времени. Этот пакет очень ждут робототехники.
Как построить объемное изображение по фотографиям
NeRFs впервые были представлены разработчиками компьютерной графики. По сути, эти системы создают подробные карты окружающей среды, обучая нейронную сеть восстанавливать трехмерную геометрию и цвета сцены, по фотографиям или картинкам.
«Проблема составления карт по изображениям — это проблема, над которой мы в сообществе робототехников работаем уже давно, и NeRFs предлагают новый взгляд на то, как к ней подойти», — объяснил ведущий автор работы Хавьер Ю. — «Как правило, NeRF обучаются так: все изображения собираются заранее, а затем система строит трехмерную сцену за один раз. Но в робототехнике мы хотим использовать NeRF непосредственно для таких задач, как навигация, и поэтому они просто бесполезны, если мы получим изображение только тогда, когда прибудем в пункт назначения. Вместо этого мы хотим строить NeRF шаг за шагом по мере того, как робот исследует окружающую среду. Именно эту проблему и решает NerfBridge».
NerfBridge — пакет, представленный Ю и его коллегами, использует изображения, полученные с помощью датчиков и камер, встроенных в физических роботов. Эти изображения непрерывно поступают в мощную обучающую библиотеку NeRF Nerfstudio, что позволяет создавать NeRF, которые обновляют трехмерную картинку по мере того, как робот получает новые изображения.
Чтобы продемонстрировать потенциал своего метода, Ю и его коллеги использовали пакет для обучения NeRF на основе изображений, полученных камерой, установленной на квадрокоптере, — дроне с четырьмя роторами, который летал в помещении и на улице. Результаты оказались убедительными.
Таким образом, этот метод вскоре может быть использован другими исследователями для обучения роботов трехмерному зрению.
Роботы учатся. Теперь процесс обучения не завершается в лаборатории. Он выходит (или вылетает) на улицу вместе с роботом.