ИИ учится правильно рисовать пять пальцев на руке
Создание систем искусственного интеллекта, надежно воспринимающих человека, остается одной из самых сложных задач в области компьютерного зрения. Среди наиболее сложных проблем — реконструкция 3D-моделей человеческих рук, задача, имеющая широкое применение в робототехнике, анимации, человеко-компьютерном взаимодействии, дополненной и виртуальной реальности.
Сложность заключается в природе самих рук, которые часто не видны при удержании предметов или деформируются в сложных ориентациях при выполнении таких задач, как захват.
В Институте робототехники Университета Карнеги-Меллон разработали новую модель - Hamba. Она предлагает новый подход к реконструкции 3D-руки по одному изображению, не требуя предварительных знаний о характеристиках камеры или контексте тела человека.
Что может Hamba
Отличительной чертой Hamba является отход от традиционных архитектур на основе ставших уже традиционными трансформеров. Вместо этого модель использует моделирование пространства состояний (Mamba). Новая модель использует графовые нейронных сетей (Graph Neural Networks) для захвата пространственных отношений между суставами рук.
Hamba важна для взаимодействия человека и компьютера. Позволяя машинам лучше воспринимать и интерпретировать человеческие руки, модель закладывает основу для будущих систем искусственного интеллекта (AGI) и роботов, способных понимать человеческие эмоции и намерения с большей тонкостью.
В будущем исследовательская группа планирует развить и уточнить построение трехмерных моделей человека по отдельным изображениям. Это важная задача, имеющая широкое применение в различных отраслях, от здравоохранения до индустрии развлечений. Hamba является примером того, как искусственный интеллект продолжает расширять границы восприятия человека машинами и есть надежда, что скоро ИИ-модели перестанут ошибаться в количестве пальцев.