Робот, управляемый GPT-4, «играет» на гитаре и изображает «призрака»

Команда исследователей из Токийского университета связала большую языковую модель GPT-4 с роботом. Он способен совершать вполне человеческие жесты. Причем скорость движений тоже вполне человеческая. GPT-4 позволяет роботу учиться с нуля, запоминать и совершенствовать движения. Ученые сравнили процесс обучения робота с тем, как учатся двигаться новорожденные.
Робот, управляемый GPT-4, «играет» на гитаре и изображает «призрака»
Alter3. Робот имеет 43 оси, которые управляются пневматическими приводами. Внутри каждого глаза — камера. Система управления посылает команды через последовательный порт. Частота обновлений составляет 100-150 мс. arXiv (2023). DOI: 10.48550/arxiv.2312.06571
Связь с GPT-4 позволяет ускорить и упростить обучение робота.

Alter3 — это новейшая версия робота-гуманоида, впервые представленного в 2016 году учеными из Университета Токио. Исследователи использовали большую языковую модель GPT-4, чтобы научить робота правильно себя вести в различных ситуациях: таких как съемка селфи, подбрасывание мяча, поедание попкорна или игра на гитаре. Робот только имитирует движения — у него нет ни реального телефона для съемки селфи, ни пакета с попкорном, ни гитары, но выглядят его движения вполне реалистично.

Нажми и смотри

Робот играет на гитаре. Это движение генерируется GPT-4 с лингвистической обратной связью.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Текст GPT-4 превращается в движения Alter3

Раньше любые подобные действия требовали специального кодирования, но подключение GPT-4 открывает новые возможности для обучения роботов с помощью инструкций на естественном языке.

Исследователи пишут: «Управление теперь возможно путем преобразования лингвистических выражений, описывающих человеческие действия, в движения тела робота с помощью программного кода, который генерируется автоматически».

Alter3 способен выполнять сложные движения верхней части тела, включая детальную мимику. У него 43 оси, имитирующие движения опорно-двигательного аппарата человека. Кодирование координированного движения такого большого количества суставов всегда было трудной задачей. Теперь ученые могут просто давать устные приказы, описывающие желаемые движения, а LLM превращает эти приказы в инструкции на Python. Эти инструкции запускает движок на Android.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Alter3 сохраняет описание действий в памяти. Исследователи могут их уточнять и корректировать, что постепенно приводит к более быстрым, плавным и точным движениям.

Авторы приводят пример инструкций на естественном языке, данных Alter3 для съемки селфи:

  • Широко улыбнись, сделай глаза, чтобы показать волнение.
  • Поверни верхнюю часть тела чуть влево, приняв динамичную позу.
  • Подними правую руку, имитируя движение руки с телефоном.
  • Согни правый локоть, как бы приближая телефон к уху.
  • Слегка наклони голову вправо, принимая несколько игривую позу.
Нажми и смотри

Команда роботу: изобрази призрака.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Большие лингвистические модели становятся инструментом воспитания роботов

Использование LLM в робототехнике «переопределяет границы сотрудничества человека и робота, открывая путь для более интеллектуальных, адаптируемых и привлекательных роботизированных объектов», — говорят исследователи.

Ученые привнесли немного юмора в работу Alter3. В одном из сценариев робот делает вид, что съедает пакет попкорна, а потом узнает, что попкорн принадлежит человеку, сидящему рядом с ним. Преувеличенная мимика и жесты выражают удивление и смущение. Следующий шаг: что будет, если и попкорн и человек будут реальными. Ведь оборудованный камерами Alter3 вполне может «видеть», что происходит вокруг.

Исследователи показали, что Alter3 может совершенствовать свое поведение, наблюдая за реакциями человека. Они сравнили такое обучение с неонатальной имитацией, которую детские психологи наблюдают у новорожденных.