Робот, управляемый GPT-4, «играет» на гитаре и изображает «призрака»
Alter3 — это новейшая версия робота-гуманоида, впервые представленного в 2016 году учеными из Университета Токио. Исследователи использовали большую языковую модель GPT-4, чтобы научить робота правильно себя вести в различных ситуациях: таких как съемка селфи, подбрасывание мяча, поедание попкорна или игра на гитаре. Робот только имитирует движения — у него нет ни реального телефона для съемки селфи, ни пакета с попкорном, ни гитары, но выглядят его движения вполне реалистично.
Робот играет на гитаре. Это движение генерируется GPT-4 с лингвистической обратной связью.
Текст GPT-4 превращается в движения Alter3
Раньше любые подобные действия требовали специального кодирования, но подключение GPT-4 открывает новые возможности для обучения роботов с помощью инструкций на естественном языке.
Исследователи пишут: «Управление теперь возможно путем преобразования лингвистических выражений, описывающих человеческие действия, в движения тела робота с помощью программного кода, который генерируется автоматически».
Alter3 способен выполнять сложные движения верхней части тела, включая детальную мимику. У него 43 оси, имитирующие движения опорно-двигательного аппарата человека. Кодирование координированного движения такого большого количества суставов всегда было трудной задачей. Теперь ученые могут просто давать устные приказы, описывающие желаемые движения, а LLM превращает эти приказы в инструкции на Python. Эти инструкции запускает движок на Android.
Alter3 сохраняет описание действий в памяти. Исследователи могут их уточнять и корректировать, что постепенно приводит к более быстрым, плавным и точным движениям.
Авторы приводят пример инструкций на естественном языке, данных Alter3 для съемки селфи:
- Широко улыбнись, сделай глаза, чтобы показать волнение.
- Поверни верхнюю часть тела чуть влево, приняв динамичную позу.
- Подними правую руку, имитируя движение руки с телефоном.
- Согни правый локоть, как бы приближая телефон к уху.
- Слегка наклони голову вправо, принимая несколько игривую позу.
Команда роботу: изобрази призрака.
Большие лингвистические модели становятся инструментом воспитания роботов
Использование LLM в робототехнике «переопределяет границы сотрудничества человека и робота, открывая путь для более интеллектуальных, адаптируемых и привлекательных роботизированных объектов», — говорят исследователи.
Ученые привнесли немного юмора в работу Alter3. В одном из сценариев робот делает вид, что съедает пакет попкорна, а потом узнает, что попкорн принадлежит человеку, сидящему рядом с ним. Преувеличенная мимика и жесты выражают удивление и смущение. Следующий шаг: что будет, если и попкорн и человек будут реальными. Ведь оборудованный камерами Alter3 вполне может «видеть», что происходит вокруг.
Исследователи показали, что Alter3 может совершенствовать свое поведение, наблюдая за реакциями человека. Они сравнили такое обучение с неонатальной имитацией, которую детские психологи наблюдают у новорожденных.