Скоро мы сможем сказать роботу: «Спасибо за чай», и он нас поймет
Представьте себе такую ситуацию. Вы покупаете робота-помощника. Как он выглядит, на самом деле, не так и важно. Вряд ли он будет похож на WALL-E. Вероятно, он перемещается на четырех ногах или на колесной платформе. У него есть «руки», снабженные захватами. Может быть, на руках пять пальцев, а, может, и больше. У него есть камера или две. Но главное, вы его ничему не учите. Он просто живет. Бродит по дому, сначала натыкается на предметы, потом учится их обходить. Зачем-то наливает воду в чайник, потом выливает. Открывает кран. И все время наблюдает за вами. Он учится сам. Но однажды вы говорите ему: «Завари, пожалуйста, чай», хотя вы его этому никогда не учили, а производители и не могли объяснить роботу, как заваривают чай в вашем доме. Но робот кипятит воду, заваривает чай, наливает его в чашку и ставит чашку на стол. Вы говорите: «Спасибо за чай». На «лице» робота появляется удовлетворенная «улыбка», а вы подумаете: «Так вот он чем на кухне занимался по ночам».
Созданием именно такого робота занимаются ученые из Калифорнийского университета Беркли. Они разработали систему обучения в реальном мире и назвали ее DayDream (Дневной сон).
Сегодня процесс обучения робота (чаще всего это обучение с подкреплением) начинается с детальной цифровой модели. Сначала робот учится действовать «внутри симуляции». Это длительный, дорогой (нужно подготовить очень много данных) и не всегда эффективный процесс. Когда робот попадет в реальную среду он запросто может запутаться, столкнувшись с ситуацией, которой его не обучали. Так не лучше ли отпустить робота сразу в реальную среду, и пусть он учится сам?
Система обучения, разработанная учеными из Беркли, не связана с конкретной реализацией самого робота. Ученые попробовали алгоритм на четырех разных реализациях роботов — и четвероногих, которые могут ходить, и состоящих из одной роботизированной руки с захватом. Роботы действительно учатся.
Непрерывное обучение
Как трудно в первый раз перевернуться со спины на ноги
Мечта и реальность
«Открытая проблема в робототехнике заключается в том, чтобы предоставить пользователю возможность интуитивно определять задачи для роботов. В нашей работе мы реализовали сигналы вознаграждения, которые робот оптимизирует, в виде функций Python, но, в конечном счете, было бы неплохо обучать роботов на основе человеческих предпочтений, напрямую сообщая им, когда они сделали что-то правильно или неправильно. Человек может это сделать, например, нажав кнопку, и тем самым наградив робота. А можно снабдить роботов пониманием человеческого языка», — говорит один из авторов работы Данияр Хафнер.
Пока команда использовала свой алгоритм только для обучения роботов конкретным задачам, которые были четко определены в начале экспериментов. Но в будущем ученые хотят научить роботов исследовать окружающую среду, не решая четко определенной задачи. В примере, с которого мы начали разговор о «дневном мечтателе» такой неопределенной задачей был навык приготовления чая.
«Перспективным направлением было бы научить роботов исследовать свое окружение из чистого любопытства, а затем еще быстрее адаптироваться к решению заданных пользователями задач», — говорит Хафнер.
Ученые пытаются разбудить у робота чистое любопытство, чтобы он сам исследовал мир и был готов к выполнению самых неожиданных задач