ИИ использует эволюционные методы, давно «одобренные» природой
Эволюционное обучение с подкреплением (или нейроэволюция) — это новый тип машинного обучения. Он объединяет сильные стороны двух различных подходов: обучения с подкреплением и эволюционных алгоритмов. Эта инновационная парадигма объединяет обучение методом проб и ошибок с эволюционными алгоритмами, способными имитировать естественный отбор.
Обзорная статья по эволюционному обучению с подкреплением была опубликована в журнале Intelligent Computing учеными из Южного университета науки и технологии, Шэньчжэнь, Китай.
Обучение с подкреплением, это — активно развивающаяся область машинного обучения. Она фокусируется на разработке алгоритмов, которые учатся принимать решения на основе обратной связи с окружающей средой. Яркими примерами успешного обучения с подкреплением являются AlphaZero и недавняя работа DeepMind: роботы, играющие в футбол.
Но обучение с подкреплением, несмотря на свою эффективность, сталкивается с рядом проблем. Необходимо «переключение» между режимами самого обучения и процессом эксплуатации обученной системы. Необходимо оптимизировать степень вознаграждения. В процессе эксплуатации системы обучение не прекращается, но меняются приоритеты, иначе система будет работать слишком медленно. От определения вознаграждения слишком многое зависит, а заранее понять, какие награды оптимальны не всегда возможно.
Эволюционные вычисления, которые имитируют процесс естественной эволюции, можно использовать для решения проблем обучения с подкреплением.
Как работает эволюционное обучение с подкреплением
Эволюционное обучение с подкреплением включает в себя шесть ключевых областей исследований:
Оптимизация гиперпараметров. Эволюционные алгоритмы могут быть использованы для оптимизации гиперпараметров. То есть, они могут автоматически определять наилучшие базовые настройки для систем обучения с подкреплением. Определение оптимальных параметров вручную может быть сложной задачей из-за множества факторов, таких как скорость обучения алгоритма и его ориентация на будущее вознаграждение. Кроме того, эффективность обучения с подкреплением в значительной степени зависит от архитектуры используемой нейронной сети, включая такие факторы, как количество и размер ее слоев. Гиперпараметры определяют общие свойства системы, которые при обучении с подкреплением самой системе не видны.
Поиск политики обучения. Поиск политики подразумевает нахождение наилучшего подхода к задаче путем экспериментирования с различными стратегиями использования нейронных сетей. Эти сети оптимизируют выполнение задачи. Поскольку существует множество вариантов выполнения задачи, процесс поиска напоминает навигацию по огромному лабиринту. Стохастический градиентный спуск является распространенным методом обучения нейронных сетей и навигации по этому лабиринту. Эволюционные вычисления предлагают альтернативные методы машинной «нейроэволюции», основанные на стратегиях биологической эволюции, генетических алгоритмах и генетическом программировании. Эти методы могут определить наилучшие веса и другие свойства нейронных сетей для обучения с подкреплением.
Исследование. Агенты обучения с подкреплением совершенствуются, взаимодействуя с окружающей средой. Недостаточное исследование среды может привести к неправильным решениям, в то время как слишком глубокое исследование ведет к неоправданных для данной задачи затратам. Агенты исследуют среду, добавляя момент случайности в свои действия. Но эффективная разведка сталкивается с целым рядом проблем: большое количество возможных сценариев, редкие и отсроченные вознаграждения, непредсказуемость среды и сложные многоагентные сценарии. Эволюционные алгоритмы решают эти проблемы, поощряя конкуренцию, сотрудничество и распараллеленную работу. Они способствуют исследованию разнообразия и управляемой эволюции.
Формирование вознаграждения. Вознаграждения важны в обучении с подкреплением, но в некоторых случаях они становятся слишком редкими, и агентам трудно на них учиться. Если вы играете в компьютерную игру (обучение с подкреплением) и никак не можете перейти на следующий уровень (вознаграждение), вы с высокой вероятностью просто бросите играть, так ничему и научившись. Формирование вознаграждения добавляет дополнительные малые вознаграждения, чтобы помочь агентам. В нашем примере это могут быть промежуточные уровни, дополнительные скилы и т.д. Но эти вознаграждения могут изменить поведение агентов нежелательным образом. Если мы вернемся к примеру с игрой, то играющий может так увлечься прокачкой персонажа, что вообще забудет, зачем он это делает. Для того, чтобы точно определить, какими должны быть эти дополнительные вознаграждения, как их сбалансировать и как распределить между несколькими агентами, исследователи использовали эволюционные алгоритмы. Они позволяют настраивать дополнительные вознаграждения как в одноагентном, так и в многоагентном обучении с подкреплением.
Мета-обучение с подкреплением. Мета-обучение с подкреплением направлено на разработку общего алгоритма обучения, который адаптируется к новым задачам, используя знания о предыдущих. Этот подход решает проблему, связанную с тем, что в традиционном обучении с подкреплением требуется большое количество образцов для изучения каждой задачи с нуля. Однако количество и сложность задач, которые могут быть решены с помощью мета-обучения, все еще ограничены, а вычислительные затраты, связанные с ним, высоки. Поэтому использование эволюционных алгоритмов, не зависящих от модели, является перспективным направлением для раскрытия всего потенциала мета-обучения. Оно позволяет системе не только обучаться на одной задаче, но и обобщать свой опыт для решения других.
Многоцелевое обучение с подкреплением. В некоторых реальных задачах существует несколько целей, которые конфликтуют друг с другом. Многоцелевой эволюционный алгоритм может сбалансировать эти цели и предложить компромисс в тех трудных случаях, когда ни одно решение не кажется лучше другого. Методы многоцелевого обучения с подкреплением можно разделить на два типа: те, которые объединяют несколько целей в одну, чтобы найти одно лучшее решение, и те, которые находят ряд хороших решений. И наоборот, некоторые одноцелевые задачи полезно разбить на несколько подзадач, чтобы облегчить решение проблемы в целом.
Направленная эволюция нейросетевых систем
Эволюционное обучение с подкреплением может решать сложные задачи обучения с подкреплением, даже в сценариях с редкими или недостоверными вознаграждениями. Однако оно требует значительных вычислительных ресурсов, что делает его вычислительно дорогим. Растет потребность в более эффективных методах, включая усовершенствование кодирования, выборки данных, операторов поиска, алгоритмических схем и оценки.
Хотя эволюционное обучение с подкреплением показало многообещающие результаты в решении сложных задач, дальнейшее развитие необходимо. Повышая эффективность вычислений и изучая новые стандарты, платформы и приложения, исследователи в области эволюционного обучения с подкреплением могут сделать эволюционные методы еще более эффективными и полезными для решения сложных задач обучения искусственного интеллекта.
Первые эволюционные алгоритмы были разработаны еще в 1960-ые годы. Но потом их потеснили системы обучения с подкреплением. Теперь ученые решили вернуться к той тактике, которая так хорошо работает в биологии