OpenAI Gym — виртуальный тренажёрный зал для роботов

Вышла новая версия Gym от OpenAI. Это виртуальная система для ускоренного «обучения с подкреплением». Она помогает тренировать нейросети и моделировать разные действия до того, как их воплотят в железе. Данный подход в разы ускоряет создание роботов с элементами искусственного интеллекта и повышает их безопасность.

Например, с Gym можно быстро научить робота аккуратно захватывать и перемещать предметы прежде, чем ему подключат манипулятор. Конечно, не все характеристики реального устройства удаётся учесть в компьютерной модели. Однако выполнять тонкую доработку алгоритмов гораздо проще и быстрее, чем начинать обучение робота с нуля уже после его сборки.

Любая нейросеть учится методом проб и ошибок, а Gym помогает обработать самые грубые из них в безопасной виртуальной среде. Без компьютерной модели обучаемого робота пришлось бы ремонтировать после фатальных неудач и каждый раз возвращать в исходное состояние. Виртуальность лишена таких ограничений. Для каждой следующей попытки модель робота или отдельных его частей просто загружается заново.

Первая версия OpenAI Gym вышла в 2016 году и позволяла моделировать только простейшие вещи – захват предметов правильной геометрической формы и удержание баланса. Сейчас в Gym добавили наборы сложных симуляций. Например, способные обучить робота игре на музыкальных инструментах, или выбирать определённые объекты из множества произвольных.

Обычно нейросеть получает положительный сигнал обратной связи каждый раз, когда оказывается чуть ближе к цели. Это называется подкреплением и напоминает принцип детской игры «холодно / горячо». Один игрок (в данном случае – робот) перебирает варианты, а другой (в терминологии нейросетей – «оракул») постоянно говорит ему «теплее» (ближе к цели) или «холоднее» (дальше от неё).

В OpenAI Gym добавили алгоритм HER (Hindsight Experience Replay) – разновидность техники обучения с подкреплением, в котором применяются редкие вознаграждения. В нём подкрепление происходит только при достижении конечного результата. Большую часть времени оракул молчит, что означает «холодно» или очередной провал. Поэтому эффективнее разбивать сложное задание на серию промежуточных и генерировать подкрепление для каждого из них, чем ждать, пока модель робота случайно выполнит верную последовательность действий.

Сама среда OpenAI и алгоритм HER распространяются с открытым исходным кодом. Все заинтересованные разработчики могут присылать свои идеи и наработки по улучшению OpenAI. Если они получат одобрение сообщества, их воплотят в следующей версии.

Источник: http://blog.openai.com/ingredients-for-robotics-research/

Сайт проекта: http://gym.openai.com/

Github: http://github.com/openai/gym