2021-10-10 10:40:06
MiniHack: бенчмарк FAIR для алгоритмов обучения с подкреплением
В FAIR разработали MiniHack — open-source фреймворк для оценки алгоритмов обучения с подкреплением. С помощью MiniHack можно изучить такие характеристики агентов, как изучение, память и присвоение кредитов.
Обучение с подкреплением (RL) — ценный инструмент для последовательного принятия решений, используемый в широком спектре задач, включающем робототехнику, персонализацию контента и анализ МРТ-снимков. Точность моделей RL, как правило, определяется с помощью бенчмарков. Однако существующие бенчмарки (такие как
Arcade Learning Environment и MuJoCo) подвержены насыщению по мере того, как исследователи разрабатывают алгоритмы, которые оптимально справляются с задачами.
Новые бенчмарки, такие как ProcGen, Minecraft и NetHack), не предназначены для оценки конкретных возможностей агентов RL, таких как изучение, память и присвоение кредитов. Чтобы восполнить этот пробел, в FAIR разработали MiniHack — фреймворк для создания окружения и сопутствующий набор задач, основанный на NetHack. С помощью этого инструмента исследователи могут легко создавать задачи, нацеленные на решение конкретных задач RL.
Окружение NetHack Learning Environment, используемое в MiniHack, включает более 500 персонажей и 450 предметов, включая оружие, волшебные палочки, инструменты и книги заклинаний, все из которых обладают уникальными характеристиками и сложной динамикой окружающей среды. Такая структура позволяет исследователям RL выполнять сложные задачи по приобретению навыков и решению задач.
Для описания окружения пользователи могут использовать Python и выбирать, какие виды наблюдений получает агент, например, на основе пикселей, символов или текста, и какие действия он может выполнять.
83 views07:40