Подразделение Google DeepMind поделилось успехами в разработке ботов, способных играть в Quake III Arena. ИИ научился играть на уровне человека и стал практически непобедим.
Погоня за флагом
Quake III Arena Capture the Flag – трехмерная многопользовательская игра от первого лица и сложная мультиагентная среда. Агент – программный компонент, решающий определенные задачи. Мультиагентные среды для решения сложной задачи используют системы, состоящие из множества взаимодействующих агентов.
На основе Quake III Arena Capture the Flag проводилось обучение ИИ с подкреплением. Боты взаимодействуют с товарищами по команде и демонстрируют высокую производительность.
Исследователи создали парк игроков искусственного интеллекта, которые освоили режим Quake III Capture the Flag, сыграв 450 тыс. матчей, используя технологию обучения DeepMind на случайно сгенерированных картах.
Сложность задачи
Сложность обучения бота-геймера заключается в том, что отдельные агенты должны действовать независимо, но при этом взаимодействовать с другими.
Исследователи выделили три принципа обучения ИИ для решения такой задачи:
- вместо того, чтобы обучать одного агента, ученые работали с группой, которая учится, играя друг с другом;
- каждый агент изучает собственный сигнал вознаграждения. Обучение с подкреплением на внутренних поощрениях используется, чтобы выработать совместную тактику;
- агенты работают в двух временных масштабах – быстром и медленном – чтобы развить способность использовать память и генерировать согласованные последовательности действий.
Схема архитектуры For The Win объединяет повторяющиеся нейронные сети в быстрых и медленных временных масштабах, включает в себя модуль общей памяти и изучает преобразование игровых очков во внутреннее вознаграждение.
Схема архитектуры For The Win
Точки на графике ниже – шаблоны поведенческих реакций, которые изучают боты. Точки окрашиваются в соответствии с ситуацией, и цветные кластеры указывают, как агенты представляют себе ключевые фрагменты игрового аспекта. Чем ближе две точки находятся в пространстве, тем более организованно и согласованно поведение игровых ботов.
График показывает, как агенты представляют себе игровой мир
Механика игры
Две команды соревнуются на карте, чтобы захватить флаг противника и защитить собственный. Команда, захватившая наибольшее количество флагов в течение пяти минут, одерживает победу.
Об игре у ботов была та же информация, что и у людей. Всем предоставили изображение игровой локации на экране и информацию о выигрыше. Боты выучили стратегию и научились работать в команде, так что смогли последовательно побеждать противников-людей.
Турнир
Исследователи провели турнир, в котором участвовали 40 людей-игроков. Они случайным образом объединялись с ИИ в одну команду или выступали в качестве противников. Команда профессиональных тестеров противостояла ботам двадцать часов подряд, но победить смогла только в 25% случаев.
Боты научились играть так хорошо, что команда из человека и бота смогла победить команду из двух ботов только в 21% случаев. Карты составлялись случайным образом, но боты научились запоминать расположение объектов, что и способствовало успеху.
Чтобы уравнять шансы с людьми, исследователи ограничили скорость реакции ботов до человеческого уровня, но боты все равно превзошли людей-игроков в 79% случаев. При этом ИИ изучает поведение игроков: следование за товарищами по команде и походы на базу противника.
Три примера автоматически обнаруженного поведения, которое демонстрируют обученные агенты
Другие достижения ИИ от Google
Ранее Google создал другой непобедимый ИИ. В декабре 2017 года AlphaZero и шахматный движок Stockfish сыграли 100 партий в шахматы. Искусственный интеллект Google победил в 28 партиях, 72 партии закончились ничьей. В 2018 году нейросеть-геймер от Google впервые разгромила человека в стратегии StarCraft II.
Победы в играх – не главные цели разработки искусственного интеллекта. Шахматы и аркады – это тестовые площадки, от которых корпорация переходит к серьезным проектам. Задача ИИ в будущем – замена человеческого труда и выполнение исследований, недоступных человеческому разуму. Например, Google презентовал ИИ, который поможет диагностировать офтальмологические болезни.