Главная страница

Перевод статьи по английскому языку. Playing board games is considered a major challenge for both humans and ai researchers


Скачать 55.36 Kb.
НазваниеPlaying board games is considered a major challenge for both humans and ai researchers
АнкорПеревод статьи по английскому языку
Дата17.01.2023
Размер55.36 Kb.
Формат файлаdocx
Имя файла1.docx
ТипДокументы
#890488
страница1 из 4
  1   2   3   4

26079 

ABSTRACT




Playing board games is considered a major challenge for both humans and AI researchers. Because some complicated board games are quite hard to learn, humans usually begin with playing on smaller boards and incrementally advance to master larger board strategies. Most neural network frameworks that are currently tasked with playing board games neither perform such incremental learning nor possess capabilities to automatically scale up. In this work, we look at the board as a graph and combine a graph neural network architecture inside the AlphaZero framework, along with some other innovative improvements. Our ScalableAlphaZero is capable of learning to play incrementally on small boards, and advancing to play on large ones. Our model can be trained quickly to play different challenging board games on multiple board sizes, without using any domain knowledge. We demonstrate the effectiveness of ScalableAlphaZero and show, for example, that by training it for only three days on small Othello boards, it can defeat the AlphaZero model on a large board, which was trained to play the large board for 30 days.

Игра в настольные игры считается серьезной проблемой как для людей, так и для исследователей искусственного интеллекта. Поскольку некоторые сложные настольные игры довольно трудно освоить, люди обычно начинают с игры на досках меньшего размера и постепенно осваивают стратегии на больших досках. Большинство фреймворков нейронных сетей, которым в настоящее время поручено играть в настольные игры, не выполняют такого постепенного обучения и не обладают возможностями автоматического масштабирования. В этой работе мы рассматриваем доску как график и объединяем архитектуру графовой нейронной сети внутри фреймворка AlphaZero, наряду с некоторыми другими инновационными улучшениями. Наш ScalableAlphaZero способен постепенно учиться играть на маленьких досках и продвигаться вперед, чтобы играть на больших. Нашу модель можно быстро обучить играть в различные сложные настольные игры на досках разных размеров, не используя никаких знаний предметной области. Мы демонстрируем эффективность ScalableAlphaZero и показываем, например, что, тренируя его всего три дня на маленьких досках Отелло, он может победить модель AlphaZero на большой доске, которая была обучена играть на большой доске в течение 30 дней.

1 Introduction




Learning a simple instance of a problem with the goal of solving a more complicated one is a common approach within various fields. Both humans and AI programs use such incremental learning, particularly when the large-scale problem instance is too hard to learn from scratch or too expensive. This paper is concerned with applying incremental learning to the challenge of mastering board games. When playing board games, humans have the advantage of being able to learn the game on a small board, recognize the main patterns, and then implement the strategies they have acquired, possibly with some adjustments, on a larger board. In contrast, machine learning algorithms usually cannot generalize well between board sizes. While simple heuristics, such as zero padding of the board or analyzing local neighborhoods, can alleviate this generalization problem, they do not scale well for enlarged boards

Изучение простого примера проблемы с целью решения более сложной - это распространенный подход в различных областях. Как люди, так и программы искусственного интеллекта используют такое постепенное обучение, особенно когда крупномасштабный экземпляр проблемы слишком сложен для изучения с нуля или слишком дорог. Эта статья посвящена применению поэтапного обучения к задаче освоения настольных игр. Играя в настольные игры, люди имеют то преимущество, что могут научиться игре на маленькой доске, распознать основные закономерности, а затем реализовать приобретенные стратегии, возможно, с некоторыми корректировками, на доске большего размера. В отличие от этого, алгоритмы машинного обучения обычно не могут хорошо обобщать между размерами платы. В то время как простые эвристики, такие как нулевое заполнение доски или анализ локальных окрестностей, могут облегчить эту проблему обобщения, они плохо масштабируются для увеличенных досок

In this paper we propose ScalableAlphaZero (SAZ), a deep reinforcement learning (RL) based model that can generalize to multiple board sizes of a specific game. SAZ is trained on small boards and is expected to scale successfully to larger ones. Our technique should be usable for scalable board games, whose rules for one board size apply to all feasible board sizes (typically, infinitely many). For instance, Go is scalable but standard chess is not. A strong motivation for finding such a model is a potential substantial reduction in training time. As we demonstrate in this paper, training a model on small boards takes an order of magnitude less time than on large ones. The reason is that the dimension of states is significantly smaller, and gameplay requires fewer turns to complete.

В этой статье мы предлагаем ScalableAlphaZero (SAZ), основанную на глубоком обучении с подкреплением (RL), которая может быть обобщена на несколько размеров доски в конкретной игре. SAZ обучается на небольших досках и, как ожидается, успешно перейдет на более крупные. Наша методика должна быть применима для масштабируемых настольных игр, правила которых для одного размера доски применяются ко всем возможным размерам доски (как правило, бесконечно многим). Например, Go масштабируема, но стандартные шахматы - нет. Сильной мотивацией для поиска такой модели является потенциальное существенное сокращение времени обучения. Как мы демонстрируем в этой статье, обучение модели на маленьких досках занимает на порядок меньше времени, чем на больших. Причина в том, что размер состояний значительно меньше, а игровой процесс требует меньше ходов для завершения.

The proposed model is based on two modifications of the well-known AlphaZero (AZ) algorithm. To the best of our knowledge, presently AZ is the strongest superhuman RL based system for two-player zero-sum games. The main drawback of AZ is that it limits the user to training and playing only on a specific board size. This is the result of using a convolutional neural network (CNN) for predictive pruning of the AZ tree. To overcome this obstacle, in SAZ we replace the CNN by a graph neural network (GNN) The GNN is a scalable neural network, i.e., it is an architecture that is not tied to a fixed input dimension. GNN’s scalability enables us to train and play on different board sizes and allows us to scale up to arbitrarily large boards with a constant number of parameters. To further improve the AZ tree search pruning, we propose an ensemble-like node prediction using subgraph sampling; namely, we utilize the same GNN for evaluating a few subgraphs of the full board and then combine their scores to reduce the overall prediction uncertainty.

Предлагаемая модель основана на двух модификациях хорошо известного алгоритма AlphaZero (AZ). Насколько нам известно, в настоящее время AZ является сильнейшей системой, основанной на сверхчеловеческих RL, для игр с нулевой суммой для двух игроков. Главный недостаток AZ заключается в том, что он ограничивает пользователя тренировками и игрой только на доске определенного размера. Это результат использования сверточной нейронной сети (CNN) для прогнозирующей обрезки дерева AZ. Чтобы преодолеть это препятствие, в SAZ мы заменяем CNN графовой нейронной сетью (GNN) GNN - это масштабируемая нейронная сеть, т.е. это архитектура, которая не привязана к фиксированному входному измерению. Масштабируемость GNN позволяет нам тренироваться и играть на досках разного размера, а также позволяет масштабировать до сколь угодно больших досок с постоянным количеством параметров. Чтобы еще больше улучшить обрезку поиска по дереву AZ, мы предлагаем предсказание узлов, подобное ансамблю, с использованием выборки подграфа; а именно, мы используем один и тот же GNN для оценки нескольких подграфов полной платы, а затем объединяем их оценки, чтобы уменьшить общую неопределенность прогнозирования.

We conduct experiments on three scalable board games and measure the quality of SAZ by comparing it to various opponents on different board sizes. Our results indicate that SAZ, trained on a maximal board size of 9 × 9, can generalize well to larger boards (e.g., 20×20). Furthermore, we evaluate it by competing against the original AZ player, trained on a large board. Our model, with around ten times less training (computation) time on the same hardware, and without training at all on the actual board size that was used for playing, performs surprisingly well and achieves comparable results.

Мы проводим эксперименты с тремя масштабируемыми настольными играми и измеряем качество SAZ, сравнивая его с различными противниками на разных размерах доски. Наши результаты показывают, что SAZ, обученный на доске максимального размера 9 × 9, может хорошо обобщаться на доски большего размера (например, 20 × 20). Кроме того, мы оцениваем его, соревнуясь с оригинальной AZ, обученной игре на большой доске. Наша модель, затрачивающая примерно в десять раз меньше времени на обучение (вычисления) на том же оборудовании и вообще не требующая обучения реальному размеру доски, которая использовалась для игры, работает на удивление хорошо и достигает сопоставимых результатов.

The main contributions of this work are: (1) a model that is capable of successfully scaling up board game strategies. As far as we know this is the first work that combines RL with GNNs for this task; (2) a subgraph sampling technique that effectively decreases prediction uncertainty of GNNs in our context and is of potential independent interest; (3) the presentation of extensive experiments, demonstrated on three different board games, showing that our model requires an order of magnitude less training time than the original AZ but, still, can defeat AZ on large boards.

Основными результатами этой работы являются: (1) модель, способная успешно масштабировать стратегии настольных игр. Насколько нам известно, это первая работа, в которой RL сочетается с GNNs для этой задачи; (2) метод выборки подграфов, который эффективно уменьшает неопределенность прогнозирования GNNs в нашем контексте и представляет потенциальный независимый интерес; (3) презентация обширных экспериментов, продемонстрированных на трех разных настольных играх, показывающая что наша модель требует на порядок меньше времени на обучение, чем оригинальная AZ, но, тем не менее, может победить AZ на больших досках.

2 Related work

Сопутствующая работа

The solution proposed in this paper instantiates a GNN model inside the AlphaZero model for the task of scalable board game playing. In this section, we briefly review early work in AI and board games, focusing on the AlphaZero [Silver et al., 2017a] algorithm. We further describe the GNN design and review various works that use GNN to guide an RL model. Finally, we summarize existing methods that aim to deal with scalable board games and accelerate the generalization between sizes.

Решение, предложенное в этой статье, создает экземпляр модели GNN внутри модели AlphaZero для задачи масштабируемой настольной игры. В этом разделе мы кратко рассмотрим ранние работы в области искусственного интеллекта и настольных игр, сосредоточив внимание на алгоритме AlphaZero [Silver et al., 2017a]. Далее мы опишем конструкцию GNN и рассмотрим различные работы, в которых GUN используется для управления моделью RL. Наконец, мы обобщаем существующие методы, направленные на работу с масштабируемыми настольными играми и ускорение обобщения между размерами.

2.1 AlphaZero for board games

AlphaZero для настольных игр

Given an optimization problem, deep RL aims at learning a strategy for maximizing the problem’s objective function. The majority of RL programs do not use any expert knowledge about the environment, and learn the optimal strategy by exploring the state and action spaces with the goal of maximizing their cumulative reward.

Учитывая задачу оптимизации, глубокий RL нацелен на изучение стратегии максимизации целевой функции задачи. Большинство программ RL не используют никаких экспертных знаний об окружающей среде и изучают оптимальную стратегию, исследуя состояние и пространство действий с целью максимизации их совокупного вознаграждения.

AlphaGo (AG) [Silver et al., 2016] is an RL framework that employs a policy network trained with examples taken from human games, a value network trained by selfplay, and Monte Carlo tree search (MCTS) [Coulom, 2006], which defeated a professional Go player in 2016. About a year later, AlphaGo Zero (AGZ) [Silver et al., 2017b] was released, improving AlphaGo’s performance with no handcrafted game specific heuristics; however, it was still tested only on the game of Go. AlphaZero [Silver et al., 2017a] validated the general framework of AGZ by adapting the same mechanism to the games of Chess and Shogi. AG and AGZ have a three-stage training pipeline: selfplay, optimization and evaluation, whereas AZ skips the evaluation step. AGZ and AZ do not use their neural network to make move decisions directly. Instead, they use it to identify the most promising actions for the search to explore, as well as to estimate the values of nonterminal states.

AlphaGo (AG) [Silver et al., 2016] - это платформа RL, в которой используется сеть политик, обученная примерам, взятым из человеческих игр, сеть ценностей, обученная игрой с самой собой, и поиск по дереву Монте-Карло (MCTS) [Coulom, 2006], которая победила профессионального игрока в Го в 2016 году. Примерно год спустя была выпущена AlphaGo Zero (AGZ) [Silver et al., 2017b], улучшившая производительность AlphaGo без использования эвристики, специфичной для конкретной игры; однако она по-прежнему тестировалась только в игре Go. AlphaZero [Silver et al., 2017a] подтвердил общую структуру AGZ, адаптировав тот же механизм к играм в шахматы и сёги. AG и AGZ имеют трехэтапный конвейер обучения: самостоятельная игра, оптимизация и оценка, в то время как AZ пропускает этап оценки. AGZ и AZ не используют свою нейронную сеть для непосредственного принятия решений о перемещении. Вместо этого они используют его для определения наиболее перспективных действий для поиска, а также для оценки значений нетерминальных состояний.

2.2 Graph neural networks

Графовые нейронные сети

GNNs, introduced in Scarselli et al. [2008], are a promising family of neural networks for graph structured data. GNNs have shown encouraging results in various fields including natural language processing, computer vision, logical reasoning and combinatorial optimization. Over the last few years, several variants of GNNs have been developed (e.g., Hamilton et al. [2017], Gilmer et al. [2017], Li et al. [2015], Velickovi ˇ c et al. [2017], Defferrard et al. [2016]), while the ´ selection of the actual variant that suits the specific problem depends on the particularities of the task.

GNNs, представленные в Scarselli et al. [2008], представляют собой многообещающее семейство нейронных сетей для графически структурированных данных. GNNs показали обнадеживающие результаты в различных областях, включая обработку естественного языка, компьютерное зрение, логическое мышление и комбинаторную оптимизацию. За последние несколько лет было разработано несколько вариантов GNNS (например, Hamilton et al. [2017], Gilmer et al. [2017], Li et al. [2015], Velickovic et al. [2017], Defferrard et al. [2016]), в то время как отбор выбор фактического варианта, подходящего для конкретной задачи, зависит от особенностей задачи.

In their basic form, GNNs update the features associated with some elements of an input graph denoted by G = (V, E), based on the connections between these elements in the graph. A message passing algorithm iteratively propagates information between nodes, updates their state accordingly, and uses the final state of a node, also called “node embedding”, to compute the desired output. Appendix B.1 provides more details about the message passing procedure. In this paper we use graph isomorphism networks (GINs) [Xu et al., 2018], which are a powerful well-known variant of GNNs. For further details about GINs, see Appendix B.2.

В своей базовой форме GNNs обновляют функции, связанные с некоторыми элементами входного графа, обозначаемыми G = (V, E), на основе связей между этими элементами в графе. Алгоритм передачи сообщений итеративно распространяет информацию между узлами, соответствующим образом обновляет их состояние и использует конечное состояние узла, также называемое “встраиванием узла”, для вычисления желаемого результата. В приложении B.1 содержится более подробная информация о процедуре передачи сообщений. В этой статье мы используем сети изоморфизма графов (GINs) [Xu et al., 2018], которые являются мощным хорошо известным вариантом GNNs. Более подробную информацию о GNNs см. в приложении B.2.
  1   2   3   4


написать администратору сайта