在不具备人类知识的前提下掌握围棋外文翻译资料

 2021-11-26 10:11

英语原文共 171 页

在不具备人类知识的前提下掌握围棋

摘要

人工智能的一个长期目标是建立在具有挑战性的领域中学习、从tabula rasa开始和获得超人能力的算法。最近,AlphaGo成为第一个在围棋比赛中击败世界冠军的程序。AlphaGo中的搜索树评估位置并使用深度神经网络选择移动步。这些神经网络是通过从人类专家动作中进行监督学习和从自我演练中强化学习来训练的。在这里,我们提出了一种完全基于强化学习的算法,它不需要人的数据、指导或者超出游戏规则领域的知识。AlphaGo成为自己的老师:神经网络被训练来预测AlphaGo自己的移动选择,以及AlphaGo游戏的胜者。该神经网络提高了树搜索的优势,在下一次迭代中提高了移动选择的质量并加强了自我训练的能力。从tabula rasa开始,我们的新程序AlphaGo实现了超人的表现,以100比0战胜了先前打败了冠军的AlphaGo的版本。

正文

使用经过训练来复制人类专家决定的监督学习系统,从而在人工智能方面取得了很大进展。然而,专家数据集通常是昂贵的、不可靠的或根本无法获得的。即使有可靠的数据集,它们也可能对使用这种方法训练的系统的性能设置上限。相比之下,强化学习系统是根据自己的经验进行训练的,原则上允许他们超越人的能力,并在缺乏人类专门知识的领域操作。近年来,基于强化学习训练的深层神经网络为实现这一目标取得了迅速的进展。这些系统在电脑游戏(如Atari和3D虚拟环境)方面的表现优于人类。然而,人类智力方面最具挑战性的领域,如围棋游戏,被广泛视为人工智能的重大挑战,其需要在广阔的搜索空间中具备精确而复杂的前瞻力。完全通用的方法先前在这些领域还没有达到人类水平的性能。

AlphaGo是第一个在围棋中实现超人表现的程序。我们称之为AlphaGo Fan的版本在2015年10月击败了欧洲冠军Fan Hui。AlphaGo Fan使用了两个深层神经网络:一个输出移动概率的策略网络和一个输出位置评估的价值网络。策略网络最初通过监督学习进行训练,以准确地预测人类专家的移动,然后通过梯度策略强化学习对策略网络进行改进。对价值网络进行了训练,以预测策略网络对抗自己的游戏的胜利者。一旦经过训练,这些网络将与蒙特卡罗树搜索(MCTS)相结合,提供前瞻性搜索,使用策略网络将搜索范围缩小到高概率移动,使用价值网络(与使用快速搜索策略的Monte Carlo搜索方法联合)来评估树中的位置。随后的版本,我们称之为AlphaGo Lee,使用了类似的方法(见方法),并于2016年3月击败了18个国际冠军得主Lee Sedol。

我们的AlphaGo Zero程序在几个重要方面与AlphaGo Fan和AlphaGo Lee 不同。首先也是最重要的,它仅通过自我演练强化学习来训练,从随机演练开始,不需要任何的监督或人类数据的使用。第二,它只利用在棋盘上的黑子和白子作为输入元素。第三,它使用单一的神经网络,而不是分开的策略和价值网络。最后,它使用了一个简单的树搜索,它依赖于这个单一的神经网络来评估位置和样本移动,而不执行任何蒙特卡罗搜索。为了实现这些结果,我们引入了一种新的强化学习算法,该算法在训练回路中结合了前瞻搜索,从而得到了快速提高和精确稳定的学习。在搜索算法、训练过程和网络结构等方面的技术差异也在方法部分得到了进一步的描述。

AlphaGo Zero的强化学习

我们的新方法采用参数为theta;的深度神经网络 。该神经网络以当前位置及其历史位置的原始板表示作为输入,输出移动概率和价值,。移动概率p的向量表示选择每个移动a(包括已下过位置)的概率,。v值是一个标量评估,估计当前玩家从位置s中获胜的概率。该神经网络将策略网络和价值网络的角色组合成一个单一的体系结构。神经网络包括具有batch正则化和非线性修正的卷积层的许多残差块组成(见方法)。

利用一种新的强化学习算法对AlphaGo Zero中的神经网络进行自我游戏训练。MCTS搜索输出每个动作的概率pi;。这些搜索概率通常选择比神经网络的原始移动概率p强得多的移动;MCTS可能因此,被视为强有力的改进策略的操作者。自我训练的搜索使用基于策略改进的MCTS选择每个移动,然后使用游戏胜利者z作为价值的样本,其可以被看作是一个强大的策略评估运营者。我们的强化学习算法的主要思想是在迭代过程中的重复地使用这些搜索手段。通过使移动概率和值更接近于改进的搜索概率和自训练胜利者来更新神经网络的参数;这些新的参数被用于下一次自我训练的迭代,以使搜索更加有效。图1演示了自我演练训练流程。

MCTS使用神经网络来指导其模拟(见图2)。搜索树中的每个分支存储先验概率、访问计数和动作值。每次模拟都从根状态节点开始,迭代地选择上置信度界中最大的移动,其中(参考12,24),直到遇到叶子节点s。该叶子节点仅由网络扩展和评估一次,生成先验概率和评价值。在仿真中遍历的每个分支被更新,以增加其访问计

图 1|AlphaGo Zero的自我游戏强化学习。a,程序进行一次游戏对抗自己。在每一个位置,使用最新的神经网络执行MCTS的(见图2)。根据MCTS计算的搜索概率选择移动。终点位置根据游戏规则得分,以计算游戏胜利者z。b,AlphaGo Zero训练的神经网络。神经网络以原板位置为输入,以参数theta;通过多个卷积层,并输出表示移动中概率分布的向量和表示当前玩家在位置获胜的概率的标量值。对神经网络参数theta;进行更新,使策略向量与搜索概率的相似性最大化,并将预测的胜利者和游戏胜利者z之间的误差降到最小(见等式(1))。新的参数在下一次自我训练的迭代中使用正如a中所示。

数,并将其动作值更新为这些模拟中的平均评估值, , 表示模拟在从s位置移动a后最终到达srsquo;位置。

MCTS可视为一种自训练算法,在给定神经网络参数theta;和根位置s的情况下,计算推荐移动搜索概率向量,其正比于每次移动的指数访问计数,,其中tau;是温度参数。

神经网络是由一种使用MCTS的自训练强化学习算法来训练的。首先,将神经网络初始化为随机权值。在每次迭代ige;1时,都会生成自我游戏(图1a)。在每个时间步骤t,一个MCTS搜索 使用神经网络的前一次迭代来执行,并通过采样搜索概率来执行移动。当双方通过时,当搜索值降到结束阈值以下或游戏超过最大长度时,游戏将在步骤T处终止。然后对游戏进行评分以给出一个最终奖励分isin;{minus;1,1}(详见方法)。每个时间步骤t的数据存储为,从步骤t的当前玩家的角度来看,是游戏胜利者。与此并行的(图1b),新的网络参数是从数据中在自我训练的最后一次迭代的所有时间步骤中均匀采样被训练出来的。,通过使预测值v与自训练胜利者z之间的误差最小化,以及神经网络移动概率p和搜索概率pi;相似性最大化,来对神经网络进行调整。具体来说,参数theta;是通过损失函数l上的梯度下降来调整的,该函数是均方误差和交叉熵损失之和,分别为:

其中c是控制L2权重正则化水平的参数(以防止过度拟合)。

AlphaGo Zero训练的实证分析

我们运用我们的强化学习管道来训练我们的项目AlphaGo Zero。训练从完全随机的行为开始,在没有人为干预的情况下训练持续了大约三天。在训练过程中,产生了490万局自我训练,每个MCTS使用1600个模拟,相当于每次移动大约0.4s的思考时间。参数在经过7000个有2048个位置的mini-batch后被更新。神经网络包含20个残差块(详见方法)。

图3a显示了AlphaGo Zero在Elo尺度上作为训练时间的函数在自我训练强化学习中的性能。在整个训练过程中,学习进展顺利,并没有受到以前文献中提出的振荡或灾难性遗忘的影响。令人惊讶的是,AlphaGo Zero在仅仅36小时之后就超过了AlphaGo Lee。相比之下,AlphaGo Lee接受了几个月的培训。72小时后,我们对AlphaGo Zero与打败Lee SEDOL的AlphaGo Lee的精确版本进行了评估,并在同样的2小时内对在首尔进行的人机比赛中使用的控制和匹配条件进行了评估(见方法)。AlphaGo Zero使用了一台带有4个张量处理单元(TPU)的单机,而AlphaGo Lee则分布在许多机器上,使用了48个TPU。AlphaGo Zero以100比0击败AlphaGo Lee(见扩展数据图1和补充信息)。

图 2|AlphaGo Zero的MCTS。a,每个模拟都通过选择具有最大作用值Q,加上依赖于存储的先验概率P和访问该边(一旦遍历就会递增)的计数N的上置信度界U的分支来遍历树。b,扩展叶节点,用神经网络计算相关位置s;P向量值存储在s的输出边缘。c,操作值Q被更新,以跟踪该操作下面子树中所有评价V的平均值。d,搜索完成后,返回搜索概率pi;,与成正比,其中N是从根状态移动的每次访问计数,tau;是控制温度的参数。

图 3|AlphaGo Zero的实证评价。a,自我训练强化学习的表现。图中显示了AlphaGo Zero中每个MCTS玩家从每次迭代i中进行强化学习得到的性能。ELO评分从不同玩家之间的评估游戏中计算,每次移动使用0.4秒的思考时间(见方法)。作为比较,图中还显示了使用KGS数据集对人类数据进行监督学习的类似玩家。b,人类专业走棋的预测精度。图中显示了神经网络在自我训练的每一次i迭

代中从GoKifu数据集预测人类专业走棋的准确性。精确性来度量神经网络将最大概率分配给人类移动的位置的百分比。图中给出了有监督学习训练的神经网络的精度。c,人类专业比赛结果的均方误差(MSE)。图中显示了从GoKifu数据集预测人类职业游戏结果的过程中,神经网络在自我训练的每一次i迭代中的均方误差。MSE介于实际结果zisin;{minus;1,1}和神经网络值v之间,为范围在0~1内的1/4。

为了评估自我强化学习的优点,与从人类数据中学习相比,我们训练了第二个神经网络(使用相同的体系结构)来预测KGS服务器数据集中的专家移动。与以前的工作相比,该方法实现了利用最先进技术的预测精度(目前和以前的结果分别见扩展数据表1和2)。监督学习取得了较好的初始表现,并能更好地预测人的专业动作(图3)。值得注意的是,尽管监督学习取得了较高的移动预测精度,但自学成才的玩家总体表现要好得多,在接受训练的第一个24小时内击败了受过人力训练的玩家。这表明AlphaGo Zero可能正在学习一种与人类玩家在本质上不同的策略。

为了分离结构和算法的贡献,我们比较了AlphaGo Zero中神经网络结构与以前用于Alpha Lee的神经网络结构的性能(见图4)。建立了四个神经网络,使用单独的策略网络和价值网络,如AlphaGo Lee中使用的,或是AlphaGo Zero中使用的组合策略和价值网络;并且使用AlphaGo Lee的卷积网络结构,或者使用AlphaGo Zero的残差网络结构。每个网络都被训练以最小化相同的损失函数(方程式(1)),使用AlphaGo Zero在72小时的自我对抗训练后生成的固定自玩游戏数据集。在AlphaGo中,使用残差网络更准确,误差更小,性能提高了600多个Elo。将策略和价值合并到一个网络中,虽

图 4|AlphaGo Zero和AlphaGo Lee神经网络结构的比较。

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。