协方差矩阵自适应的路径积分策略改进外文翻译资料

 2022-03-23 08:03

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


协方差矩阵自适应的路径积分策略改进

FreekStulp freek.stulp@ensta-paristech.fr

认知机器人Eacute;,法国国家高级技术研究院(ENSTA-ParisTech),巴黎FLOWERS研究小组,法国塔朗斯法国波尔多南部郊区

Olivier Sigaud

Pierre Marie Curie大学智能系统与机器人研究所CNRS UMR 7222,巴黎

勘误表

本文件的版本与最初在ICML 2012上发布的版本略有不同,因为我们已经进行了一些修改以解决以下错误。

  1. 表1 在这些指数中包含了两个不明确的地方。 这些已在此版本中得到修复。
  2. 我们遗憾地忽略了CEM和CMAES之间的细微差别,即CEM使用更新的平均参数theta;来更新协方差矩阵,而CMAES使用先前的平均参数theta;。

更新平均参数(CEM和CMAES)

K

theta;= Pktheta;k

k=1

更新协方差矩阵(CEM)

K

Sigma;= Pk(theta;k-theta;新)(theta;k-theta;新)T

k=1

更新协方差矩阵(CMAES)

K

Sigma;=·· cmicro; Pk(theta;k-theta;)(theta;k-theta;)T

在这篇论文中,这具有以下结果:

图中更新的协方差矩阵1 错了。 我们现在描述使用theta;(如在CEM中)而不是theta;(如在CMAES中)时产生的协方差矩阵。 请注意,此图仅用于说明目的。

某些CMAES参数设置为极端值时,CMAES不会降低到CEM。 本段已被删除。

图中正确地说明了CEM的精英映射4,但是使用theta;而不是theta;来获取针对CEM在右图中描绘的更新的协方差矩阵。 因此,该图中的#39;CEM#39;标签必须解释为“使用CEM的精确性映射,但theta;用于协方差矩阵更新”,而不是“使用theta;的CEM型协方差矩阵更新”。

前两项需要修改原始文件。 后者与原始纸张(不作修改)兼容,但需要稍微重新解释我们使用的标签。

bull;

让我们强调,由于PI2-CMA和PI2-CMAES实际上使用theta;,如等式17),本文的实证结果不受我们监督的影响。

摘要

近来,通过优化参数化策略来解决持续状态和行动问题方面的强化学习一直备受关注。 PI2是这种方法的最近例子。 它将随机最优控制的第一原理与统计估计理论中的工具结合起来。 在本文中,我们认为PI2是更广泛的方法家族的成员,它们共享概率加权平均的概念,以迭代更新参数来优化成本函数。 在概念层面,我们将PI2与同一家族的其他成员比较,即交叉熵方法和CMAES。 该比较表明推导了一种新的算法,我们称之为PI2-CMA用于“具有协方差矩阵自适应的路径积分策略改进”。 PI2-CMA的主要优点是它自动确定探测噪声的大小。

1.介绍

将强化学习(RL)方法扩展到连续的状态动作问题,例如人形机器人任务,一直是许多近期研究的焦点(Kober&Peters, 2011; Theodorou等人, 2010)。 该领域的大部分进展来自基于轨迹展示的直接政策搜索方法。 最近提出的直接#39;路径积分策略改进#39;算法(PI2

从随机最优控制的第一原则,并且能够胜过基于梯度的RL算法,例如REINFORCE(威廉姆斯, 1992)和自然演员 - 评论家(彼得斯和沙尔, 2008)在最终解决方案的收敛速度和质量方面提高一个数量级(Theodorou等人, 2010).

PI2与其他直接策略改进算法的区别在于,它使用概率加权平均来执行参数更新,而不是使用梯度估计。 有趣的是,“协方差矩阵适应 - 演化策略(CMAES)”和“交叉熵方法(CEM)”也是基于这个概念。 令人惊讶的是,尽管这些算法源自非常不同的原理,但这些算法已经收敛到几乎相同的参数更新规则。 据我们所知,这篇论文是第一个将这三种算法之间的关系明确化的(Section2),这取决于将CEM重新解释为进行概率加权平均。

本文的另一个贡献是我们在概念上和实证上研究了PI2,CEM和CMAES(Section3)。 这些比较提出了一种新算法PI2-CMA,其具有PI2的算法结构,但使用CEM和CMAES中发现的协方差矩阵自适应。 本文的一个实际贡献是我们展示了PI2-CMA如何自动确定勘探量值,这是唯一不直观的调整PI2的参数。

2.背景和相关工作

我们现在描述CEM,CMAES和PI2算法及其在政策改进中的应用。

2.1交叉熵法(CEM)

给定一个n维参数向量theta;和一个代价函数J:Rn R,用于优化的交叉熵方法(CEM)通过以下步骤搜索全局最小值:样本 - 从分布中取K个样本theta;K = 1 ...,K。 Sort(排序) - 按照成本函数J(theta;k)的评估按升序对样本进行排序。 更新 - 仅根据排序列表中的前Ke#39;精英#39;样本重新计算分布参数。 迭代 - 返回到新分发的第一步,直到成本收敛或达到一定数量的迭代。

1→

常用的分布是具有参数theta;(均值)和Sigma;(协方差矩阵)的多变量高斯分布(theta;,Sigma;),使得这三个步骤按照1)-(5)。 图中显示了一个CEM迭代的例子1,在2D搜索空间中具有多变量高斯分布。

N

在本文中,将CEM视为进行概率加权平均是有用的,其中精英样本具有概率1 / Ke,非精英具有概率0.通过这些Pk,(1)-(5)可以重写,如表中的左侧算法1.

这里我们用Q柯/ K来表示KETH的分位数分配JK = 1 ...,K。 这个表示法被选中它仅仅意味着在升序Jk的排序阵列中,如果KKe,则Pk为1 / Ke,否则为0,如4)。 由此产生的参数更新等同于(4)和(5),但这种表示使得与PI2的关系更加明显。

CEM政策改进。 由于CEM是一种非常通用的算法,因此它被用于机器人规划和控制的许多不同环境中。 CEM的政策优化是由Mannor 等人。 (2003)。 虽然他们的重点是解决有限小马尔可夫决策过程(MDP),但他们还建议使用具有参数化策略的CEM来解决具有大状态空间的MDP。Buso-niu等人。 (2011)扩展这项工作,并使用CEM学习从连续状态到离散操作的映射,其中基本函数的中心和宽度自动适应。 与我们的工作的主要区别是我们使用更高维的连续动作空间,并将CEM与PI2和CMAES进行比较。 CEM还与基于抽样的运动规划结合使用(Kobilarov, 2011)。 这项工作的一个有趣的方面是它使用

图1.使用CEM进行更新的可视化。 右上图显示了2D参数空间。 样本的成本是它到笛卡尔空间中的原点的距离。 原始的多元高斯分布N([8],[9 0])由黑色虚线圆圈表示(68%置信区间)。 K = 10个样本theta;k取自

这个分配。 使用Ke = 5个精英样本来计算新的高斯分布,在这种情况下其为N([7.2],0.6minus;1.1)。 左下图显示了

2.2协方差矩阵适应 - 进化策略

协方差矩阵适应 - 进化策略(Hansen&Ostermeier, 2001)算法与CEM非常相似,但使用更复杂的方法来更新协方差矩阵,如表中所列2。 CEM有四个不同点:bull;概率 -CMAES中的关系不必是Pk= 1 / Ke CEM,但可以由用户选择,只要约束柯Pk= 1和P1ge;···ge;PK是

表1.CEM和PI2的比较。 该伪代码表示算法的一次迭代,包括探索阶段和参数更新阶段。 两种算法都会迭代这两个阶段,直到成本收敛或达到一定数量的迭代。 绿色方程 - (17)和(19) - 仅在PI2-CMA中使用(将在第3.4),而不是“标准”PI2的一部分。

满足。 在这里,我们使用默认提示Hansen& Ostermeier (2001),即P350)= 1n(0.5(K 1)) LN(K)。 抽样是从分配中完成的 (theta;,sigma;2Sigma;),即正态分布的协方差矩阵乘以标量步长sigma;。 这些成分决定勘探的大小(sigma;)和形状(Sigma;),并分别进行更新。 对于步长和协方差矩阵,分别维持一个“演化路径”(psigma;和pSigma;),其存储关于theta;的先前更新的信息。 使用进化路径中的信息可以显着改善收敛速度,因为它可以使算法利用连续步骤之间的相关性。 为了更新协方差矩阵,CEM使用更新的平均参数theta;新,而CMAES使用先前的平均参数 -terstheta;。 使用theta;新非常容易过早tive选择质量,mu;P= 1 /),柯P2。 整个

收敛,参见汉森(2006,图2)。

政策改进CMAES。Heidrich- 迈斯纳和伊格尔(2008)使用CMAES直接学习双杆制衡任务的政策。Ruuml;ckstiess 等人。(2010)使用与CMAES相媲美的自然进化策略(NES),可以直接学习极点平衡,稳健站立和球捕捉的政策。 上面的结果与各种基于梯度的方法比较,如REINFORCE(威廉姆斯, 1992)和NAC(彼得斯和沙尔, 2008)。 据我们所知,我们的论文是

CMAES算法是通过将(16)的CEM

在表中1 用这四个方程,并将Sigma;与sigma;2相乘(6).

第一个直接比较CMAES / CEM与PI2。 此外,我们使用动态运动基元作为潜在的政策表示,其中1)使我们能够扩展到更高维度的问题,如(Theodorou等人, 2010); 2)要求我们进行时间平均,参见。 (18)和(19).

2.3路径积分的策略改进

近期强化学习的趋势是将参数化策略与概率加权平均相结合; PI2算法是这种方法的最近例子。 使用参数化策略避免了与(离散)状态动作空间相关联的维度的诅咒,并且使用概率加权平均可避免必须估计梯度,这对于噪声和不连续的成本函数来说可能是困难的。

PI2源自最优控制的第一原理,并从Feynman-Kac引理的应用中得名,将Hamilton-Jacobi-Bellman方程转化为所谓的路径积分,可用Monte Carlo方法 (Theodorou等人, 2010)。 PI2算法在表格右侧列出1。 和CEM一样,K样本theta;K = 1 ...,K取自高斯分布。 在PI2中,矢量theta;表示策略的参数,当执行该策略时,产生具有N个时间步长的轨迹tau;i=1...N。 该多维轨迹可以表示n-DOF臂的关节角度或末端执行器的3-D位置。

到目前为止,PI2主要应用于以动态运动基元(DMP)(Ijspeert等人, 2002),其中theta;决定运动的形状。 虽然PI2在theta;空间搜索,但成本是根据DMP在随时间积分时生成的轨迹tau;来定义的。 轨迹的成本通过对每个时间步骤i评估J来确定,其中在时间步骤i的轨迹的成本被定义为所有未来成本S(tau;i,k)=N的总和, J(tau;J,K),如(11)1.

类似地,参数更新应用于每个时间步骤i关于成本S(tau;i)。 在i处的轨迹的概率通过指数化​​成本来计算,如(13)。 这为低成本试验提供了高可能性,反之亦然。 在实践中, - 1Si,k以最佳基线实现

PoWER是另一种最近的策略改进算法,它使用概率加权平均(科贝尔 &Peters, 2011)。 在PoWER中,直接成本必须表现得像一个不正确的概率,即总和为一个常数并始终为正。 这可能会使得成本函数的设计在实践中变得困难;

(24)例如不能与PoWER一起使用。 PI2对成本函数没有这样的约束,这可能是不连续的。 当成本函数与PoWER和PI2兼容时,它们执行基本相同的(Theodorou等人, 2010).

3.PI2,CEM和CMAES的比较

比较CEM,CMAES和PI2时,有一些有趣的相似点和不同点。 来自高斯的所有样本探索参数空间 -

(6)和(7)是相同的 - 并且都使用概率加权平均来更新参数 - (14)和(15)。 令人惊讶的是,这些算法是在非常不同的框架下推导出来的,已经趋向于概率加权平均的相同原理。

我们想强调PI2的属性直接遵循随机最优控制的第一原则。 例如,精英映射遵循Feymann-Kac引理应用于(线性化)的Hamilton Jacobi Bellmann方程,正如概率加权平均的概念一样。 而在其他作品中,使用C

全文共11221字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[15587],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。