英语原文共 9 页

Motion Planning Networ

摘要快速有效的运动规划算法是对于许多最先进的机器人应用至关重要，如自动驾驶汽车。现有的运动规划方法，如RRT*、A*和D*在计算时变得无效。复杂性随着运动规划问题。为了解决这一问题，我们提出了一种基于神经网络的新型规划算法，它可以生成端到端的无碰撞路径，而不考虑障碍物的几何结构。该方法称为MPNET（运动规划网络）。包含一个压缩自动编码器，该编码器对给定的直接从点云测量和深度采用工作空间编码的前馈神经网络开始和目标配置，并生成端到端可行的机器人的运动轨迹。我们评估MPNET点质量机器人、刚体、7自由度巴克斯特机器人等多规划问题研究在各种二维和三维环境中。结果表明MPNET不仅在所有二维数据中具有一致的计算效率以及三维环境，但也表现出显著的通用性完全看不见的环境。结果还表明MPNET的计算时间始终小于1第二，大大低于现有的运动规划算法。此外，通过转让学习，在一个场景（如室内生活）中训练的MPNET地点）也可以快速适应新的场景（如工厂楼层）有少量数据。

引言

机器人运动规划的目的是为给定初始和目标配置的机器人计算无碰撞路径。〔14〕。求解运动规划问题的算法具有跨越自主驾驶领域的应用[16]，机器人手术[26]、空中机器人[4]、水下机器人[27]、类人机器人[3]甚至太空探索[24]。因为运动规划算法对于解决各种复杂的高维问题提出了一个关键的，未满足的需要，计算可处理，实时算法。对快速、高效地开发计算机的追求方法导致了基于各种抽样的发展快速探索随机树等规划算法（rrt）[13]，最佳快速探索随机树（rrt*）[10]和潜在指导的RRT*（P-RRT*）[18]。尽管以前致力于设计快速、高效的规划算法，目前最先进的技术正在努力提供缩放到常见的高维设置许多实际应用程序。在本文中，我们建议基于深度神经网络的迭代运动规划算法，称为MPNET（运动规划网络）

图1：在一个固定的开始和多目标配置（以蓝框表示）的三维杂乱环境中的MPNET规划运动。对于每个开始和目标对，MPNET可以在有限时间内生成多个无碰撞路径（以红色显示）。

MPNET由两部分组成：障碍物空间编码器和路径发生器。我们使用收缩式自动编码器[19]将障碍物的点云编码为潜在空间。路径发生器是一种深度前馈神经网络。它被训练来预测机器人在时间步的配置T 1给出了时间t时的机器人配置，目标配置，以及障碍空间的潜在空间编码。一次经过训练的MPNET可以与我们的双向迭代算法结合使用，生成可行的轨迹。

我们通过在一个复杂、杂乱的二维和三维环境。突出我们的算法的计算鲁棒性，我们还测试了提出了一种求解刚体运动规划问题的算法。因为神经网络不能提供理论上的保证在性能方面，我们还提出了一种混合算法。它结合了MPNET和任何现有的经典规划算法，在我们的例子中，rrt*表示100%成功率在所有测试环境中保持一致，同时保留计算增益.

我们的结果表明MPNET的推广非常好，而不是仅限于工作区中未看到的开始和目标配置用于培训，也用于新工作区这是算法从未见过的。此外，我们证明MPNET可以利用转移学习来适应在一种环境与完全不同的环境有少量的数据。MPNET代码可用在线包括培训和测试数据集,我们的方法将被用作未来研究的试验台在这个问题上.

相关工作

开发基于神经网络的运动规划师的研究最初是在20世纪90年代初获得关注的，然而，由于缺乏可用的数据以及训练dnn的复杂性，对这一领域的兴趣在21世纪初逐渐消退[20]。然而，最近深入学习（DL）的发展使研究人员能够将各种DL体系结构应用到机器人控制和规划中。

Glasius等人[7]提出了一种基于Hopfield网络的动态环境路径生成方法。然而，这种方法要求机器人具有比障碍物更快的动力学特性。[25]中的方法通过消除此限制扩展了[7]。受生物神经元[9]的启发，算法[25]利用关闭模型[8]来构建动态环境中导航的神经网络。但是，上述方法不能很好地扩展到高维问题，因为与基于网格的规划方法一样，它们只能在离散化环境中运行。而且，已经证明了基于网格的方法，如A*及其变体[12]不能很好地扩展到高维问题[10]。

机器人控制与规划的另一个活跃研究领域是深度强化学习（RL）。例如，[15]演示如何训练机器人学习VisuoMotor策略，以执行各种任务，例如拧瓶盖或插入销钉。尽管RL是一个很有前途的框架，但它广泛依赖于探索，因此很难为许多实际的机器人应用程序进行培训。最近的一项研究，价值迭代网络（VIN）[22]利用循环卷积神经网络和最大池来模拟价值迭代。然而，除了从底层的RL框架继承的限制之外，VIN对卷积神经网络的依赖性限制了其应用于二维固定网格大小的迷宫。

最新的相关方法是由两个模块组成的Lightning框架[1]。第一个模块使用传统的运动规划方法从头开始执行路径规划。第二个模块维护一个查找表，其中缓存由第一个模块生成的旧路径。对于新的规划问题，Lightning框架从查找表中检索最接近的路径（从开始位置和目标位置），并使用第一个模块中的传统运动规划器对其进行修复。与传统的规划方法相比，这种方法在高维空间中表现出了优越的性能。然而，不仅查找表内存效率低下，而且它们也不能概括为新的环境，其中障碍物的位置与存储在查找表中的示例不同。

问题定义

本节描述了在本文件和正式确定运动规划问题建议的方法。让Q成为长度的顺序列表{QI=Q（I）}I \（I）}8712n is a mapping from I \（i）；N to the I-th elementOf Q.Moreover，for the algorithms described in this paper，给最后一个元素和数字在一组Q中的元素，相应地Let X \ 8834R成为一个纪念品国家空间，其中D \ \ nge;2是国家的尺寸。空间障碍物和障碍物As XOBS=88344；X和XFREE=X=X=XOBS，respectively.让它初始状态为XITamp;8712；Xfree，目标区域为XGOALamp;88344；Xfree。让有序列表成为一条具有非负和非零尺度长度的路径。运动规划的溶液路径如果连接到XIT和X \ \ 87122；XGOAL，I.E.的问题是可行性的。t（0）=XIT and T（End）\ 87122；XGOAL，and lies entirely in the无障碍空间拟议的工作解决的可行性问题运动计划问题（可行性运动计划）：给一个三重任务Initial State Xinit and a Goal Region找到一个路径溶液t（0）=XIT T T（End）\ 87122；XGOAL。

MPNET：神经运动规划

本节介绍我们提出的模型MPNET（参见图2）MPNET是一种基于神经网络的运动规划工具。由两个阶段组成。第一阶段对应于神经模型的离线训练。第二个对应到在线路径生成。a.线下培训我们提出的方法使用两个神经模型来求解运动规划问题。第一个模型是收缩的自动编码器（CAE）[19]嵌入障碍点云，对应于表示XOB的点云，进入一个潜在空间（见图2（a））。第二个模型是学习运动的前馈深度神经网络从CAE中为给定的障碍物嵌入进行规划，如以及开始和目标配置（见图2（b））。1）收缩式自动编码器：收缩式自动编码器用于将障碍点云嵌入到不变量和鲁棒特征空间Zisin;Rm，其中misin;n是特征空间的维数。设F（XOBs；Th）e）做一个编码函数，由theta;参数化e，对输入向量进行编码xobsisin;xobs到潜空间z.一个解码函数g（f（xObs）；ThD）参数theta;D，解码功能空间z：=f（x obs）返回障碍空间x_obsisin;x obs。这个CAE的目标功能是

其中，lambda;是一个惩罚系数，dobs是一个数据集点云的xobsisin;xobs来自nobsisin;n不同工作区。惩罚项迫使特征空间f（xobs）在训练附近具有收缩性使特征学习具有不变性和鲁棒性的数据〔19〕。2）深度多层感知器（DMLP）：我们使用前馈深度神经网络，由theta;参数化，来执行运动规划。考虑到障碍物编码Z，当前状态x t和目标状态x t，dmlp预测下一个状态x_t 1isin;Xfree将引导机器人靠近目标区域，即，

为了培训DMLP，我们使用RRT*[10]生成可行的，各种环境下的近似最优路径。给出的路径按rrt*是一个元组，tau;=x0，x1，···，xt，可行连接开始和目标配置的状态，以便连接路径完全位于xfree中。培训目标对于dmlp，是将均方误差（mse）最小化。预测状态x_t 1与实际状态之间的损失rrt*给出的xt 1。DMLP的培训损失为形式化如下：式中，npisin;n是与总数相对应的平均项。训练数据集中的路径数，n_isin;n乘以路径长度.

在线路径规划

在线阶段利用离线的神经模型在杂乱复杂的环境中进行阶段到阶段的运动规划。编码器之间的整体信息流f（xobs）和dmlp如图2（c）所示。生成连接开始和目标状态的端到端可行路径，我们提出了一种新的增量双向路径生成方法。启发式的。算法1给出了整个路径生成程序。本节的其余部分描述了各种功能算法1所使用的和所建议的方法。

障碍编码器F（XOBS）：编码器功能f（xobs），在离线阶段训练，用于编码障碍点云xobsisin;xobs进入潜空间Z·RM
DMLP：DMLP是一个前馈神经网络。从离线阶段开始，采用z，当前状态xt，目标状态x t并预测机器人x_t 1的下一个状态。到把随机性灌输给DMLP，一些隐藏的DMLP的每个隐藏层中的单元都被丢弃概率p[0，1]isin;r，在线路径生成过程中增加弹性的优点是形式化的。在讨论部分讨论。

懒态收缩（lsc）：给定路径tau;=x0，x1，····，xt，LSC算法直接连接可连接非连续状态，即XI和Xgt; I 1，以及删除中间/惰性状态。这个过程也经常被称为平滑或短切。术语“收缩”是指正如图论文献[17]中使用的一样。
转向：Steerito功能采用两种状态作输入并检查连接给定两种状态完全处于无碰撞空间xfree或不是。从x1到x2的转向是以小的、离散的步骤完成的。可概括为tau;（delta;）=（1minus;delta;）x1 delta;x2；delta;isin;[0，1]。
可行的方案：给定路径tau;=x0，x1，····，xt，这个程序检查通过连接tau;中的连续状态形成的端到端路径完全位于xfree或不是。输出是一个布尔值，如果路径tau;完全无碰撞，否则为假。
神经规划：这是一个增量双向基于DMLP的启发式路径生成，有关概述。它需要障碍物表示，z，以及开始和目标状态作为输入，并输出连接路径这两个国家。集合TAA和tau;B分别对应于从开始状态和目标状态生成的路径。算法从tau;a开始，它生成新状态xnew从开始到目标（第5行），并检查路径从开始tau;A可连接到目标tau;b的路径（第7行）。如果路径是可连接的，则端到端路径tau;为通过连接tau;a返回和tau;B. 但是，如果路径是不可连接，tau;a和tau;b的作用交换（第11行）整个过程再次重复。交换函数允许双向生成路径，即，如果有迭代一，路径tau;a然后在下一个迭代i 1中扩展，路径跟踪B将延长。这样，两条轨道tau;a和tau;B走向彼此，这就形成了这条道路启发式的贪婪和快速。
离线：收缩式自动编码器（b）离线：深层多层感知器（c）在线：神经规划器

7）重新规划：该程序在算法中概述3.它遍历所有连续状态Xi和Xi 1。在给定路径tau;=x0，x1，···，xt，并检查它们是否是否可连接，其中i=[0，tminus;1]n.如果有发现连续状态不可连接，新路径为在这些状态之间使用以下方法之一生成重新规划方法（第5行）。

a）神经重新规划：给定一个开始和目标状态对于障碍空间编码Z，该方法递归地查找两个给定状态之间的新路径。为此，它开始通过在给定状态之间找到一条粗糙的路径，然后如果需要，它通过调用自身来在更精细的级别上重播新路径的不可连接连续状态。这个对固定数执行递归神经重规划将算法限制在计算范围内的步骤界限。

b）混合再植：这种启发式方法结合了神经用经典的运动规划方法重新规划。它对固定的步数执行神经重新规划。测试了新路径的可行性。如果路径不是可行，则新路径中的不可连接状态为使用经典运动规划器连接。算法1概述了利用所有上述的启发式方法都可以生成可行的端到端路径。它首先找到一个粗路径tau;连接开始和目标（第2行）。如果找到有效路径tau;，则删除路径中的状态（第4行）和可行性测试执行（第5行）。如果路径可行，则返回为路径解决方案否则，重新规划将在更精细的级别上完成。修复不存在的粗糙路径段完全在无障碍空间（第8行）。重新规划方法返回一个新的可行路径（如果存在）。这个新的在惰性状态收缩后，路径作为路径解决方案返回（9-11行）。

五.详细执行情况

本节给出了MPNET的实现细节。这个提出的神经模型，CAE和DMLP被实现。在PyTrCH2. 路径生成启发式与经典MotionPlanner（RRT*）在Python中实现。这个用于培训和测试的系统有3.40GHztimes;8 Intel核心i7处理器，32 GB RAM和Geforce GTX 1080GPU。其余部分解释了不同的模块，领导MPNet。

A.数据收集

要生成不同的二维和三维工作空间，请输入一个数字在手术区放置了个四边形块分别为40times;40和40times;40times;40。阵地在这些样本中，随机抽取的样本没有替换。从操作区域。每个随机放置的障碍物导致不同的工作空间。在每个生成的工作空间，随机列出nisin;n个状态从无障碍空间取样。一对状态来自该列表是随机选择的，没有替换，以形成一对起点和目标。这些开始和目标对是用于生成培训的可行路径（使用RRT*）并进行测试。按照上述程序，110为每个呈现的案例生成

资料编号：[5230]

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

Motion Planning Networ外文翻译资料

问题定义

MPNET：神经运动规划

您可能感兴趣的文章

登录

注册

找回密码

问题定义

MPNET：神经运动规划

您可能感兴趣的文章