基于深度强化学习的无人驾驶船舶自主路径规划模型外文翻译资料-外文翻译网

英语原文共 35 页，剩余内容已隐藏，支付完成后下载完整资料

文章

基于深度强化学习的无人驾驶船舶自主路径规划模型

大连海事大学信息科学与技术学院，大连116026;guosy@dlmu.edu.cn(密度);zhengyisong@dlmu.edu.cn (Y.Z.);*联系方式:zhangxg@dlmu.edu.cn;电话: 1 - 86-185-5305-9562

收到日期:2019年11月27日;接受日期:2020年1月2日;发布日期:2020年1月11日

摘要:深度强化学习(Deep reinforcement learning, DRL)在连续控制问题中表现优异，被广泛应用于路径规划等领域。提出了一种基于DRL的无人驾驶船舶自主路径规划模型，实现无人驾驶船舶在未知环境下的智能路径规划。该模型利用了深度确定性政策梯度(deep policy gradient, DDPG)算法，通过与环境的持续交互和历史经验数据的使用;agent在仿真环境中学习最优的动作策略。将航行规则和船舶遭遇情况转化为航行限制区域，以达到规划路径安全的目的，保证模型的有效性和准确性。利用船舶自动识别系统(AIS)提供的船舶数据对该路径规划模型进行训练。将DDPG与人工势场相结合，得到了改进的DRL。最后，将路径规划模型集成到电子海图平台中进行实验。通过对比实验的建立，结果表明改进后的模型能够实现自主路径规划，具有良好的收敛速度和稳定性。

关键词:无人驾驶的船只;深入强化学习;DDPG;自主路径规划;端到端;避碰

1.介绍

随着海上交通密度的不断增大，各类海上事故频繁发生。根据国际海事组织(IMO)从1978年到2008年的世界海难记录，80%的海上事故是人为因素造成的。因此，提高船舶的自主驾驶水平已成为亟待解决的问题。另一方面，船舶所面临的环境也越来越复杂。在某些情况下，载人船舶不适合去工作场所执行任务，而无人驾驶船舶更适合应对海上复杂多变的恶劣环境。这就要求无人驾驶船舶具备自主航路规划和避障的能力，从而有效地完成任务，提高综合作业能力[2]。

无人船凭借其强大的自主性和适应性，逐渐成为当前行业[3]所追求的新研究方向。无人驾驶船舶不仅可以在危险海域独立执行任务，还可以与有人驾驶船舶协同工作，提高工作效率。广泛应用于海洋勘探、军事任务、物资运输等领域。自主航路规划是提高无人船舶自主能力的关键技术。无人驾驶船舶自主路径规划需要根据一定的航行规则和船员经验，对安全航行区域内的路径进行优化。它能安全避开障碍物，并能独立规划从已知起点到目标点的最优轨迹。无人驾驶船舶往往面临复杂多变的航行环境

传感器2020,20,426;doi: 10.3390 / s20020426

www.mdpi.com/journal/sensors

传感器2020,20,426

2 35

环境。因此，有必要采取一种连续有效的方法来控制船舶航行过程中的航迹，从而保证船舶[4]的安全。无人驾驶船舶的研究方向主要分为自主路径规划、导航控制、自主避碰和半自主任务执行。自主航路规划是船舶自动化和实际应用的关键，是自主导航的基础和前提。在实际航行过程中，船舶经常与其他船舶相遇，这就需要合理的方法来引导船舶避开其他船舶，达到目标点。因此，在路径规划过程中，如何避免动态障碍物是值得考虑的问题。无人驾驶船舶路径规划方法可以指导船舶采取最优行动，避免其他障碍。同时，还可以根据障碍物信息，将其划分为可航行区域和障碍物区域，实现局部区域内的避障功能。许多学者已经完成了解决无人驾驶船舶自主路径规划问题的相关研究和实验。然而，传统的路径规划方法通常需要相对完整的环境信息作为先验知识，在未知的海洋环境中很难获得周围环境信息。传统的航迹规划算法计算量大，难以实现船舶的实时行为决策，导致航迹规划信息误差较大。

近年来，人工智能技术得到了迅速的发展和应用。深度学习(DL)[6]和强化学习(RL)[7]在许多领域都取得了巨大的成功。DL具有很强的感知能力，RL具有决策能力。DRL[8]是结合DL和RL的优点得到的，它为复杂系统的感性决策问题提供了一种解决方案。DRL可以有效地解决连续状态空间和动作空间的问题。它直接将原始数据作为输入，输出结果作为执行动作，实现了端到端学习模式，大大提高了算法的效率和收敛性。目前，DRL已广泛应用于机器人控制[9]、自动驾驶[10-12]、财务预测[13]、交通控制[14]等领域。人工智能技术正逐渐渗透到各个领域，无人驾驶自主的概念也越来越近。无人驾驶船舶作为交通运输领域的重要组成部分，正朝着智能化、自主化的方向发展。

近年来，RL得到了广泛的关注，强调agent从环境到行为映射的学习，通过价值函数的最大化来寻求最准确或最优的行动决策。Mnih, V等人[15]提出了一种深度Q-Network (Deep Q-Network, DQN)算法，开启了DRL的新时代。DQN算法利用深度神经网络强大的函数拟合能力，避免了Q表的巨大存储空间，利用经验回放记忆和目标网络增强训练过程的稳定性。同时，DQN实现了端到端的学习方法，只使用原始数据作为输入，输出结果为每个动作的Q值。DQN算法在离散动作方面取得了很大的成功，但难以实现高维连续动作。如果连续变化的动作是无限分裂的，那么动作的数量会随着自由度的增加呈指数增长，这就导致了纬度突变的问题，会造成很大的训练困难。此外，简单地将操作离散化可以删除关于操作域结构的重要信息。摘要作用-批评(AC)算法[16]具有处理连续动作问题的能力，在连续动作空间中得到了广泛的应用。交流算法网络结构包括行为网络和批评网络。参与者网络负责输出动作的概率值。评论家网络评估输出动作。这样，网络参数不断优化，得到最优的动作策略，但AC算法的随机策略使网络难以收敛。Lillicrap, T。P等人提出了深度确定性策略梯度(Deep Policy Gradient, DDPG)算法来解决连续状态动作空间中的DRL问题。DDPG是一种无模型算法，它将DQN算法的优点与经验回放内存和目标网络相结合。同时，利用基于确定性策略梯度(DPG)的AC算法使网络输出结果为a

传感器2020,20,426

3 35

一定的动作值，确保DDPG可以应用于连续的动作空间字段。该算法简单、收敛性好，可方便地应用于复杂问题和较大的网络结构。Zhu, M等人提出了一种基于DDPG的类人自主汽车跟随规划框架。在这个框架中，无人驾驶汽车通过尝试和错误来学习环境。最后，建立了无人驾驶汽车的路径规划模型，取得了良好的实验结果。本研究表明，DDPG能够洞察驾驶员的行为，有助于开发类人的自动驾驶算法和交通流模型。

提出了一种基于DRL方法的无人驾驶船舶自主路径规划模型。该模型的本质是，代理通过枚举方法独立地找到最有效的路径，而枚举方法可能更接近于人工操作。同时，将船舶运动转化为连续运动控制问题，使之符合实际船舶的运动特性。上述思想在本文中得到了实现。首先分析了船舶与环境的交互模式，建立了一个贴近现实世界的无人驾驶船舶自主路径规划虚拟计算环境。其次，定义了模型，设置了DDPG算法的网络结构和参数，设计了行动探索策略和奖励函数。同时，对国际海上避碰规则(COLREGS)和船员经验进行量化，并加入对目标点的吸引策略，以保证航行的规范性，避免算法陷入局部最优。最后，将历史经验数据存储在记忆池中，通过随机抽取更新神经网络参数，从而降低了数据的相关性，提高了算法的学习效率。此外，本文将人工势场(APF)与DDPG相结合，得到了基于APF-DDPG的自主船舶自主路径规划模型。APF-DDPG模型具有较高的决策能力和较快的收敛速度。将该模型与电子海图平台相结合，对模型的有效性和准确性进行了评估，并分别在单船相遇和多船相遇的情况下进行了实验。设计了DQN、AC、DDPG、APF-DDPG、Q-learning[18]算法五组验证实验作为对比案例。结果表明，该算法收敛速度快，规划效率高，规划路径更符合航行规则，实现了无人驾驶船舶的自主路径规划。

本文其余部分的结构如下。第二部分是对相关工作的回顾。第3节给出了基于DRL的无人驾驶船舶自主路径规划模型。第四部分是仿真实验过程与实验结果的对比分析。最后，第五部分对全文进行总结。

2.相关研究

目前，国内外已经开展了无人驾驶船舶自主航路规划的研究。这些方法包括传统的算法，如APF、速度障碍法、A*算法，以及一些智能算法，如蚁群优化算法、遗传算法、神经网络算法等DRL的相关算法。

在传统算法方面，Petres、C等人[19]利用APF构建虚拟引力场引导自主水面车辆(ASV)到达目标点。ASV通过将导航受限区域转化为虚拟障碍区域，在复杂的导航环境下进行路径规划。该算法具有计算效率高、算法简单等优点，但需要设置合理的势场参数以避免陷入局部最小。该算法与COLREGS[20]算法相结合，在无人船舶自主路径规划过程中，可以保证算法的实用性和有效性。Kuwata, Y等人[21]采用COLREGS的速度障碍法，提出了一种无人水面车辆(USV)在动态、杂乱环境下安全行驶的路径规划方法。实验结果表明，USV能够实现较好的避障和路径规划。

传感器2020,20,426

4 35

Campbell, S等人[22]提出了一种基于改进的a *算法的USV实时路径规划方法，该方法与决策框架相结合，并与COLREGS相结合。结果表明，该方法实现了复杂导航环境下无人艇的实时路径规划。然而，A*算法依赖于网格图的设计，网格的大小和数量将直接影响算法的计算速度和精度。薛，Y等人[23]介绍了一种基于APF并结合COLREGS的无人船路径规划方法。实验结果表明，该方法能够有效地实现复杂环境下无人驾驶船舶的路径搜索和避碰。然而，该方法难以处理未知受限航行环境下船舶自主路径规划和避碰问题。

此外，许多智能算法，如遗传算法、蚁群算法、神经网络算法等，也被用于无人船舶自主路径规划问题。例如，Vettor, R等人[24]使用优化遗传算法计算环境信息作为初始种群，得到满足要求的导航路径。Lazarowska等人提出了蚁群优化算法，将船舶路径规划和避碰问题转化为以碰撞风险和距离损失为目标函数的动态优化问题。在动态障碍物运动预测的基础上，得到了最优规划路径和避碰策略。Xin, J等人[26]采用改进的遗传算法，利用多域反演增加子代数。结果表明，该算法在路径长度和时间代价之间取得了较好的平衡，具有较短的最优路径、较快的收敛速度和较好的鲁棒性。Xie, S, et al.[27]提出了一种基于改进甲虫天线搜索(BAS)方法的欠驱动水面船舶预测避碰方法。建立了一种实时避碰的预测优化策略，并以COLREGS作为约束条件，同时考虑了安全经济代价的最小化。仿真实验验证了改进的BAS方法的有效性。然而，此类智能算法通常计算量大，主要用于离线全局路径规划或辅助决策，难以用于船舶实时动作决策问题。

在智能船舶领域，DRL在无人船舶控制中的应用逐渐成为一个新的研究领域。例如，Chen, C等人[18]介绍了一种基于Q-learning的无人货船路径规划和机动方法。该方法可以学习行动奖励模型，获得最佳的行动策略。经过足够多的训练，船只可以自己找到正确的路径或导航策略。Fu, K等人[28]提出了一种基于特征融合金字塔网络和DRL (FFPN-RL)的船舶旋转检测模型。将双Q网络应用于倾斜船舶探测任务中，实现了船舶的自主导引与停靠功能。Yang, J等人针对无人驾驶船舶提出了基于相对值迭代梯度(RVIG)算法的自主导航控制，并利用Unity3D游戏引擎软件设计了船舶的导航环境。仿真结果表明，在复杂环境下，无人驾驶船舶能够成功避障并到达目的地。沈,H。Q等人[30]提出了一种基于Dueling DQN算法的多船自动避碰方法，并结合船舶的操纵性、乘员经验和COLREGS来验证无人船舶的路径规划和避碰能力。张,R。B等人[31]基于Sarsa on-policy算法，提出了一种基于行为的USV局部路径规划和避障方法，并在实际海洋环境中进行了测试。WANG, Y等人[32]引入了一种结合DDPG算法的USV航向跟踪控制方案，并取得了良好的实验结果。Zhang, X等人提出了一种基于海洋自主水面船舶的自适应导航方法，用于分级DRL。该方法结合船舶操纵性和航行规则进行训练和学习。结果表明，该方法能有效提高航行安全，避免碰撞。Zhao, L等。[34]采用了邻域策略优化(proximal policy optimization, PPO)算法，并结合

传感器2020,20,426

5的35

提出了多船环境下的船舶运动模型和航行规则、无人驾驶船舶自主避碰模型。实验结果表明，该模型能够获得多艘船舶的时间效率和无碰撞航迹，对未知复杂环境具有良好的适应性。另外，由于在实际航行过程中，人为因素是由航海家对航行情况的主观性和不确定性构成的，所以在实际的船舶控制过程中，人为因素通常具有游戏性质。该算法克服了传统智能算法需要一定数量样本的缺点。同时，它有更少的错误和响应时间。

在无人驾驶船舶领域，提出了许多关键的自主航迹规划方法。然而，这些方法主要集中在中小型USV的研究上，而无人驾驶船舶的研究相对较少，目前将DDPG应用于无人驾驶船舶路径规划的专家较少。本文选择DDPG进行无人船路径规划，是因为它具有强大的深度神经网络函数拟合能力和较好的泛化学习能力。拟合能力可以在接近船舶运动

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[240758]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

基于深度强化学习的无人驾驶船舶自主路径规划模型外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章