人类纵向驾驶行为学习和辅助驾驶策略外文翻译资料-外文翻译网

英语原文共 20 页，剩余内容已隐藏，支付完成后下载完整资料

人类纵向驾驶行为学习和辅助驾驶策略

Mark Eilers, Claus Mobus , Fabio Tango, Olivier Pietquin

[摘要]

人类驾驶行为的模型对于错误补偿辅助系统的快速原型是至关重要的。许多作者提出了控制理论和生产系统模型。在这里，我们提供了机器学习替代方案来训练辅助系统，并从人类行为痕迹估算了概率驱动模型。提出了一个基于马尔可夫决策过程的部分独立的驾驶员辅助系统。使用最小二乘法策略迭代算法，从人类行为痕迹中训练其辅助策略。所得到的系统能够减少跟随引擎车辆时碰撞的次数。此外，我们基于动态贝叶斯网络的模块化和分层结构，提出了一种驾驶员纵向控制的贝叶斯自主驱动混合行为模型。他们的参数和结构是根据人类行为痕迹，使用基于贝叶斯信息准则的歧视评分标准估计的。这根据其统计相关性，允许从驾驶员模型提出的各种感知中选择相关知觉。由此产生的驾驶员模型能够在驾驶辅助驾驶或协助的情况下，重现人类驾驶员的纵向控制行为系统。

关键词：智能辅助；概率驱动模型；马尔可夫决策过程；动态贝叶斯网络；结构与参数学习；概率图形模型

1.介绍

智能交通系统中，以人或认知中心为本的设计需要人类行为和认知的计算模型。尤其是人类驾驶行为的模型，其对于错误补偿辅助系统的快速原型是至关重要的（Cacciabue，2007）。到目前为止，这些模型主要被开发并用作流量场景模拟中的驱动模型，以提供安全断言和支持基于风险的设计。然而由于需要更聪明更智能的辅助，并且人类技能转化为预想的技术系统的倾向越来越明显（Xu＆Lee，2005），驾驶员模型能够预测司机行为和动作意图，可以利用其来改善今后的辅助系统。

在本文中，我们提出了开发驾驶员辅助系统和驾驶员模型的机器学习方法。由马可夫决策过程（MDP）实现称为LOSS（由第三和第四作者开发的纵向支持系统）的部分自主驾驶员辅助系统（PADAS）。 LOSS增强了共同的前向碰撞警告和自适应巡航控制系统，增加了辅助和紧急制动功能。为了对给定的情况确定正确的策略（例如警告或干预），使用在驾驶员模拟器研究中获得的人类行为痕迹训练系统。此外，我们提出了基于动态贝叶斯网络（DBN）的模块化和分层结构（由第一和第二作者开发）的贝叶斯自治驾驶员混合行为（BAD MoB）模型实现的人类驾驶模型。在使用LOSS的单独的驾驶模拟器研究中，DBN的参数和结构由多变量时间序列的人类行为痕迹来估计。由此产生的BAD MoB模型能够重现驾驶人员驾驶员的纵向控制行为，并辅助LOSS。我们认为提出的LOSS和BAD MoB模型可以组合成一个改进的PADAS。在这个PADAS中，MDP将用于确定驾驶员应该做些什么来获取安全驾驶行为，而使用BAD MoB模型可以预测驾驶员在不久的将来最有可能做什么。在这里，我们试图为这种做法奠定基础。

这项工作主要在欧洲项目“综合人类建模与仿真支持部分自主驾驶员辅助系统的胡氏误差风险分析”（ISi-PADAS）中进行。 ISi-PADAS的目标是提供一种基于驾驶员模型的模拟进行PADAS风险评估的方法，以便在人类驾驶员的实验研究中替代新的辅助系统昂贵和高强度的测试。作为这种方法的演示，LOSS和BAD MoB模型同时用于跨越项目的用例。

本文的组织结构如下。第2节介绍了基于马尔可夫决策过程（MDPs）的称为LOSS的新PADAS的开发。第2.1节阐述了一般的人造共同司机的总体架构，特别是LOSS的总体架构，这些构架和技术需要使其生活，指出哪些部分已经被研究，哪些差距仍然存在。我们阐述什么是“理解司机”的实际意义，以及如何获得联合机制。第2.2节讨论了为PADAS制定最佳策略的问题，该策略由一组决策规则构成，该决策规则根据车辆情况确定发送给驾驶员的信号序列（警告）以及如何驾驶员车辆减速（干预）。第2.3节介绍驾驶模拟器研究，以获得学习最佳策略所需的人类行为痕迹。 2.4节将为PADAS提供早期成果。第3节介绍了从人类行为痕迹中学习的贝叶斯自主驾驶员混合行为（BAD MoB）模型实现的人类驾驶模型的开发。 3.1节介绍了BAD MoB模型的结构和利用情况。第3.2节讨论了从人类行为痕迹获取BAD MoB模型的机器学习方法。第3.3节提出了一个驾驶模拟器研究，以获得人类行为痕迹，并呈现出所得到的学习BAD MoB模型。第3.4节介绍了BAD MoB模型行为和实验数据的验证和比较。第4节进行总结和得出结论。

2学习驾驶员辅助系统的最佳策略

PADAS的目标是帮助用户安全驾驶。这可以通过开发能够实现共同驱动的程序来实现“理解”司机，并与他们共同构成共生系统，提供相关信息，反馈给自然界面。这种系统能够持续支持，能够帮助驾驶员在许多不同的交通情况和情况下，在车辆的整个纵向控制中不断地从警告到自动制动（Tango，Minin，Aras，

＆Pietquin，2011）。基本思想是将系统定义为有意识的共同司机，通常是无声的，但可以告知司机，甚至在发生危险情况时进行干预。驱动器和协同驱动器之间的通信通过多个HMI通道在不同的层次上发生，广泛使用触觉反馈和驱动程序命令上的交互。

2.1建模方法

正如达利奥（Biral），加尔瓦尼（Galvani）和萨罗德迪（Saroldi）（2012年）所言，人类已经将动物，特别是马作为交通系统使用了数千年。上个世纪，由于范围，速度，容量和成本，他们最终被汽车取代。然而，失去了一些东西：动物的智慧交付了权力。诺曼（2007）回顾了骑手和马之间的相互作用，作为未来智慧事物应该如何运作的一个例子。在这种情况下，“共同驾驶员”是一个聪明的智能系统，足以“理解”驾驶员，并与司机形成共生系统（Mouml;bus＆Eilers，2009，2011a）（从而实现上述愿景，例如采用H-metaphor，Flem-ish等，2003）。换句话说，共同驾驶员是汽车中的一种“虚拟驾驶员”（图1），能够检测道路情景，包括障碍物，道路几何，车辆位置和运动，以及所有驾驶所需的其他信息。这个

“虚拟驱动程序”“优化”情况，根据当前状态选择最合适的操作，以便转到下一个更安全的状态。然后通过专用的HMI与驾驶员相应地相互作用。

“共同司机”一词是从航空领域的副驾驶员改编而出，严格来说，它表示飞机的第二位飞行员。在更广泛的意义上，它也可能表明可以照顾一些指导任务的自动化。对于艺术状态的完整评估，兴趣读者可以看到Da Lio等人（2012），Saroldi，Tango和Da Lio（2012）以及HAVEit和DIPLECS项目。在我们的案例中，共同司机是一个模型，它为许多人产生感觉运动策略可能的目标，与人类驱动程序相匹配。这种最佳策略也将用于与驱动程序交互。实现该虚拟驱动器的方法等效于找出情境之间的最佳映射（由物理变量描述，如：速度，距离等）和动作（由PADAS的状态之一表示，是：警告，辅助制动和紧急制动）; 换句话说，它可以被认为是一个顺序的决策问题，因为决定着一个接一个地（因为它们对特定情况的影响），而且它们影响了司机以及车辆动力学。这是PADAS必须优化的全球战略（而不是本地决策）。

2.1.1 背景

根据Tango和Pietquin（2012）的详细介绍，从关于驾驶员错误和事故类型的原因和方式的几项研究中可以看出，所有后期事故占据了73.3％的事故发生率，而在 22.8％的重大事故中，最重要的因素是跟随车辆太近（过于短暂，时间上的距离）或过度的相对速度。此外，近一半的后期事故发生在未受干扰的流量中，事件的预期可能很低。在这种情况下，许多研究已经证明了纵向控制中的支持驱动系统在减少前后碰撞的数量和严重性方面真正有效（例如前向碰撞警告（Dravi- dam＆Tosunoglu，2001）自适应巡航控制（Vogel，2003）等）。

2.1.2 PADAS概念

鉴于这些条件，我们开发了称为LOSS，纵向支持系统的PADAS。根据其他欧洲共同资助项目（如Bertolazzi，Biral，Da Lio，Saroldi，＆Tango（2010））所述的活动，它们可以将纵向控制应用的干预区域分为不同部分（图2），被视为提前时间的功能，可用于系统动作（在警告和自动干预方面）。

当然，这是指示性的，值可能根据驾驶情况（环境和驾驶员行为）而改变。无论如何，这些值定义在可以区分不同纵向函数的范围（时间上）。在这个意义上，我们谈论关键性的升级，必须将构成LOSS的功能映射到从GREEN到RED的关键领域。因此，目标PADAS应用（定义LOSS）由两种不同的模式组成，每种模式由三种不同的功能组成（图3）。

LOSS由两种模式组成：高级前向碰撞警告（FCW ），其扩展了“传统”前向碰撞警告的功能和高级自适应巡航控制（ACC ），其扩展了 “正常”自适应巡航控制。 FCW 和ACC 都由三个功能组成（Tango＆Pietquin，2012）：前向碰撞警告（FCW）自适应巡航控制（ACC），辅助制动（AB）和紧急制动（EB）。图4显示了如何将每个模式的功能分类到关键性区域（由四种不同颜色识别）。

情境与行动之间的映射通过统计学习方法进行了优化。就像共同司机“思考”如何驱动所有可能的目标，并发现和优化从一个国家到另一个国家过渡的目标。在这样做的同时，共同司机了解司机的基本目标是什么。这个共同驱动程序的架构如图5。

最后，我们现在想详细说明一下我们的意思，说这个虚拟合作者可能会“理解”人类驾驶者，以及驾驶员和共同司机如何形成一个“整体”的综合系统。如Da Lio等人所述（2012）和其他相关作品（Goodrich＆Schultz，2007; Heide＆Henning，2006; Inagaki，2008; Parasuraman＆Sheridan，2000; Thrun，2004），关键因素是要建立一些观察到的初始运动活动与一个有意义的目标（即在H型隐喻中的一匹马发生同样的事情，将骑师的迹象与有意义的目标相联系）。因此，这个虚拟驱动程序也可以通过“训练”阶段将驾驶员活动映射到有意义的目标上，这意味着“自然”和直接与人类的互动。在这个意义上，共同司机赋予司机意图（或试图这样做）。

图6显示了驱动程序和虚拟协同驱动程序之间的交互如何工作。通常情况下，车辆由司机控制，但由司机根据驾驶员的预期目标进行移动，始终准备干预。如果目标司机和共同司机产生分歧，共同司机通过与人的直接互动进行训练能够理解是否必须搜索新目标（更改驾驶员的计划/意图）或者如果存在不一致的情况（例如司机的错误请求，包括没有明确目标或明确错误目标的驾驶员机动）; 只有在这种情况下，共同司机可以干预，采用与人类驾驶员目前执行的行为相同的更安全的行为。

2.2 PADAS优化与强化学习

共同驱动程序被视为在不确定性下解决顺序决策问题的智能机器。在统计学习领域，通过强化学习（Sutton＆Barto，1998）对序列动作选择策略进行优化。这个范例将问题模拟成如下：智能代理与其环境交互，并在每次互动之后提供奖励。奖励可以是积极的，无效的或否定的，因为行动的结果在本地是可取的。因此，代理人的目标将是找出一系列行动，这将导致最大累积奖励。通过这样做，代理人将根据预期的积累的奖励将事件与事件相关联，从而优化长期行为而不是本地决策。

2.2.1马尔可夫决策过程

共同司机将被建模为马尔可夫决策过程（Bellman，1957），这是解决强化学习问题的数学框架。马尔可夫决策过程（MDP）是一种有状态机器，将根据状态（可能的情况），行动（可能的决策）和回报来描述智能代理的环境。 MDP中的代理程序的演进应该根据离散的时间过程来完成。

在每个步骤t，代理知道MDP的哪一个状态。根据这个知识，它会选择一个动作并且将进入新状态并且将获得返回值。和有条件地在之间的转换，应符合马尔可夫属性的转移概率，这意味着它不依赖之前的各状态，也不依赖以前在这些状态采取的行为。从状态开始，代理将尝试生成长期的最大累积奖励，称为返回=。在这个定义中，是一个在[0，1]的折扣因子，根据其到初始状态的距离来衡量返回值的重要性。越小，返回值越重要的。因为这个过程是随机的，过渡不是确定性的，考虑到每个状态可以是起始状态，代理将尝试优化平均返回值。要这样做，应该学习在状态和动作之间的映射，使可以获得的最大预期奖励通过从任何状态开始，并采用由定义的动作选择规则。我们正式的定义价值函数。代理的目标是找到最优策略如。这相当棘手，因此，定义了另一个值函数，即动作值函数]这是从状态s开始的预期奖励，采取行动a，然后遵循政策p。我们定义通过的最优策略的动作值函数。可以看到，如果我们知道，那么最优策略可以通过以下规则容易地计算：。

有许多算法通过与其环境相互作用让代理找到最佳动作值函数的良好估值（Sutton＆Barto，1998）。他们大多数是基于马尔可夫表达式，如下：其中是下一个状态，是动作在状态时的选择。如果转移概率已知（计算期望值），这实际上定义了一组方程。这定义了动态规划范式（Bellman，1957）。然而，大多数时候，这些概率是未知的，相互作用的记录是变化的。如同大多数机器学习技术，基于数据估计功能的方法已被应用于估计的强化学习中的动作价值函数。其中最小二乘法迭代算法（Lagoudakis＆Parr，2003）是最受欢迎的之一。这也是我们将在以下使用的。

2.2.2 PADAS作为MDP

为了使用强化学习模式来优化副驾驶，这个问题必须被放在MDP par-adigm中，这意味着根据状态、行动和奖励来定义 MDP par-adigm。状态将由预期的碰撞时间来定义，：，其中是与前车的距离，是驾驶员车辆的速度，是引导的车辆的速度。这将是用于作出决定的信息。行动将有几种类型。首先是副驾驶能够选择报警（此处为视觉报警），通过对制动器施加给定的压力来帮助驾驶员进行制动或执行紧急制动。最后，定义返回值的返回函数计算

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[141845]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

人类纵向驾驶行为学习和辅助驾驶策略外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章