使用生成式对抗网络预测多种轨迹外文翻译资料

 2022-08-23 02:08

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


使用生成式对抗网络预测多种轨迹

摘要

预测一个场景中多种交互主体的未来轨迹,从自动汽车和社交机器人的控制到安全和监视,对于许多不同的应用来说都是一个越来越重要的问题。社会中人类之间交互和他们的物理行为加剧了这个问题。尽管现有文献已经发现了一些线索,他们主要忽略了每个人类的未来轨迹的多模态性质。在本文中,我们介绍了Social-BiGAT,一种基于图的生成对抗网络,可以通过对场景中人的社交互动进行建模,生成逼真的、多模式的轨迹预测。我们的方法是基于学习对场景中人类之间的社交互动进行编码的可靠特征,以及根据功能经过反复训练一预测人类的路径的对抗网络。我们明确地考虑了多种方式对于通过在每个场景及其潜力的噪声矢量的本质,例如Bicyle-GAN。我们证明了与其他几个基准相比,我们的工作框架达到了现有的轨迹预测中最先进的性能。

1 引言

准确地人类轨迹预测正成为各种应用中至关重要的组成部分。自动驾驶汽车等自动汽车,送货车等社交机器人必须能够理解人类的运动以避免碰撞[1-4]。只能追踪和用于城市规划的监视系统必须能够理解人群如何互动以更好地管理基础设施[5-8]。轨迹预测也变得至关重要,这有助于下游任务,例如跟踪和重新识别[9]。但是,由于人类行为具有以下固有属性,轨迹预测仍然是一个挑战:

  • 社交互动 当人们在移动公共场所移动时,他们经常与其他行人互动[10]。从采取行动避免碰撞到成群行走,人类在移动时有几种互动方式,这需要使用预测方法来模拟社会行为[11,12]。这些社交互动不一定受人们在空间上的接近程度影响。
  • 场景环境 人类的行为不仅取决于周围的人,还高度依赖于周围的物理场景[12-16]。这不仅包括固定的无法避免的障碍物,例如建筑物,以及视觉上呈现的不同物理提示,例如人行道或者草地,它们可能会导致或限制人类的活动。
  • 多样行为 人可能会遵循几种可能的轨迹,因为那里有丰富的亲在人类行为的分布[10、11、17、18]。例如,当两个行人相互靠近时,就会产生几种行为方式,例如向左或者向右移动。在每种模式下,允许行人速度之类的变化的特点也有很大的变化。

图1:我们展示了蓝色行人的多样行为,他们必须决定将选择哪个方向来避开红绿行人群体。

轨迹预测领域先前的工作已经解决了先前列出的挑战,并且提供了建筑设计的资料。Helbing等人[19]和Pellegriniet等人[20]成功展示了对社交互动进程建模的好处,但手工要求很少能够推广到新的场景。Alahi等人[10]利用循环架构来考虑多个行人行为的时间步伐,但不考虑场景的物理因素。其他研究员还集中在了解物理场景。Lee等人[15]和Sadeghian等人[16]利用原始场景图像和对场景的关注来突出重要提示。他们的工作由于没有考虑与场景相关的社交条件而受到限制。

相比之下,Gupta等人[11]和Sadeghian等人[12]利用具有社交机制的GAN来确定要考虑到场景中的所有人。但是,这两种模型都不能真正地学习人类行为的多样性,而是学习具有高度差异的单一行为模式。此外,这两种模式都受到他们学习社交行为方式的限制:前者对场景中的所有人使用相同的社交向量会导致丢失信息,后者手动定义的排序操作可能无法在所有情况下均达到最佳效果。

为了解决这些工作的局限性,我们提出了Social-BiGAT,这是一个基于GAN[21]的方法来构建一个可以学习这些基本多样轨迹分布的生成模型。这项工作主要的贡献如下:首先,我们通过引入灵活的注意力图网改进场景中人们的社交互动的建模,在这个场景中人们是可以互动的。这与之前的成果相比不论是在本地的限制,还是使用人工定义的规则对交互进行建模都有所改善。接下来,我们鼓励通过构造两个模型之间可逆映射类似推广到多样分布,输出场景中行人行为的轨迹和映像,正如之前Zhu等人[23]所做的。这使我们能够接受在社会上和生理上生成轨迹,同时也学习了更大的多峰轨迹分布,可以从跨场景的单一行为模式访问单个样本。最后,我们将加上物理场景提示中使用柔和注意力[12,16]使我们的模型更具通用性。

2 相关工作

近年来,由于自动驾驶系统和社交机器人的发展,轨迹预测问题已受到许多社区中研究员的高度重视。现有的大多数作品都几种在将场景的物理特征整合到人类空间模型中[15,16]以及学习如何在人与人模型中模拟行人之间的社会行为[10,24]。其他作品从生成环境中解决了这个问题[11],并在一个框架中对这些特征进行了建模[12]。尽管这些作品早该领域取得了很大进步,但它们的缺点是我们需要通过结合图注意力网络[22]和图像翻译网络[23]来解决。

轨迹预测 传统上,行人轨迹预测是通过定义手工绘制的规则和能量参数,可以捕捉人的运动,但无法正确概括[19,20,24-26]。现代方法不是通过人工制造这些操作,而是依靠循环神经网络,该网络直接从数据中学习这些参数[10,16],同时还结合了一些方法捕捉人类互动特征的过程[15.27,28]。这些现有方法中的几种已经受到范围的限制,因为它们通常将互动限制在附近的行人邻居[10,29,30],而不会模拟全局交互作用,或者无法将其推广到可变数量的人类。从产生性的角度探讨轨迹预测,包括Lee等人[15]、Gupat等人[11]、和Sadeghian等人[12],有自己的局限性。前者只考虑在有限的局部范围内互动,而后者导致模型具有高方差。特殊的是,尽管人类运动本质上是多峰的,但这些方法无法表达性地学习多模式行为,而是学习具有高方差的一种模式。在我们的工作中,我们想到从图像到图像转换的想法,以生成多峰行人轨迹。此外,我们的模型使用图注意力网络[22]来更有效、更健壮地对交互在场景中的主体之间进行建模,而先前的研究[12,31]取决于手工定义的规则。

图注意力网络 Velickovi等人[22]提出,图注意力网络(GAT)允许在任何类型的结构化数据上应用基于自我注意的用图表示的架构。这些网络基于图卷积的先前发展网络(GCN)[32],它还允许模型隐式分配不同的重要性给图中的节点。在我们的案例中,我们可以将行人互动公式化为图形,其中节点指人类,而边缘就是他们的相互作用;较高的边缘权重对应于更多重要的互动。通过使图完全连接,我们可对本地和全局建模人与人之间的有效互动方式,而无需执行像池化这样的系统[11]或可能会丢失重要功能的排序[12]。

图片翻译 在过去的几年里,图像翻译领域经历了几项开创性的进步。Pix2pix框架[33]是第一个进步,启用了翻译功能,但由于需要成对的培训示例而受到限制。Zhu等人改善了使用CycleGAN[34]的模型,该模型能够以不成对的方式学习这些域映射各个示例用过循环一致性损失而出现的情况。比较新的研究侧重于学习输出的多模态:InfoGAN[35]致力于最大化变化共有的信息,而BicycleGAN[23]引入了潜在的噪声编码器,并学习了噪声与噪声之间的双射输出。在我们的模型中,我们利用BicycleGAN[]提出的改进来提出潜在的允许多模式行人轨迹生成的空间编码器。

3 Social-BiGAT

3.1 问题定义

正式定义的人类轨迹预测是通过行人先前的动作以及有关场景的其他信息,来预测运动的行人的未来导向的问题(即他们在2D地图上便是的x和y坐标)。我们假设每个行人走的路线都会受到其他人的位置以及行进路线上的物理限制,还有他们自己的目标的影响,这在一定程度上是其过去的运动过程所编码的。对于任何特定场景,我们模型的输入是双重的:1)场景信息,以自上而下的形式或场景的侧视图图像,以及2)每个场景中先前观察到的轨迹的N个当前可见的行人中,Xi={(xti, yti )isin;R2|t=1, . . . ,tobs}其中forall;iisin;{1, . . . ,N}。鉴于以上所有输入以及tpred和tobs时间点之间每个行人的地面真实未来轨迹,即Yi={(xti, yti )isin;R2|t=tobs 1, . . . ,tpred},其中forall;iisin;{1, . . . ,N},我们的目标是了解对于他们的未来轨迹可以生成可行样本的基础(以及潜在的多模式)分布,即Ycirc;i其中forall;iisin;{1, . . . ,N}.

3.2 整体模型

我们的总体模型由四个主要网络组成,每个主要网络均由三个关键模块组成(图2)。具体来说,我们构造了一个生成器,两种形式的鉴别器(一种是在本地的行人规模,以及一种是在全局场景级别上运行的规模)和一个潜在空间编码器。我们的生成器由功能编码器模块(第3.3节),注意网络模块组成(第3.4节)和解码器模块(第3.5节)。功能编码器模块提取编码从注意力网络中使用的原始功能中,依次了解哪些功能在一代人中最重要。然后将这些加权特征传递到解码器模块,该模块使用LSTM生成轨迹的多个时间点。按照Lsola等人[33]的动机,对两种体系进行了对抗性训练,并鼓励现实的本地和全球轨迹,我们还训练了一个潜在的场景编码器,该编码器学会了最能共同代表场景的噪音,如Zhu等人[23]所鼓励的多式联运。

图2:提案Social-BiGAT模型的体系结构。该模型包括一个发电机,两个鉴别器(一个在本地行人规模上,一个在全局场景规模上),以及一个可学习来自场景的噪音的潜在编码器。该模型利用图注意力网络(GAT)和图像上的自我注意力来考虑场景的社交和自然特征。

3.3 功能编码器

功能编码器有两个主要组成部分:社交行人编码器,用于学习观察到的行人轨迹的表示形式和物理场景编码器,以便了解场景特征的表示。对于社交编码器,我们首先为每个行人嵌入使用多层感知器(MLP)将行人的相对位移放大到更高的维度,然后使用LSTM将跨时间步长的这些行人运动编码为单个嵌入,导致对行人i进行编码Vs(i)。对于物理特征编码器,我们只需要传递通过卷积神经网络(CNN)进行场景自上而下的图像视图,得出场景的Vp:

Vs(i) = LSTMen(MLPemb(Xi, Wemb), hen(i); Wen) (1)

Vp = CNN(I; Wcnn) (2)

3.4 功能编码器

就像人类如何直观地知道要注意哪些其他行人以避免碰撞一样,我们希望我们的模型更好地了解互动的相对权重:我们通过关注我们提取的功能来实现目标。

身体关注 要注意与特定行人有关的身体特征,我们采用Vs(i)并施加软注意,其中网络由Wp参数和输出上下文向量Cpt(i):

Cp(i) = AT Tp(Vp, Vs(i); Wp) (3)

社会关注 与身体关注类似,我们将行人的嵌入Vs(i)用作社会关注模型的输入。社会注意力模型将行人编码为与之交互的邻居行人的加权(关注)总和。先前的研究使用了两种排列方式不变的对称函数,例如max或average [11],或排序函数,例如基于欧氏距离的排序[12]。在前者中,不利之处在于,每个行人都将获得相同的联合特征表示,从而放弃了某些独特性。尽管后一种技术没有此缺点,但确实需要设置最大的行人数量,并且确实在模型上施加了人为偏差,不一定总是正确的。即,假定欧几里得距离排序是理解社会互动的关键组成部分。

为了避免这些缺陷,我们利用图注意力网络[22,36]。给定行人i的嵌入Vs(i),对于场景中的所有行人,我们应用几个堆叠的图形注意层。每层“l”的应用如下:其中Wgat参数化一个共享的线性变换,而a是一个共享的关注机制:

我们使用最后一个GAT图层中的要素CLS(其中l=L作为最终的社交要素)。我们允许行人图形保持完全连接,并且不使用任何遮罩。这允许每个行人彼此交互,并且不对行人命令施加任何限制。

3.5 GAN网络

在本节中,我们将介绍我们的特征编码器和注意力网络如何在开发基于LSTM的生成对抗网络(GAN)时作为核心构建块。GAN通常有两个相互竞争的网络构成:一个生成器和一个鉴别器。在生成器学习根据输入数据生成逼真的样本的同时,鉴别器学习识别哪些样本是真实的以及生成了哪些样本,从而参与了两人最

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238287],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。