连体区域提案网络的高性能视觉跟踪外文翻译资料

 2022-08-09 10:08

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


连体区域提案网络的高性能视觉跟踪

摘要

近年来,视觉对象跟踪一直是一个基本的课题,许多基于深度学习的跟踪系统已经在多个基准上实现了最先进的性能。 但是,大多数这些跟踪系统几乎无法在拥有实时响应速度的前提下获得最佳性能。 在本文中,我们提出了孪生区域网络(Siamese-RPN),这是一个具有大规模图像对的端到端受训离线的网络。 具体来说,它由用特征提取的孪生子网络和包括分类分支和回归分支的区域建议子网络组成。 在推论阶段,我们提出的框架被制定为一个局部的一次性检测任务。 我们可以预先计算暹罗子网的模板分支,并将相关层公式化为琐碎的卷积层来执行在线跟踪。 受益于提案的改进,可以放弃传统的多尺度测试和在线微调。 Siamese-RPN以160 FPS的速度运行,同时在VOT2015,VOT2016和VOT2017实时挑战中取得领先的性能结果。

简介

视觉对象跟踪是计算机视觉各种任务(例如自动驾驶[19]和视频监视[32])中的基本构建模块。 由于光照,变形,遮挡和运动引起的外观变化较大,使其成为一个挑战[37,39]。 此外,实时响应速度在实际应用中也很重要[13,4,38]。

现代跟踪器可以大致分为两个分支。 第一个分支基于相关性过滤器,该过滤器通过利用循环相关性的属性并在傅里叶变换中执行操作来训练回归器。 它可以进行在线跟踪并同时有效地更新过滤器的权重。 初始版本在傅里叶域中进行,在跟踪领域中广泛使用[5,14]。 最近人们开始使用基于相关滤波器的方法使用深层特征来提高准确性,但在模型更新期间会极大地降低响应速度[10,7]。 方法的另一分支旨在使用非常强大的深度功能,并且不更新模型[13,4,35]。 但是,由于未使用领域特定信息,因此这些方法的性能始终不如基于相关过滤器的方法好。

在本文中,我们展示出了经过适当设计的离线训练的基于深度学习的跟踪器与基于最新的相关滤波器的方法对比的竞争性结果,其关键是孪生区域网络(Siamese-RPN)。 它由模板分支和检测分支组成,它们以端到端的方式通过大规模图像对进行离线训练。 受最新建议提取方法RPN [27]的启发,我们在相关特征图上执行特征提取。 与标准RPN不同,我们使用两个分支的相关特征图进行特征提取。 在跟踪任务中,我们没有预定义的类别,因此我们需要模板分支将目标的外观信息编码到RPN功能图中,以区分前景与背景。

为了进行推断,我们将其公式化为本地单发检测框架,其中第一帧中的边界框是唯一的示例。我们将模板分支重新化为参数,以将检测内核预测为元学习器,例如[2]。 仅在RPN的监督下,元学习器和检测分支都接受了端到端的培训。

通过修剪模板分支以加快在线跟踪过程中初始帧之后的速度,据目前所知,这是将在线跟踪任务表述为一次性检测的第一项工作。

在我们对VOT2015,VOT2016和VOT2017实时挑战中评估提出的方法中,它可以在所有三个挑战中取得领先的性能。 我们不在线进行微调就可以获得最新结果的主要原因主要有两个。 首先,我们的方法可以通过图像对进行离线训练,这可以利用大规模的训练数据,例如Youtube-BB [25]。 研究表明,更多的数据可以帮助获得更好的性能。 其次,我们发现区域特征网络通常可以预测提议的准确规模和比率,以得到紧凑的边界框,如图1所示。

贡献可以概括为三个方面。 1)我们提出了孪生区域网络(Siamese RPN),该网络是经过端到端训练的离线操作得到的具有用于跟踪任务的大型图像对。 2)。 在在线跟踪过程中,所提出的框架被公式化为本地的单发检测任务,可以完善该算法以放弃昂贵的多尺度测试。 3)它以160 FPS的速度在VOT2015,VOT2016和VOT2017实时挑战中实现了领先的性能,证明了其在准确性和效率上的优势。

相关工作

由于本文的主要贡献是将孪生RPN制定为本地一键式检测任务,因此,我们简要回顾了与我们工作相关的三个方面:基于孪生网络结构的跟踪算法,用于检测的RPN和一键式学习。

2.1基于孪生网络结构的跟踪算法

孪生网络由两个分支组成,这些分支将原始面片隐式编码到另一个空间,然后将它们与特定矢量融合在一起以产生单个输出。通常用于比较隐式嵌入空间中两个分支的功能,尤其是对比任务。 近来,孪生网络以其无与伦比的准确性和速度[13,12,4,4,35,36]在视觉跟踪领域引起了极大的关注。 GOTURN [13]采用孪生网络作为特征提取器,并使用完全连接的层作为融合张量。 通过将最后一帧中的预测边界框用作唯一建议,可以将其视为一种回归方法。 Re3 [12]使用循环网络来获得由模板分支产生的更好的功能。 受到基于相关方法的启发,Siamese-FC [4]首先引入了相关层作为融合张量,并极大地提高了准确性。 与GOTURN的一项提案回归相比,它获得成功的原因是受严格监督的热图,这使Siamese-FC对快速移动的对象更具鲁棒性。 CFNet [35]在模板分支上增加了相关过滤器,使孪生网络更浅但效率更高。

但是,Siamese-FC和CFNet都没有边界框回归,因此需要进行多尺度测试,这使得它不太美观。 这些实时跟踪器的主要缺点是,与最新的相关滤波器方法相比,它们的准确性和鲁棒性不太令人满意。

2.2 RPN检测

区域特征网络(RPN)最早是在Faster R-CNN中提出的[27]。 在RPN之前,传统的提案提取方法非常耗时。 例如,选择性搜索[34]需要2秒来处理一张图像。 顺便说一句,这些建议还不足以被发现。

多个锚点[27]的枚举和共享卷积特征使提案提取方法既高效又实用。 由于对前景背景分类和边界框回归的监督,RPN能够提取更精确的建议。 使用RPN的Faster R-CNN有几种变体。 R-FCN [6]考虑了组件的位置信息,而FPN [21]使用功能金字塔网络来提高微小物体检测的性能。 与两级检测器相比,RPN的改进版本,例如SSD [22]和YOLO9000 [26]是比较高效的检测器。 RPN由于其速度快和性能卓越而在检测中具有许多成功的应用,但是,它尚未被完全利用来进行跟踪。

2.3 一键式学习

近年来,深度学习中的单发学习主题越来越受到关注。 贝叶斯基于统计学的方法和元学习方法是解决该问题的两种主要方法。 在[20]中,对象类别由概率模型表示,并且在推理阶段采用贝叶斯估计。 换句话说,元学习方法旨在获得学习学习的能力,也就是说,意识到并控制自己的学习。 具体来说,[1]利用神经网络来预测反向传播过程中目标网络的梯度。 [30]学习了一个网络,该网络将一个标记的小型支持集和一个未标记的示例映射到其标记。 尽管这些基于元学习的方法取得了可喜的成绩,但是这些方法经常在分类任务上进行评估,并且很少扩展到跟踪任务。 Learnet [2]是利用元学习方法解决跟踪任务的第一项工作,该任务从单个示例预测瞳孔网络的参数。 但是,李尔网的性能在基于现代DCF的方法(例如,基于DFS的方法)中没有竞争力,而CCOT拥有多个基准。

孪生-RPN框架

在本节中,我们将详细描述拟议的Siamese-RPN框架。 如图2所示,提出的框架由用于特征提取的孪生子网络和用于目标检测的区域特征子网络组成。 具体来说,RPN子网工作中有两个分支,一个分支负责前景-背景分类,另一个分支用于提案优化。 包含目标对象的图像补丁被馈送到所提议的框架中,并且整个系统被端到端地训练。

3.1 孪生特征提取子网

在暹罗网络中,我们采用了完全卷积的网络,而无需填充。 令Ltau;表示平移运算符(Ltau;x)[u] = x [utau;],然后除去所有填充以满足步长为k的完全卷积的定义:h(Lktau;x) = Ltau;h(x)

在这里,我们使用经过修改的AlexNet [18],其中conv2和conv4中的组被删除了[4]。孪生特征提取子网由两个分支组成。 一种称为模板分支,它在历史帧中接收目标补丁作为输入(表示为z)。 另一个称为检测分支,该分支接收当前帧中的目标色块作为输入(表示为x)。 两个分支在CNN中共享参数,因此两个补丁由适合于后续任务的相同转换隐式编码。 为方便起见,我们将ϕ(z)和ϕ(x)表示为暹罗子网的输出特征图。

3.2 区域提案子网

区域提议子网由成对相关部分和监管部分组成。 监督部分有两个分支,一个分支用于前台背景分类,另一个分支用于建议书注册。 如果有k个锚点,则网络需要输出2k个通道进行分类,并输出4k个通道进行回归。

因此,成对相关部分首先将con(z)的信道增加到两个分支[ϕ(z)] cls和[ϕ(z)] reg的两个分支,它们分别在通道中有2k和4k次 层。 two(x)还通过两个卷积层分为两个分支[ϕ(x)] cls和[ϕ(x)] reg,但保持通道不变。 [ϕ(z)]以“组”的方式用作[ϕ(x)]的相关核,也就是说,[ϕ(z)]的组中的信道号与 [ϕ(x)]的总频道数。 在分类分支和回归分支上都计算相关性:

A cls

wtimes;htimes;2k = [ϕ(x)]cls ⋆ [ϕ(z)]cls

A reg

wtimes;htimes;4k = [ϕ(x)]reg ⋆ [ϕ(z)]reg

模板特征图[ϕ(z)] cls和[ϕ(z)] reg被用作内核,⋆表示卷积运算。 如图2所示,Acls wtimes;htimes;2k中表示为(〜w,h,〜:)的每个点包含一个2k通道向量,表示每个锚在原始位置上对应位置的负向激活和正向激活 地图。 采用Softmax损失来监督分类分支。 同样,表示为(ww,h,circ; :)的A reg wtimes;htimes;4k中的每个点都包含一个4k通道向量,该向量表示dx,dy,dw,dh,用于测量锚点和相应地面之间的距离。

当用几个锚点训练网络时,我们采用了Faster R-CNN [27]中使用的损失函数。分类损失是交叉熵损失,我们采用具有标准化坐标的平滑L1损失进行回归。 设Ax,Ay,Aw,Ah表示锚点框的中心点和形状,并让Tx,Ty,Tw,Th表示地线实点框的点和归一化距离为:

delta;[0] = Tx Ax Aw

, delta;[1] = Ty Ay Ah delta;[2] = ln TwAw

, delta;[3] = ln Th Ah

然后他们经历了平稳的L1损失,可以写成下面的:smoothL1 (x, sigma;) = (0.5sigma;2x2, |x| lt; 1sigma;2 |x| minus; 12sigma;2 , |x| ge; 1sigma;2

最后我们优化损失函数:loss = Lcls lambda;Lreg

其中lambda;是超参数以平衡两个部分。 Lcls是交叉熵损失,Lreg是:Lreg = X3i=0

smoothL1(delta;[i], sigma;)

3.3 训练阶段:端到端训练孪生RPN

在训练阶段,从ILSVRC [29]中随机抽取样本对,并从Youtube-BB [25]中连续抽取样本对。 从同一视频的两个帧中提取模板和检测补丁。 在使用Imagenet对暹罗子网进行预训练之后,我们使用随机梯度下降(SGD)端对端训练孪生RPN。 由于需要训练回归分支,因此包括仿射变换在内的一些数据扩充被采用。

我们注意到,在跟踪任务中选择的锚点比在检测任务中选择的锚点少,这是因为我们注意到两个相邻帧中的同一对象变化不大。 因此,仅采用具有不同锚定比率的一个比例,并且我们采用的锚定比率为[0.33,0.5,1,2,3]。

在我们建议的框架中,选择正向和负向训练样本的策略也很重要。 在这里采用在对象检测任务中使用的标准,我们将IoU与两个阈值thhi和thlo一起用作度量。 正样本定义为锚点,其中IoUgt; thhi及其相应的地面真实性。 负的定义为IoU lt;thlo。 我们将thlo设置为0.3,并将thhi设置为0.6。 我们还限制了一对训练中最多16个阳性样本和总共64个样本。

一键式跟踪检测

在本小节中,我们首先将跟踪任务表述为本地单发检测任务。 然后,对这种解释下的推理阶段进行了详细分析,并简化了程序以加快速度。 最后,介绍了一些特定的策略以使该框架适合于跟踪任务。

4.1 公式化

我们将单发检测视为判别任务,如[2]中所述。 其目的是找到最小化预测函数psi;(x; W)的平均损失L的参数W。 它是在n个样本xi和对应的标签ℓi的数据集上计算的:min W 1n Xni=1 L(psi;(xi; W), ℓi)taset of n samples xi and corresponding labels ℓi:

与上面相同,让z表示模板补丁,x表示检测补丁,函数ϕ表示孪生特征提取子网,函数zeta;表示区域提案子网,则可以将单次检测任务的公式表示为 :W 1n Xni=1L(zeta;(ϕ(xi; W); ϕ(zi; W)), ℓi)

现在,我们可以将孪生子网中的模板分支重新解释为训练参数,以预测本地检测任务的内核,这通常是学习过程。 在这种解释中,模板分支用于将类别信息嵌入到内核中,而检测分支则使用嵌入的信息执行检测。 在训练阶段,除成对智能边界框监督外,优化学习者不需要任何其他监督。 在推理阶段,仅对孪生框架进行修剪,只保留初始帧以外的检测分支,从而提高了速度。

第一帧的目标补丁被发送到模板分支,并且检测内核已预先计算,以便我们可以在其他帧中执行一次检测。 由于局部检测任务仅基于模板在初始帧上给出的类别信息,因此可以将其视为一次性检测。

4.2 推理阶段:执行一次检测

在第二节。,我们将模板分支的输出视为本地检测的内核。 这两个内核都在初始

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239587],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。