英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

连体区域提案网络的高性能视觉跟踪

摘要

近年来，视觉对象跟踪一直是一个基本的课题，许多基于深度学习的跟踪系统已经在多个基准上实现了最先进的性能。但是，大多数这些跟踪系统几乎无法在拥有实时响应速度的前提下获得最佳性能。在本文中，我们提出了孪生区域网络（Siamese-RPN），这是一个具有大规模图像对的端到端受训离线的网络。具体来说，它由用特征提取的孪生子网络和包括分类分支和回归分支的区域建议子网络组成。在推论阶段，我们提出的框架被制定为一个局部的一次性检测任务。我们可以预先计算暹罗子网的模板分支，并将相关层公式化为琐碎的卷积层来执行在线跟踪。受益于提案的改进，可以放弃传统的多尺度测试和在线微调。 Siamese-RPN以160 FPS的速度运行，同时在VOT2015，VOT2016和VOT2017实时挑战中取得领先的性能结果。

简介

视觉对象跟踪是计算机视觉各种任务（例如自动驾驶[19]和视频监视[32]）中的基本构建模块。由于光照，变形，遮挡和运动引起的外观变化较大，使其成为一个挑战[37，39]。此外，实时响应速度在实际应用中也很重要[13，4，38]。

现代跟踪器可以大致分为两个分支。第一个分支基于相关性过滤器，该过滤器通过利用循环相关性的属性并在傅里叶变换中执行操作来训练回归器。它可以进行在线跟踪并同时有效地更新过滤器的权重。初始版本在傅里叶域中进行，在跟踪领域中广泛使用[5，14]。最近人们开始使用基于相关滤波器的方法使用深层特征来提高准确性，但在模型更新期间会极大地降低响应速度[10，7]。方法的另一分支旨在使用非常强大的深度功能，并且不更新模型[13，4，35]。但是，由于未使用领域特定信息，因此这些方法的性能始终不如基于相关过滤器的方法好。

在本文中，我们展示出了经过适当设计的离线训练的基于深度学习的跟踪器与基于最新的相关滤波器的方法对比的竞争性结果，其关键是孪生区域网络（Siamese-RPN）。它由模板分支和检测分支组成，它们以端到端的方式通过大规模图像对进行离线训练。受最新建议提取方法RPN [27]的启发，我们在相关特征图上执行特征提取。与标准RPN不同，我们使用两个分支的相关特征图进行特征提取。在跟踪任务中，我们没有预定义的类别，因此我们需要模板分支将目标的外观信息编码到RPN功能图中，以区分前景与背景。

为了进行推断，我们将其公式化为本地单发检测框架，其中第一帧中的边界框是唯一的示例。我们将模板分支重新化为参数，以将检测内核预测为元学习器，例如[2]。仅在RPN的监督下，元学习器和检测分支都接受了端到端的培训。

通过修剪模板分支以加快在线跟踪过程中初始帧之后的速度，据目前所知，这是将在线跟踪任务表述为一次性检测的第一项工作。

在我们对VOT2015，VOT2016和VOT2017实时挑战中评估提出的方法中，它可以在所有三个挑战中取得领先的性能。我们不在线进行微调就可以获得最新结果的主要原因主要有两个。首先，我们的方法可以通过图像对进行离线训练，这可以利用大规模的训练数据，例如Youtube-BB [25]。研究表明，更多的数据可以帮助获得更好的性能。其次，我们发现区域特征网络通常可以预测提议的准确规模和比率，以得到紧凑的边界框，如图1所示。

贡献可以概括为三个方面。 1）我们提出了孪生区域网络（Siamese RPN），该网络是经过端到端训练的离线操作得到的具有用于跟踪任务的大型图像对。 2）。在在线跟踪过程中，所提出的框架被公式化为本地的单发检测任务，可以完善该算法以放弃昂贵的多尺度测试。 3）它以160 FPS的速度在VOT2015，VOT2016和VOT2017实时挑战中实现了领先的性能，证明了其在准确性和效率上的优势。

孪生-RPN框架

在本节中，我们将详细描述拟议的Siamese-RPN框架。如图2所示，提出的框架由用于特征提取的孪生子网络和用于目标检测的区域特征子网络组成。具体来说，RPN子网工作中有两个分支，一个分支负责前景-背景分类，另一个分支用于提案优化。包含目标对象的图像补丁被馈送到所提议的框架中，并且整个系统被端到端地训练。

3.1 孪生特征提取子网

在暹罗网络中，我们采用了完全卷积的网络，而无需填充。令Ltau;表示平移运算符（Ltau;x）[u] = x [utau;]，然后除去所有填充以满足步长为k的完全卷积的定义：h(Lktau;x) = Ltau;h(x)

在这里，我们使用经过修改的AlexNet [18]，其中conv2和conv4中的组被删除了[4]。孪生特征提取子网由两个分支组成。一种称为模板分支，它在历史帧中接收目标补丁作为输入（表示为z）。另一个称为检测分支，该分支接收当前帧中的目标色块作为输入（表示为x）。两个分支在CNN中共享参数，因此两个补丁由适合于后续任务的相同转换隐式编码。为方便起见，我们将ϕ（z）和ϕ（x）表示为暹罗子网的输出特征图。

3.2 区域提案子网

区域提议子网由成对相关部分和监管部分组成。监督部分有两个分支，一个分支用于前台背景分类，另一个分支用于建议书注册。如果有k个锚点，则网络需要输出2k个通道进行分类，并输出4k个通道进行回归。

因此，成对相关部分首先将con（z）的信道增加到两个分支[ϕ（z）] cls和[ϕ（z）] reg的两个分支，它们分别在通道中有2k和4k次层。 two（x）还通过两个卷积层分为两个分支[ϕ（x）] cls和[ϕ（x）] reg，但保持通道不变。 [ϕ（z）]以“组”的方式用作[ϕ（x）]的相关核，也就是说，[ϕ（z）]的组中的信道号与 [ϕ（x）]的总频道数。在分类分支和回归分支上都计算相关性：

A cls

wtimes;htimes;2k = [ϕ(x)]cls ⋆ [ϕ(z)]cls

A reg

wtimes;htimes;4k = [ϕ(x)]reg ⋆ [ϕ(z)]reg

模板特征图[ϕ（z）] cls和[ϕ（z）] reg被用作内核，⋆表示卷积运算。如图2所示，Acls wtimes;htimes;2k中表示为（〜w，h，〜:)的每个点包含一个2k通道向量，表示每个锚在原始位置上对应位置的负向激活和正向激活地图。采用Softmax损失来监督分类分支。同样，表示为（ww，h，circ; :)的A reg wtimes;htimes;4k中的每个点都包含一个4k通道向量，该向量表示dx，dy，dw，dh，用于测量锚点和相应地面之间的距离。

当用几个锚点训练网络时，我们采用了Faster R-CNN [27]中使用的损失函数。分类损失是交叉熵损失，我们采用具有标准化坐标的平滑L1损失进行回归。设Ax，Ay，Aw，Ah表示锚点框的中心点和形状，并让Tx，Ty，Tw，Th表示地线实点框的点和归一化距离为：

delta;[0] = Tx Ax Aw

, delta;[1] = Ty Ay Ah delta;[2] = ln TwAw

, delta;[3] = ln Th Ah

然后他们经历了平稳的L1损失，可以写成下面的：smoothL1 (x, sigma;) = (0.5sigma;2x2, |x| lt; 1sigma;2 |x| minus; 12sigma;2 , |x| ge; 1sigma;2

最后我们优化损失函数：loss = Lcls lambda;Lreg

其中lambda;是超参数以平衡两个部分。 Lcls是交叉熵损失，Lreg是：Lreg = X3i=0

smoothL1(delta;[i], sigma;)

3.3 训练阶段：端到端训练孪生RPN

在训练阶段，从ILSVRC [29]中随机抽取样本对，并从Youtube-BB [25]中连续抽取样本对。从同一视频的两个帧中提取模板和检测补丁。在使用Imagenet对暹罗子网进行预训练之后，我们使用随机梯度下降（SGD）端对端训练孪生RPN。由于需要训练回归分支，因此包括仿射变换在内的一些数据扩充被采用。

我们注意到，在跟踪任务中选择的锚点比在检测任务中选择的锚点少，这是因为我们注意到两个相邻帧中的同一对象变化不大。因此，仅采用具有不同锚定比率的一个比例，并且我们采用的锚定比率为[0.33，0.5，1，2，3]。

在我们建议的框架中，选择正向和负向训练样本的策略也很重要。在这里采用在对象检测任务中使用的标准，我们将IoU与两个阈值thhi和thlo一起用作度量。正样本定义为锚点，其中IoUgt; thhi及其相应的地面真实性。负的定义为IoU lt;thlo。我们将thlo设置为0.3，并将thhi设置为0.6。我们还限制了一对训练中最多16个阳性样本和总共64个样本。

一键式跟踪检测

在本小节中，我们首先将跟踪任务表述为本地单发检测任务。然后，对这种解释下的推理阶段进行了详细分析，并简化了程序以加快速度。最后，介绍了一些特定的策略以使该框架适合于跟踪任务。

4.1 公式化

我们将单发检测视为判别任务，如[2]中所述。其目的是找到最小化预测函数psi;（x; W）的平均损失L的参数W。它是在n个样本xi和对应的标签ℓi的数据集上计算的：min W 1n Xni=1 L(psi;(xi; W), ℓi)taset of n samples xi and corresponding labels ℓi:

与上面相同，让z表示模板补丁，x表示检测补丁，函数ϕ表示孪生特征提取子网，函数zeta;表示区域提案子网，则可以将单次检测任务的公式表示为：W 1n Xni=1L(zeta;(ϕ(xi; W); ϕ(zi; W)), ℓi)

现在，我们可以将孪生子网中的模板分支重新解释为训练参数，以预测本地检测任务的内核，这通常是学习过程。在这种解释中，模板分支用于将类别信息嵌入到内核中，而检测分支则使用嵌入的信息执行检测。在训练阶段，除成对智能边界框监督外，优化学习者不需要任何其他监督。在推理阶段，仅对孪生框架进行修剪，只保留初始帧以外的检测分支，从而提高了速度。

第一帧的目标补丁被发送到模板分支，并且检测内核已预先计算，以便我们可以在其他帧中执行一次检测。由于局部检测任务仅基于模板在初始帧上给出的类别信息，因此可以将其视为一次性检测。

4.2 推理阶段：执行一次检测

在第二节。，我们将模板分支的输出视为本地检测的内核。这两个内核都在初始

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[239587]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

连体区域提案网络的高性能视觉跟踪外文翻译资料

连体区域提案网络的高性能视觉跟踪

简介

相关工作

2.1基于孪生网络结构的跟踪算法

2.2 RPN检测

2.3 一键式学习

孪生-RPN框架

3.1 孪生特征提取子网

3.2 区域提案子网

3.3 训练阶段：端到端训练孪生RPN

一键式跟踪检测

4.1 公式化

4.2 推理阶段：执行一次检测

您可能感兴趣的文章

登录

连体区域提案网络的高性能视觉跟踪

简介

相关工作

2.1基于孪生网络结构的跟踪算法

2.2 RPN检测

2.3 一键式学习

孪生-RPN框架

3.1 孪生特征提取子网

3.2 区域提案子网

3.3 训练阶段：端到端训练孪生RPN

一键式跟踪检测

4.1 公式化

4.2 推理阶段：执行一次检测

您可能感兴趣的文章