用于实时跟踪的互补学习器外文翻译资料

 2022-01-11 09:01

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


Staple:用于实时跟踪的互补学习器

Figure1: 有时候颜色分布不足以区分目标和背景。相反的,依赖于对象空间配置的模板模型(如HOG特征),当空间配置快速变化时,其性能很差。我们的跟踪器staple可以同时依靠基于模板和基于颜色的模型的优势。比如DSST跟踪器,它的性能不受非特别颜色改变的影响。比如DAT跟踪器,它对快速形变的鲁棒性较好。

摘要

基于相关滤波的跟踪器在近年取得了优异的性能,对于运动模糊和光照变化这种极具挑战的环境显示出了优秀的鲁棒性。然而,由于他们学习的模型很大程度上依赖于被跟踪对象的空间布局,众所周知地,他们会对形变敏感。基于颜色统计的模型具有互补的特点:它们能很好地处理形状上的变化,但当光照在整个序列中不一致时,它们就会受到影响。此外,仅凭颜色分布没有足够的区分度。在这篇文章中,我们展示了一个应用在岭回归框架中结合了互补测略的 简单的跟踪器,可以运行速度超过80帧/秒,不仅在流行的VOT14比赛中超过所有参赛项目,甚至优于基于其他各种基准的近期的或是更先进的跟踪器。

介绍

我们考虑广泛采用的短期单目标跟踪场景,其中目标仅在第一帧中指定(使用一个矩形)。短时场景意味着不需要重新检测。在视频中跟踪一个不熟悉的物体的关键挑战是对其外观的变化具有鲁棒性。跟踪不熟悉的、训练样本不能提前获得的目标很有趣,因为在许多情况下,获取这样的数据集是不可行的。该算法对于需要实时性的计算密集的应用例如机器人、监控、视屏处理、增强显示等很有优势。

由于一个对象的外观在视频中可能会有很大的变化,因此单独从第一帧估计其模型并使用这个单一的、固定的模型在所有其他帧中定位该对象通常是无效的。因此,大多数先进的算法都根据后期帧中的信息来自适应模型。最简单、最广泛的方法是将跟踪器在新帧中的预测视为用于更新模型的训练数据。从预测中学习的危险在于,小的错误可能累积并导致模型漂移。当对象的外观发生变化时,这种情况尤其可能发生。

在本文中,我们提出Staple跟踪器(模板和像素加和的学习器),结合了对互补因素敏感的两种图像补丁表示形式,来学习一种固有的对颜色变化和变形都具有鲁棒性的模型。为了保证实时速度,我们利用每个代表的固有结构解决了两个独立的脊回归问题。与其他融合多个模型预测的算法相比,我们的跟踪器在密集采样搜索中结合了两个模型的得分,从而提高了准确性。这两种模型的一个关键特性是,它们的分数在大小和可靠性方面都是相似的,所以预测结果由更可信的一方主导。

我们得到了一个令人惊讶的结果:一个简单的相关过滤器(使用HOG特征)和一个全局颜色直方图的组合在多个基准测试中表现优于许多更复杂的跟踪器,同时运行速度超过80帧每秒。

2.相关工作

在线学习和相关滤波。现代的自适应跟踪方法通常使用一个在线版本的对象检测算法。一种取得较好的效果,公式简洁的方法是Struck,Struck寻求最小化的本地结构化输出目标。然而,所需的计算量限制了它的性能和训练样本的数量。

相反,相关滤波器最小化了所有循环移位得到的正样本的最小二乘损失。虽然这个可能看起来似乎是真正问题的一个较弱的近似值,但是它可以使用密集采样以及实时地在傅里叶域使用图像的高维特征。最初由Bolme et al将自适应跟踪器应用在灰度图像中,并将其扩展到多个通道特征,因此,HOG特征的应用使得该方法在VOT14比赛中取得很好的效果。这个比赛的获胜者(VOT)DSST,结合了一个一维相关滤波器的用于尺度空间跟踪的多尺度模板。相关滤波器的一个不足之处在于,它们只能从所有的循环移位中(学习跟踪器)。最近的一些研究在试图解决这个问题,特别是SRDCF方法已经取得了卓越的跟踪结果。然而这是以牺牲实时性为代价而取得的结果。

对形变的鲁棒性。相关滤波器固有地局限于刚性模板的学习问题。当目标在序列中经历形状变形时,这是一个值得关注的问题。也许对变形具有鲁棒性的最简单的方法是采用对形状变化不敏感的表示法。图像直方图具有此属性,因为它们丢弃了每个像素的位置信息。事实上,直方图可以被认为是正交于相关滤波器的,因为相关滤波器是从循环移位中学习的,而直方图对循环移位是不变的。然而,仅凭直方图往往不足以区分目标与背景。颜色直方图只是在早期的目标跟踪方法中被经常使用,直到最近被用在基于现代基准的DAT跟踪器上才被证明是有竞争力的,DAT使用了自适应阈值和显式抑制具有相似的颜色的区域。一般来说,直方图可以由任意离散值特征构造,包括局部二值模式和量化的颜色。为了使直方图对变形具有鲁棒性,特征必须对出现的局部变化不敏感。实现对变形的鲁棒性的主要替代方法是学习可变形模型。我们认为从一个视频中学习一个变形模型是很有野心的,在这个变形模型中,唯一的监督就是第一帧的位置,因此我们采用了一个简单的边界框。虽然我们的理论表现的效果要由于基准库中最近的基于复杂模型部件的理论,但是可变形的模型据有更丰富的表现形式,而这是这些评估标准所不能体现的优点。我们的单模板跟踪器可以被认为是用于构建器件模型的组件。HoughTrack和PixelTrack不使用可变形的模型,而是从每个像素累积选票,然后使用获胜位置投票的像素来估计对象的范围。然而这些方法在基准库(benchmark)中还没有表现出卓越的性能。

减少模型漂移的方案。模型漂移是从不准确的预测中学习的结果。有几项研究的目的是通过修改训练策略来防止偏差,而不是改善预测测略。TLD和PROST基于光流和不变的外观的原则编码额外的监督规则。MILTrack使用多示例学习方法来训练大量的正样本。Supanci ˇ c 和Ramanan提出了用于跟踪的自主学习方法:它们在保持外观模型的前提下求解最优轨迹,然后使用最置信的帧更新模型,然后重复。Grabner 等人将跟踪视为在线半监督学习提升问题,其中,在第一帧中学习的分类器为后面帧中分配给示例的标签提供了一个锚。Tang等人将共同训练应用于跟踪,学习两个使用不同特征的独立SVM,然后从综合得分中获得结果。在这些方法中,目前的基准测试中只找到了MILTrack和TLD两种方法,并且两种方法的结果都不理想。

结合多个估计器。另一种被广泛采用的减少不准确预测的策略是将一组方法的估计值结合起来,这样跟踪器的弱点就可以得到相应的补偿。在文献27,28中,Kwon等人使用互补的基本跟踪器,然后把它们的估计值整合到抽样框架中。同样的,文献38使用隐马尔科夫乘子结合了五个独立的跟踪器,对目标轨迹和每个跟踪器的可靠时间进行建模。而不是使用不同类型的跟踪器,MEEM(多熵最小化)跟踪器维护过去模型的集合并根据熵准则选择其中一个模型的预测。我们与这些方法的不同之处在于:a) 我们的两个模型都是在一个共同的框架中学习的(具体地说是脊回归);b)这使我们能够在密集搜索中直接结合这两个模型的得分。

结合重新检测的长期跟踪。最近的一些研究针对长期跟踪问题采用了相关滤波器,通过对目标的重新检测,该算法的性能将大大提高。LCT(长期相关跟踪)增加了一个标准的相关滤波跟踪器,增加了额外的用于评估置信度的相关滤波器和一个用于重新检测的随机森林,它们都只在可信的帧中更新。MUSTer跟踪器使用关键点匹配和MLESAC定位目标,并保持对目标背景的筛选关键点的长期记忆长期记忆的置信度是用离群值的个数来估计的,遮挡可以通过考虑矩形内背景关键点的个数来确定。由于我们主要考虑的是短期跟踪基准,而这些长期跟踪器是建立在短期跟踪器基础上的元算法,因此没有什么比较价值。请注意,TLD和自定步长学习算法也包含了一些非常适合用于长期跟踪问题的特点。

3.提出的方法

3.1公式和动机

我们使用检测跟踪的例子,在第t帧中,矩形给出了目标在图像中的位置,而是属于矩形框集合并且使得分最大的一个矩形框:

. (1)

函数T是一个图像变换函数,这样就表示在参数为时图像x中矩形窗口为p的得分。这个模型的参数()应该被选择为可以使的损失函数最小化的值,损失函数值的大小依赖于当前图像以及目标在这些图象集合中的位置:

. (2)

模型参数空间记为Q。我们使用正则项R(theta;)和相对权重lambda;限制模型复杂性以及过拟合。目标在第一帧中的位置p1已经给出。为了实现实时跟踪,函数f和L不仅需要能可靠、精确地计算目标的位置,还要保证公式(1)(2)可以被高效地计算出来。

我们提出了一个将模板分数和直方图分数线性结合的公式:

(3)

模板得分函数是一个关于图像K通道特征的线性函数:, 由x,定义为::

(4)

在这里,权向量h是另一个K通道的图像。颜色直方图的得分由一个M通道的特征图像计算而来,,由x的定义为 :

(5)

不同于模板函数得分,直方图得分的特征图像的空间排列不变,即 成立。我们采用平均(向量值)特征像素的线性函数,也可以解释为一个标量分数图像的平均值

(6)

(7)

为了实现对密集滑动窗口搜索中的分数函数的高效求值,两个特征的转换都满足很重要。这不仅意味着可以通过共享重叠窗口计算特征,还意味着可以使用快速卷积定理计算模板分数,并且可以使用单个积分图像获得直方图分数。如果直方图权向量beta;或特性像素psi;(u)是稀疏的,则还可以进一步加速计算。

因为系数,和可以认为隐含在中,所以整个模型的参数表示为。将用于优化选择参数的损失假设为每幅图像损失的加权线性组合:

(8)

理想的情况下,在整个图像上的损失函数应该是以下形式:

(9)

其中,d(p,q)定义为当矩形框选择为q,而正确的矩形框是p时的代价。尽管这个函数是非凸的,但是结构化输出学习可用于优化该问题,而这正是Struck的基础。然而,优化问题的计算成本很高,限制了可以使用的特征和样本的数量。相比之下,相关滤波,使用了更简单的最小平方误差,但是考虑了高维图像的循环位移从而可以从相当大量的样本中学习。(这需要特性转换的属性)这种方法在保证高帧率的同时,在跟踪基准库上取得了很好的结果。

图2:模板相关。在第t帧,在估计的位置pt提取的用HOG特征表示的训练块被用来更新式21模型的分母和分子。在第t 1帧,测试数据的特征块儿在上一帧图像的预测位置pt周围被提取,并和式(4)的卷积而获得模板的密集响应。直方图相关。在第t帧,前景和背景区域(相对于估计位置)被用来更新式(26)中每种颜色直方图的频率和。这些频率使我们可以计算更新的权重。在第t 1帧,在以前一帧目标位置为中心的搜寻区域计算每个像素的得分,然后利用式(7)的积分图像高效地计算密集直方图响应。利用式(3)得到最终响应,目标的新的估计位置pt 1在其峰值处。上述方法在彩色图中效果更好。

乍一看,将与区分开来似乎有悖直觉,事实上,当的一个特例:对于所有的u 时是合理的。然而,这样的统一模板不可能从循环移位中学到,因为使用统一模板得到的分数对于循环移位是不变的。因此,直方图分数可以理解为捕获到了在考虑循环移位时丢失了的目标外观。

为了保持相关滤波器的速度和有效性,并且不忽略直方图分数可以捕捉到的排列不变的信息,我们提出通过解决两个独立的岭回归问题来学习我们的模型:

(10)

利用相关滤波公式可以快速得到参数h。虽然beta;的维度可能低于h, 但是由于它不能通过循环移位来学习,因此需要对一般矩阵而不是循环矩阵进行逆运算,它可能仍然需求更大的运算量。参数beta;的快速求解方法将在稍后的章节提出。

最后,我们取两个分数的凸组合,使, ,是一个在验证集上选择的参数。我们希望优化这两个得分函数的参数,使目标的得分为1,其他窗口得分为0,使得两个score的大小是兼容的,使线性组合有效。图2是整个学习和评估过程的可视化表示

3.2 在线最小二乘优化

采用最小二乘损失和二次正则化方法的两个优点是可以在封闭形式下得到解,并且内存需求不随实例的增加而增加。如果损失函数 是得分函数f(x;)的凸二次函数,得分函数对模型参数是线性的保持凸性,存在一个矩阵和一个向量,满足如下式子:

(11)

不管的大小,这些足以确定解。如果我们采用递归方法定义损失函数:

(12)

使用自适应的学习率,我们可以简化为:

全文共11918字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[1695]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。