多特征融合的尺度自适应核相关滤波器外文翻译资料

 2022-08-09 10:08

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


多特征融合的尺度自适应核相关滤波器

杨力和朱建科(B)

浙江大学计算机科学学院,浙江杭州

jkzhu@zju.edu.cn

摘要:虽然基于相关滤波器的跟踪器在准确性和鲁棒性上均取得很好的成绩,但仍然需要提高整体跟踪能力。在本文中,我们提出了一种基于相关过滤器框架的非常强大的跟踪器。为了解决内核相关滤波器跟踪器中模板大小固定的问题,我们提出了一种有效的尺度自适应方案。此外,将HoG特征和颜色特征融合在一起,进一步提高了整体跟踪性能。在基准视频和VOT 2014数据集的广泛实验评估表明,我们所提出的跟踪器对于各种挑战性场景都有很好的前景。我们的方法成功地跟踪了约72%视频中的目标,并在基准数据集上的51个序列上胜过了最新的跟踪器。

关键字:视觉跟踪,相关滤波器,内核学习

1.介绍:

视频目标跟踪应用于视频监控,机器人技术,人机交互和无人驾驶车辆,视频目标跟踪成为了计算机视觉界的基础研究问题之一。虽然在过去的十年中该领域取得了长足的进步,但是由于视频中光照变化,几何变形,局部遮挡,快速运动和背景混乱的问题,无模型跟踪仍然是一个棘手的问题。

近来,相关滤波器被引入视频跟踪领域,它已经被应用在许多应用中[2] [10] [13] [27]。如卷积定理中所述,时域的相关性对应于傅立叶域中的逐元素乘法。因此,相关滤波器的内在思想是可以在傅立叶域中计算相关性,以避免费时的卷积运算。同时,相关滤波器被视为信号处理中两个信号之间的相似性度量,从而给出了可靠的距离度量,并解释了先前方法实现有希望的性能的原因。Bolme等[7]和Henriques等[13]将相关滤波器引入跟踪应用。尽管相关滤波器已在准确性和鲁棒性上均取得了引人注目的结果,但是这些基于相关滤波器的跟踪器采用具有固定大小的模板,该模板无法处理目标的尺度变化。

在本文中,我们提出了一种具有多特征融合的新型尺度自适应核化相关滤波器。其所提出的方法通过多尺度搜索策略克服了常规相关滤波器跟踪器的局限性。为了解决目标跟踪中尺度变化的问题,我们对具有不同尺度的目标进行采样,然后将采样大小调整为固定大小以进行比较。每个帧都有学习模型。同时,我们采用了多特征融合方案,该方案利用原始像素,梯度直方图[9]和颜色特征[32]来进一步增强跟踪器,以应对更具挑战性的场景。我们的实验评估表明,与目前最先进的方法相比,我们所提出的尺度自适应和多特征融合方法可显着提高性能(超过10%)。此外,我们的方法在基准[33]中成功跟踪了序列中几乎72%的目标,总共跟踪了51个视频。

本文的主要贡献可归纳如下。首先,我们扩展了基于相关滤波器的跟踪器,使其具有处理尺度变化的能力,从而获得了高效的精度提升。其次,我们进行了广泛的实验,将以前基于相关滤波器的跟踪器[14] [4] [12]的研究与我们提出的包括多特征融合,尺度自适应方案和完整系统的方法进行了比较。这些实验揭示了关于现代跟踪-检测滤波器中不同组件重要性的重要线索。最后,我们所提出的跟踪器相对于最新的跟踪器在准确性和鲁棒性方面均取得了非常吸引人的性能。

2.相关工作

基于检测的跟踪器[11][1][16][34]由于其高性能和高效率而非常受欢迎。由于这些方法通常采用二进制分类器来区分被跟踪对象与背景,因此通常将其称为判别方法。Struck[11]是最具代表性的判别跟踪器之一,它使用结构化支持向量机(SVM)将目标的位置空间与训练样本直接关联。在最近的基准测试中[33],它达到了吸引人的的效果。TLD [16]通过使用提升分类器的采样策略来利用一组结构性约束。重新检测功能使TLD方法在具有挑战性的视频中更强大。受压缩感测技术启发,Zhang等人[34]用原始空间投影的压缩特征训练朴素贝叶斯分类器。 MIL[1]探索了使用增强型变体算法构造一袋阳性样本以构造跟踪器的想法。同时,基于生成模型的跟踪器[22][15][21][29][3][30][24]旨在建立度量模型以搜索最相似的补丁以获取被跟踪的对象。SCM [36]结合了判别式分类器和生成模型,以实现高精度和鲁棒性。然而,它涉及沉重的计算成本,这阻碍了其在实时应用中的能力。另外,一些跟踪器[5] [35]在场景中采用256个Y. Li和J. Zhu结构信息来增强跟踪性能,而其他[31]在对象跟踪任务中则采用了深度学习技术。

我们提出的方法与基于相关滤波器的跟踪器[14][4][12][7][6]密切相关,后者在传统的信号处理技术中将相关滤波器用于跟踪应用。提出了CSK [12]来探索循环块的结构,以通过增加负样本来增强分类器,它利用核相关滤波器来实现高效率。基于CSK [12],KCF [14]采用HoG特征[9]而不是原始像素来提高跟踪器的准确性和鲁棒性。为了进一步提高CSK跟踪器的性能,Danelljan等人[4]在对象跟踪任务中采用颜色特征功能,这对于颜色对象是一个强大的功能[17][19][18]。同时,MOSSE [7]从学习滤波器的角度提出了问题。

3.追踪器

在本节中,我们首先回顾内核相关滤波器(KCF)[14],然后介绍了我们的方法中使用的强大功能。此外,提出了一种尺度自适应方案来改进基于相关滤波器的跟踪器。

3.1 KCF

我们的方法建立在KCF跟踪器[14]上,该跟踪器在Visual Tracker Benchmark [33]上取得了令人印象深刻的结果。尽管KCF的思想非常简单,但它却在最近表现最好的跟踪器中实现了最快和最高的性能。KCF跟踪器的关键是利用负样本的增加来增强检测器跟踪的判别能力,同时探索循环矩阵的结构以提高效率。在下面,我们简要回顾一下KCF跟踪器的主要思想[14]。

在KCF [14]中,Henriques等人假设基本样本的循环移位版本能够在基本样本上近似密集样本。 假设我们有一维数据,则x的循环移位为。实验表明,这种假设在大多数情况下都是合理的。 因此,所有循环移位视觉样本被串联起来形成数据矩阵。由于数据矩阵是纯粹由x的循环移位生成的,因此称为循环矩阵。 它具有一个有趣的特性[28],它可以将所有循环矩阵表示如下:

(1)

其中F称为DFT矩阵,它将数据转换为傅立叶域,而是的Hermitian转置。循环矩阵的分解可用于简化线性回归的求解。线性岭回归的目标函数可以表述为:

(2)

函数f可以写成基本样本的线性组合:。 岭回归具有近似形式的解: 。代入公式1,我们得到其中表示x的DFT,表示的复共轭。与普遍方法相比,该解决方案节省了显式提取补丁和解决一般回归问题的计算成本[14]。在非线性回归的情况下,内核技巧,用于适应更强大的分类器。对于最常用的内核函数,还可以使用循环矩阵技巧[14]。对偶空间系数alpha;可以如下学习:

(3)

在[14]中,被定义为内核相关性。与线性情况类似,在傅立叶域中学习对偶系数。对于内核函数平等对待数据的每个维度的情况,这种推论是有效的[14]。 在本文中,我们采用了可以应用于循环矩阵技巧的高斯核,如下所示:

(4)

由于该算法仅需要点积和DFT/IDFT,因此计算成本为O(nlogn)时间。训练标签y是高斯函数,它从中心目标的值1平稳衰减到其他移位的值零。由于零表示负样本,因此需要扩大原始目标边界框以包含负样本。在本文中,我们使用尺寸比其原始目标框大2.5倍的窗口进行训练。尽管循环移位在原始帧上丢失了很多信息,但是分类器获得了密集样本以更精确地拟合模型。

循环矩阵技巧也可以应用于检测,以加快整个过程。 将下一帧中相同位置的补丁z视为基础样本,以计算傅立叶域中的响应:

(5)

其中x表示要在模型中学习的数据。当我们将f(z)转换回空间域时,关于最大响应的平移被视为被跟踪目标的运动。运动模型暗示搜索范围是基本补丁的窗口大小。尽管整个模型遵循逐个检测跟踪的方案,但是在此过程中只有两个样本,它们都位于最后一帧和当前帧中的同一位置。直观上,它更像傅立叶域中的相似性度量。另外,Bolme等[7]对整个过程给出了另一种解释。有关更详细的表述,请参阅[14][7]。

3.2多特征融合

由于内核相关函数仅需要计算点积和矢量范数,因此可以将多个通道应用于图像特征。 假设将数据表示的多个通道串联到向量中,等式4可以重写如下:

(6)

这使我们可以使用更强大的功能,而不是原始的灰度像素。此外,我们可以利用各种强大的功能来利用特征融合的优势。我们提议的跟踪器使用了三种类型的功能。除了原始图像的原始灰度像素外,我们在视觉任务中还采用了两种常用功能。

梯度直方图(HoG)是视觉社区中最受欢迎的视觉功能之一,因为它在实际应用中非常有效,并且可以非常有效地进行计算。 该功能从像元范围内的像元中提取梯度信息。 HoG计算离散方向以形成直方图。与[9]中一样,我们在方法中采用了31个梯度定向箱变体。

颜色命名或颜色属性是一个透视空间,它是人类为描述颜色而分配的语言颜色标签。 彩色标签空间中的距离比RGB空间更好,更类似于人类的感觉。为了在其他视觉任务(如对象识别,对象检测和动作识别)中取得可喜的成果[17] [19] [18],我们采用[32]中所述的映射方法将RGB空间转换为颜色名称空间,这是11维颜色表示。颜色特征提供对目标颜色的感知,通常包含有关目标的重要信息。

3.3多尺度核相关滤波器

如第3.1节所述,整个过程非常简单。而且,KCF无法处理视频的尺度变化。为此,我们提出了一种尺度自适应方法,以使幼稚的相关滤波器跟踪器能够处理尺度变化。

在3.1节中,搜索策略隐含在内核相关滤波器中。我们采用双线性插值法将图像表示空间从可数整数空间扩展到不可数浮点空间。我们将模板大小固定为,并定义缩放比例池。 假设目标窗口大小在原始图像空间中为。 对于当前帧,我们在中采样k个大小以找到合适的目标。请注意,内核相关函数中的点积需要固定大小的数据矩阵。在本文中,我们使用双线性插值将样本的大小调整为固定的模板大小,最终响应由下式计算:

(7)

其中是大小为的样本补丁,其大小调整为。由于响应函数获得一个矢量,因此采用最大响应操作来找到其最大标量。由于目标运动隐含在响应图中,因此最终位移需要调整t以获得真实的运动偏差。

请注意,所有模板均设定为相同大小。因此,更新过程很简单。有两组系数应更新。一个是对偶空间系数alpha;,另一个是基本数据模板,如[14]中所示,我们将新滤波器与旧滤波器线性组合,如下所示:

(8)

其中是要更新的模板。利用尺度自适应方案,我们所提出的跟踪器能够处理尺寸变化。总体算法总结为算法1。

图1 算法流程

4.实验

我们进行了三个实验,以评估我们提出的跟踪器的功效。首先,我们实现了三个具有各种设置的跟踪器,包括“多功能跟踪器”(MF),“比例自适应跟踪器”(SA)和拟议的“多特征融合的尺度自适应跟踪器”(SAMF)。我们将它们与其他基于相关过滤器的跟踪器进行比较。其次,我们根据最新的跟踪器对我们提出的跟踪器进行评估,以表明我们提出的SAMF跟踪器的有效性。此外,我们讲解了对VOT 2014数据集的详细评估。

4.1实验装置与方法

我们通过本机Matlab实现了提出的跟踪器,没有进行优化。所有实验均在具有16 GB内存的Intel i5-760 CPU(2.80 GHz)PC上进行。我们提出的SAMF跟踪器的运行速度约为7 fps。高斯函数中使用的sigma;设置为0.5。HOG的单元尺寸是4times;4,并且HOG的取向槽数是9。学习率theta;被设置为0.01。我们使用缩放池S = {0.985,0.99,0.995,1.0,1.005,1.01,1.015}。以下所有实验的所有参数均相同。

在所有实验中,使用了两个评估标准。第一个是平均中心位置误差(CLE)。CLE是跟踪结果的中心与地面真实情况之间的差异,其中较小的值表示更准确的结果。第二个标准是VOC重叠率(VOR)[8]。它定义为,其中是跟踪边界框,而是地面真值边界框,值越大表示结果越准确。

为了对所提出的方法进行综合评估,我们在前两个实验中采用了基准[33]中的整个51个视频序列。此外,我们在包含25个序列的VOT 2014数据集上运行了本文的跟踪器。在VOT 2014挑战赛中,准确性是通过VOR得分来衡量的,健壮性指示序列中跟踪器的失败时间。

4.2相关滤波器的比较

为了评估我们提出的多特征融合的尺度自适应核相关滤波器的性能增益,我们在基准[33]上运行了六个跟踪器,包括SAMF,MF,SA,KCF,CN和CSK。所有这些跟踪器都利用循环矩阵或核相关滤波器。表1总结了这些跟踪器的区别。图2显示了这些跟踪器的CEL曲线和VOR曲线。尽管他们的想法非常相似,但跟踪性能却大不相同。这表明视觉特征和搜索策略对于视觉跟踪任务至关重要。CSK仅使用原始像素,其原始像素在比较的跟踪器中排名最低。CN同时采用颜色名称和原始像素作为特征,并对CSK进行了一些改进。MF通过增加颜色信息和原始像素的特征空间来胜过KCF。如VOR曲线所示,SA在精度显示方面获得了很大的提高。但是,鲁棒性在CEL曲线中下降。这表明扩大搜索范围将导致局部最大值的问题。通过利用融合功能和提出的比例自适应方案,SAMF跟踪器在VOR和CEL指标上均达到了最佳性。

表1六种追踪器的比较

我们的实验结果表

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239525],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。