Speeded-UpRobustFeatures(SURF)外文翻译资料-外文翻译网

英语原文共 14 页

Speeded-UpRobustFeatures(SURF)

摘要

本文提出了一种新的尺度和旋转不变检测器和描述符，称为SURF(加速的健壮特性)。SURF在可重复性、独特性和鲁棒性方面接近甚至优于以前提出的方案，还可以更快地计算和比较。

这是通过依赖积分图像进行图像卷积实现的;利用现有主要检测器和描述符的优势(具体地说，为检测器使用基于黑森矩阵的度量和基于分布的描述符);并将这些方法简化为基本的。这就需要结合新的检测、描述和匹配步骤。

本文对探测器和描述符进行了详细的描述，并探讨了最重要参数的影响。最后，我们将SURF应用于两个具有挑战性但又相反的目标:作为图像配准的特殊情况的相机校准和对象识别。我们的实验强调SURF在计算机视觉的广泛主题中的实用性。

关键词:兴趣点，局部特征，特征描述，摄像机标定，目标识别

1.介绍

在许多计算机视觉应用中，寻找同一对象的两幅图像之间的点对应关系是其中的一部分。图像处理、摄像校准、目标识别和图像检索只是其中的一些。

离散图像点对应的搜索可分为三个主要步骤。首先，“兴趣点”被选择在图像中不同的位置，如角、斑点和t形连接。兴趣点检测器最有价值的特性是它的可重复性。重复性表示了探测器在不同观测条件下寻找相同物理兴趣点的可靠性。然后，用特征向量表示每个兴趣点的邻域。这个描述符必须是独特的，同时鲁棒的噪声，检测位移和几何和光度变形。最后，在不同的图像之间匹配描述符向量。匹配是基于距离之间的向量。马氏距离。描述符的维数直接影响所需的时间，对于快速兴趣点匹配，需要更少的维数。然而，低维特征向量通常没有高维特征向量那么明显。

我们的目标一直是开发一种探测器和描述符，与最先进的探测器相比，它既能快速计算，又不会牺牲性能。为了成功，我们必须在上面的需求之间取得平衡，比如简化检测方案同时保持它的精确性，以及在保持描述符足够独特的同时减小描述符的大小。

文献中已经提出了各种各样的检测器和描述符(例如[21,24,27,37,39,25])。此外，还对基准数据集进行了详细的比较和评估[28,30,31]。我们的快速检测器和描述符SURF(加速的健壮特性)在[4]中引入。它是建立在从以前的工作中获得的洞察力。在我们对这些基准数据集的实验中，SURF的检测器和描述符不仅速度更快，而且前者更具有可重复性，后者更有特色。

我们主要研究尺度和平面内旋转不变量检测器和描述符。这些特征的复杂性和对常见变形的鲁棒性之间似乎存在着妥协。倾斜、各向异性缩放和透视效果被认为是一种有序的效果，在某种程度上被描述符的整体鲁棒性所覆盖。注意，描述符可以使用椭圆的仿射标准化扩展到仿射不变区域(参见[31])，尽管这会影响计算时间。另一方面，扩展检测器就不那么直接了。对于光度形变，我们假设一个简单的线性模型，它具有偏置(偏置)和对比(尺度因子)。检测器和描述符都不使用颜色信息。

在第3节中，我们描述了用于快速鲁棒兴趣点检测的策略。对输入图像进行不同尺度的分析，以保证尺度变化的不变性。在第4节中，检测到的兴趣点具有旋转和比例不变的描述符。在此基础上，提出了一种基于兴趣点与周围环境对比的简单高效的第一线索引方法。

在第5节中，讨论了一些可用的参数及其影响，包括垂直版本的好处(不受图像旋转的影响)。我们还研究了SURF在两个重要应用程序场景中的性能。首先，我们考虑了一个特殊的图像配准问题，即用于三维重建的摄像机标定问题。其次，我们将探讨SURF在物体识别实验中的应用。与其他策略相比，这两个应用程序都突出了SURF在速度和健壮性方面的优势。本文在第6节中结束。

2.相关工作

2.1.兴趣点检测

最广泛使用的探测器可能是1988年提出的Harriscorner探测器[15]。它基于二阶矩矩阵的特征值。然而，哈里斯角并不是尺度不变的。Lindeberg[21]引入了自动比例尺选择的概念。这允许检测图像中的兴趣点，每个兴趣点都有自己的特征尺度。他用黑森矩阵的行列式和拉普拉斯矩阵(与黑森矩阵的迹相对应)进行实验，以检测类团结构。Mikolajczyk和Schmid[26]改进了这种方法，创建了健壮的、具有高重复性的尺度不变的特征检测器，他们创造了哈里斯拉普拉斯和黑辛拉普拉斯。他们使用(尺度适应)哈里斯测度或黑森矩阵的行列式要选择位置，而拉普拉斯要选择比例尺。针对速度问题，Lowe[23]提出了一种利用高斯滤波器差分近似高斯拉普拉斯方程(LoG)的方法。

还提出了其他几种尺度不变的兴趣点检测器。例如Kadir和Brady[17]提出的显著区域检测器，它使区域内的熵最大化;Jurie和Schmid[16]提出的基于边缘的区域检测器。不过，它们似乎不那么容易加速。此外，还提出了几种能够适应更大视点变化的仿射不变量特征检测器。但是，这些超出了本文的范围。

通过对现有检测器的研究和已发表的比较[29,30]，我们可以得出基于黑森体的检测器比基于Harris的检测器更稳定，重复性更好。此外，使用黑森矩阵的行列式而不是它的迹(拉普拉斯矩阵)似乎是有利的，因为它对拉长的、非局部化的结构触发较少。我们还观察到，像DOG这样的近似可以以较低的代价带来速度，而损失的精度。

2.2.兴趣点描述

提出了更多种类的特征描述符，如高斯导数[11]、矩不变量[32]、复杂特征[1,36]、可控制滤波器[12]、基于相位的局部特征[6]以及表示感兴趣点邻域内小尺度特征分布的描述符。由Lowe[24]推出的后者已被证明优于其他[28]。这可以解释为，它们捕获了大量关于空间强度模式的信息，同时对小的变形或本地化错误具有很强的鲁棒性。[24]中的描述符，简称SIFT，计算兴趣点周围的局部方向梯度直方图，并将这些桶存储在128维向量中(每个4times;4个位置桶对应8个方向桶)。

对这一基本方案提出了各种改进意见。Keand Sukthankar[18]对感兴趣点周围的梯度图像进行PCA处理。这种ca -SIFT产生了一个36维的描述符，匹配速度很快，但在Mikolajczyk[30]的第二次比较研究中，它被证明没有SIFT那么明显;应用PCA降低了特征计算的速度。在同一篇论文[30]中，作者提出了SIFT的一种变体GLOH，这种变体在相同维度的情况下更加独特。但是，GLOH的计算开销更大，因为它再次使用PCA进行数据压缩。

SIFT描述符似乎仍然是实际应用中最有吸引力的描述符，因此也是目前使用最广泛的描述符。它是独特的，相对较快，这是至关重要的在线应用程序。最近，Se等人在现场可编程门阵列(FPGA)上实现了SIFT，并将其速度提高了一个数量级。同时，Grabner等人的[14]也使用积分图像来近似SIFT。它们的检测步骤是基于均值差(不插补)，描述步骤是基于积分直方图。它们的速度与我们差不多(尽管描述步骤的速度是恒定的)，但是与SIFT相比，它们的质量降低了。通常，描述符的高维性是SIFT在匹配步骤上的一个缺点。对于仅依赖普通PC的在线应用程序，三个步骤(检测、描述、匹配)中的每一步都必须快速。

加快匹配步骤的整个工作体都是可用的。所有这些都是以获得近似匹配为代价的。方法包括由Lowe[24]、balltrees[35]、vocabulary tree[34]、locality sensitive hash[9]或冗余位向量[13]提出的最佳方法。作为补充，我们建议使用海森矩阵的跟踪来显著提高匹配速度。再加上描述符的低维性，任何匹配算法都必然会执行得更快。

3.兴趣点检测

我们的兴趣点检测方法使用一个非常基本的黑森矩阵近似。这有助于使用维奥拉和琼斯[41]流行的积分图像，这大大减少了计算时间。正如Simard等人提出的[38]，整体图像适合于更一般的框架。

3.1.积分图像

为了使文章更完整，我们简要讨论了积分图像的概念。它们允许快速计算盒型卷积滤波器。ISigma;积分图像的条目在一个位置(x) x = (x, y) gt;表示输入图像中的像素的总和我一个矩形区域内形成的起源和x。

一旦积分图像被计算出来，它需要三个加法来计算任意垂直矩形区域的强度之和(见图1)，因此，计算时间与其大小无关。这在我们的方法中很重要，因为我们使用大的过滤器大小。

3.2.基于黑森矩阵的兴趣点

我们的探测器基于黑森矩阵，因为它具有良好的精度性能。更精确地说，我们在行列式最大的位置检测类团结构。与Mikolajczyk和Schmid[26]的海森拉普拉斯检测器相比，我们依赖于行列式。

图1所示。使用积分图像，只需三次加法和四次内存访问，就可以计算任意大小的矩形区域内的强度之和。

对黑森也进行了比例尺的选择，如由Lindeberg[21]所做的。

给定一个点x = (x, y)在一个图片我,海赛矩阵H (x,sigma;)在x规模sigma;定义如下

起立(x,sigma;)的卷积是高斯二阶导数part;2 x2part;g(sigma;)的图像我点x,和同样Lxy (x,sigma;)和Lyy (x,sigma;)。

Gaussians对于尺度空间分析是最优的[19,20]，但实际上它们必须被离散化和裁剪(图2的左半部分)。这将导致损失在重复性图像旋转周围奇怪的pi;4的倍数。这种弱点一般适用于基于黑森体的探测器。图3显示了基于黑森矩阵的两个检测器对纯图像旋转的重复率。周围的重复性达到最大pi;2的倍数。这是由于方形形状的过滤器。尽管如此，检测器的性能仍然很好，性能的轻微下降并不会抵消离散化和裁剪带来的快速卷积的优点。过滤器是一样真实理想在任何情况下,鉴于劳的成功与他的对数近似,我们进一步推动海赛矩阵的近似与盒子过滤器(正确的图2)的一半。这些近似二阶高斯衍生品和可以评估使用积分图像计算成本非常低。因此，计算时间与滤波器的大小无关。从结果部分和图3中可以看出，该方法的性能优于离散化和裁剪后的高斯方法。

图2所示。从左到右:(离散化和裁剪)高斯二阶偏导数y- (Lyy)和xy方向(Lxy);二阶高斯偏导数在y- (Dyy)和xy方向上的近似。灰色区域等于0。

图2.从左到右：分别为y-（Lyy）和xy-方向（Lxy）的（离散和裁剪）高斯二阶偏导数; 我们对y-（Dyy）和xy-方向（Dxy）中的二阶高斯偏导数的近似。灰色区域等于零。

9times;9箱过滤器如图2所示的近似高斯sigma;= 1.2和代表的最低规模(即最高空间分辨率)计算blob响应地图。我们用Dxx, Dyy和Dxy来表示它们。为了提高计算效率，矩形区域的权重保持简单。这个收益率

利用滤波器响应的相对权重w来平衡黑森行列式的表达式。这是高斯核与近似高斯核之间能量守恒所需要的，

其中|x|F是Frobenius范数。请注意，对于理论正确性，权重随比例的变化而变化。在实践中，我们保持这个因子不变，因为这对我们的实验结果没有显著影响。

此外，滤波器响应的大小是标准化的。这保证了对于任何过滤器大小都有一个恒定的Frobenius范数，这是下一节讨论的尺度空间分析的一个重要方面。

hessian的近似行列式表示图像中x位置处的blob响应。这些响应存储在不同尺度的blob响应映射中，检测局部极大值，如3.4节所述。

图3所示。顶部:图像旋转180度以上的重复性评分。基于hessian探测器一般重复性较低分数为角度不均匀pi;4的倍数。下图:所使用的梵高序列的样本图像。Fast-Hessian是我们的检测器(FH-15)的更精确的版本，如3.3节所述。

3.3.尺度空间表示

兴趣点需要在不同的范围内找到，尤其是因为搜索通信经常需要他们在不同尺度的图像中进行比较。尺度空间通常被实现为一个图像金字塔。为了达到金字塔的更高层次，对图像反复进行高斯平滑，然后进行子采样。为了得到狗的图像(高斯分布的不同)，Lowe[24]减去了这些金字塔层，在那里可以找到边缘和斑点。

由于使用盒子过滤器和积分图像,我们不需要迭代应用相同的滤波器的输出之前过滤层,而是可以应用框过滤器的大小完全相同的速度直接在原始图像上甚至在平行(尽管后者这里没有剥削)。因此，通过放大过滤器大小来分析尺度空间，而不是迭代地减小图像大小，如图4所示。9times;9的输出滤波器,介绍了在前面的小节中,被认为是初始规模层,我们将参考规模s = 1.2(近似高斯导数sigma;= 1.2)。考虑到积分图像的离散性和滤波器的具体结构，对掩模逐渐变大的图像进行滤波，得到以下几层。

注意，我们使用这种类型的抽样的主要动机是它的计算效率。此外，由于我们不必向下采样图像，没有混叠。不利的一面是，盒形滤波器保留了高频成分，这些成分可能会在同一场景的缩小变体中丢失，从而限制了尺度不变性。然而，这在我们的实验中并不明显。

图4所示。不是迭代地减小图像大小(左)，使用整数图像允许以不变的代价放大过滤器(右)。

尺度空间被划分为八度。一个八度代表一系列的滤波器响应映射，这些响应映射是通过将相同的输入图像与一个不断增大的滤波器进行卷积而得到的。总的来说，一个八度音阶包含一个2的比例因子(这意味着需要将滤波器的大小增加一倍以上，见下文)。每个八度被细分为一个恒定的音阶级。由于积分图像的离散特性,最小规模l0区别2随后尺度取决于长度的积极或消极的叶局部二阶导数推导的方向(x或y),将滤波器尺寸长度的三分之一。对于9times;9滤波器，这个长度l0是3。对于连续两个级别，我们必须将这个大小增加至少2个像素(onepixeloneveryside)，以保持大小不均匀，从而确保中心像素的存在。这导致掩模大小增加了6个像素(参见图5)。请注意，对于不同于l0的尺寸(例如图5中垂直过滤器的中心带的宽度)，重新缩放掩模会导致四舍五入错误。然而，由于这些误差通常比l0小得多，这是一个可接受的近似。

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

Speeded-UpRobustFeatures(SURF)外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章