学习不变特征变换外文翻译资料

 2022-04-26 10:04

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


学习不变特征变换

摘要:本文介绍了一种实现全特征点处理管道的深网络结构,即检测、定位估计和特征描述。尽管以前的工作已经成功地分别解决了这些问题中的每一个问题,但我们展示了如何在保持端到端可微性的同时,以一种统一的方式学习所有这三个问题。然后我们证明我们的深管道在许多基准数据集上的性能超过了最新的方法,而不需要再培训。

关键词:局部特征、特征描述符、深度学习

1导言

局部特性在许多计算机视觉应用中发挥着关键作用。在图像中找到并匹配它们一直是许多研究的主题。直到现在,最好的技术都依赖于精心制作的特性[1,2,3,4,5]。在过去的几年里,就像在计算机视觉的许多领域一样,基于机器学习的方法和更具特色的深入学习已经开始超过这些传统的方法。

然而,这些新算法只处理整个处理链中的一个步骤,其中包括检测特性、计算它们的方向以及提取允许我们跨图像匹配它们的鲁棒表示。在本文中,我们介绍了一个新的深度建筑,执行所有三个步骤一起。我们证明了它比最先进的方法获得了更好的整体性能,这在很大程度上是因为它允许优化这些单独的步骤,使它们能够很好地协同工作。

我们的体系结构,我们称之为LIFT来学习不变特征变换,如图1所示。它由三个相互作用的组件组成:检测器、方向估计器和描述符。每一个都是基于卷积神经网络(cnns),并模仿最近的[6,9,10]已经被证明能够很好地执行这些独立的功能的一个。为了将它们连接在一起,我们使用空间变压器[11]根据检测器和方向估计器的输出校正图像补丁。

前两位作者贡献相等。这项工作得到了欧盟fp7项目麦哲伦的部分支持,赠款号码为ict-fp7-611526。

图1.我们的集成特征提取管道。我们的管道由三个主要组成部分:探测器、方向估计器和描述符。他们被捆绑在一起,与可直接操作以保持端到端的直接操作

我们也用软argmax函数[12]取代传统的非局部最大抑制方法。这使我们能够保持端到端的可变性,并最终形成一个完整的网络,它仍然可以通过反向传播进行训练,而我们所知道的任何其他体系结构都不是这样。

另外,我们还将展示如何以每一种方式学习这样的管道为了达到这个目的,我们建立了一个暹罗网,并使用结构-运动(sfm)算法产生的特征点对它进行训练,我们用这种算法在不同的观点和光照条件下捕捉到的场景的图像来学习其权重。我们将该训练问题归结为在连续尺度下提取的图像补丁,以使其优化易于处理。在实践中,我们发现不可能从头开始对整个体系结构进行培训,因为每个组件都试图优化以达到终极目标。相反,我们引入了一种针对具体问题的学习方法来解决这个问题。它首先包括训练描述符,然后将其用于训练方向估计器,并根据已经学习的描述器和方向估计器训练检测器,通过整个网络训练。在测试时,我们将探测器与只处理关键点的方向估计器和描述符解耦,探测器在尺度空间中覆盖整个图像。

在下一节中,我们将讨论早期的方法。然后,我们详细地展示我们的方法,并表明它比许多先进的方法表现出色。

2项相关工作

与局部特征相关的文献数量是巨大的,但它总是围绕特征点的确定、其方向的计算和匹配而展开,因此,我们将在本节中分别讨论这三个要素。

2.1特征点探测器

特征点检测的研究主要集中在可以可靠地估计其规模和旋转的特定位置。早期的工作使用图像信号的高阶近似来找到图像的角点。快速[15]使用机器学习技术,但只能加快寻找角的过程。除角点外,[1]筛选检测尺度空间中的斑点;surf[2]使用Haar加速过程;最大稳定极值区域(MSER)[16]检测区域;检测区域sfop[18]使用连接和斑点,边缘焦点使用边缘来对照明变化的鲁棒性。最近,还提出了基于更复杂和更精心设计的特征点响应的特征点,以进一步提高特征点探测器的性能.

与这些专注于更好的工程的方法相反,在早期尝试学习探测器[21,22],[6]的过程中发现,可以通过一种检测器来提供比最先进的性能更好的信号在这项工作中,我们学习了在光照和季节变化的情况下,对特征点进行精确检测,遗憾的是,这只是为了一个单一的规模,并且是从没有观点变化的数据集进行的。因此,我们从它那里汲取了灵感,但为了将其纳入到我们的管道中,我们必须对它进行实质性的扩展。

2.2方向估计
尽管它在特征点匹配中起着关键的作用,但是判别方向的估计问题比检测或特征描述受到的关注要少得多。因此,[1]SIFT引入的方法在微小的改进之前仍然是事实上的标准,例如,它可以通过使用强度质心(例如球体)来扩展。

最近的一篇论文[9]提出了一种基于深入学习的方法来预测稳定方向。这导致了对最新技术的改进。我们将这个体系结构整合到我们的流程中,并向您展示如何使用我们的问题专用培训策略来培训它。

2.3特征描述符

特征描述符旨在提供显著图像补丁的区别表示,同时对视图或照明变化等转换具有鲁棒性。随着sift[1](这是根据梯度方向的局部直方图计算的)和surf[2](这是使用整体图像表示来加速计算的)的引入,剩余部分达到成熟。沿着类似的路线,戴西[3[依赖于方向梯度的弯曲图来近似直方图,这在提取稠密描述符时会产生很大的计算增益。

尽管它们非常成功,但这些手工描述现在可以超越那些已经学会的新描述。从无监督散列到基于线性判别分析的监督学习技术[23,24]、遗传算法[25]和凸优化[26]。

图2我们的暹罗语训练结构有四个分支,作为四个补丁的输入:补丁p1和p2(blue)对应同一物理点的不同视图,并被用作训练描述符的正面例子;p3(green)显示出一个不同的3d点,作为描述的反面例子而p4(red)没有任何明显的特征点,只是作为训练探测器的一个反面例子。给定一个补丁p,检测器、软极值和空间互感器层作物都提供了一个较小的补丁P,然后将P输入到方向估计器,该定位估计器与空间互感器层一起提供由描述符处理的旋转补丁ptheta;,以获得描述向量d

一个更新的趋势是直接从原始图像补丁中提取特征,使用大量数据训练cnns。例如,matchnet[7]训练了一个siamesecnn用于特征表示,然后是一个完全连接的网络来学习比较度量。深度比较[8]表明,一个关注图像中心的网络可以提高性能。[27]的方法依靠一个类似的结构来为窄基线立体获得最新的结果。在[10]中,硬负采矿被用来学习在欧几里德距离上用来测量相似性的紧凑描述符。基于样本三胞胎的[28]算法挖掘硬底片。在本文中,我们依赖于[10]的架构,因为相应的描述符是经过训练的,并与欧几里德距离进行比较,而欧几里德距离比需要学习度量的描述符具有更广泛的适用性。

3方法

在这一节中,我们将首先根据图2所示的暹罗体系结构来构造整个特征检测和描述管道,接下来,我们将讨论培训网络所需的数据类型以及如何收集这些数据,然后我们详细地描述培训过程。

3.1问题的提出

我们使用图像补丁作为输入,而不是完整的图像。这使得学习可以在不丢失信息的情况下扩展,因为大多数图像区域不包含关键点。补丁是从sfm管道使用的关键点中提取的,将在第3.2节中讨论。我们认为它们足够小,我们可以假设它们在给定的范围内只包含一个占主导地位的局部特征,这就减少了学习过程中最显著的一点

为了训练我们的网络,我们创建了图2所示的四个分支的暹罗建筑。每个分支包含三个不同的cnn,一个检测器,一个方向估计器和一个描述符。为了训练的目的,我们使用四个图像补丁。每一个包含两个图像补丁p1和p2,它们对应同一3d点的视图,一个包含3d点的投影,和一个不包含任何特殊功能的图像补丁p4。在训练过程中,每一个四联体的第i补丁将通过第i个分支。

为了实现端到端的可支配性,每个分支的组成部分都像如下方式连接:

1.给定一个输入图像补丁p,检测器提供一个分数地图s.

2。我们执行一个软的argmax[12]在计分图S中,返回一个潜在特征点的位置X。

3.我们提取一个较小的P片中心X与空间变压器层作物(图2)。这可以作为方向估计器的输入。

4.方向估计器预测一个补丁方向。

5.我们使用第二个空间互感器层根据这个方向旋转P,在图2中被标记为旋转,以产生点Ptheta;

6.为描述符网络输入Ptheta;,该网络计算特征向量D。

请注意,空间互感器层仅用于操作图像补丁,同时保持可重复性。他们不是学习模块。另外,探测器提出的位置X和补丁方案的方向都是隐式处理的,这意味着我们让整个网络在学习过程中发现了独特的位置和稳定的方向

由于我们的网络是由各种不同的部件组成的,所以学习各种不同的分量我们早期尝试从头开始培训整个网络,但没有成功。因此,我们设计了一种针对具体问题的学习方法,包括学习描述符,然后是方向估计,给出了学习描述符,最后是检测器,它取决于另一个描述。这使我们可以为描述符调优方向估计器,并为其他两个组件调优检测器。

我们将在3.3(描述符),3.4(定向估计)和3.5(探测器)中详细说明这种学习策略,也就是按照他们学习的顺序。

3.2创建培训数据集

有一些数据集可以用来训练特性描述符[24]和方向估计器]9]。然而,目前还不清楚如何训练一个按键探测器,而且绝大多数技术仍然依赖于手工制作的功能。倾斜检测器[6]是一个例外,但是训练数据集没有显示任何观点变化。

为了达到不变性,我们需要在持续的照明条件下捕捉同一场景的图像,并从持续的透视视角来观察,因此我们转向了旅游图片集。

从皮卡迪利(左)罗马论坛(右)的图像和补丁样本。在sfm管道中存活下来的键点是蓝色的,其余的是红色的。

我们使用了伦敦的皮卡迪利马戏团和罗马的罗马论坛[29]的收藏,利用可视化的[30]重建了3d,它依赖于sift的特性。皮卡迪利马戏团包含了3384幅图像,重建中有59k的独特点,每个点的平均观测值为6.5。罗马论坛包含1658张图片和51K的独特点,每张平均5.2次观测。图3显示了一些例子。

我们将数据划分为培训和验证集,丢弃验证集上的培训点,反之亦然。为了建立正面的训练样本,我们只考虑在sfm重建过程中幸存下来的特征点。按照我们的训练方法的要求,为了提取不包含任何特殊特征点的补丁,我们随机抽取不包含筛分特征的图像区域,包括sfm没有使用的区域。

我们根据点的标度为特征和非特征点图像区域提取灰度,训练补丁p从这些位置上的一个24sigma;times;24sigma;支持区域提取,并标准化为stimes;s像素,其中s=128。作为方向估计器和描述符的输入的较小的补丁p和ptheta;被裁剪和旋转这些补丁的版本,每个补丁的大小为sxs,其中s=64。较小的补丁与筛选描述符的支持区域大小为12sigma;,为了避免对数据进行偏置,我们对20%(4.8sigma;)最后,我们用整个训练集的灰度平均值和标准偏差对补丁进行规范化。

3.3描述符

在过去的一年中,对原始图像补丁的学习特征描述符进行了广泛的研究[7,8,10,27,28,31],多项工作报告了补丁检索、窄基线立体和匹配非刚性变形方面令人印象深刻的结果。在这里,我们依靠相对简单的[10],有三个卷积层,然后是双曲切线单位,l2池[32]和本地减法标准化,因为它们不需要学习度量。

描述符可以被形式化为

(1)

h表示描述符cnn,rho;是它的参数,ptheta;是来自方向估计器的旋转补丁,在训练描述符时,我们还没有训练探测器和方向估计器。因此,我们使用sfm使用的特征点的位置和方向来生成图像补丁Ptheta;

我们通过最小化相应补丁对(,)的损失以及不对应补丁对()的损失总和来训练描述符。补丁对()的损失被定义为两个描述向量之间欧几里德距离的铰链嵌入损失。我们写如下公式:

(2)

来表示正样本和负样本,这里正样本和负样本是一对与相同物理3d点对应或不对应的补丁,丨丨 丨丨2是欧几里德距离,c=4是嵌入的边界。

我们在训练中使用硬挖掘,在[10]中显示了它对描述符性能的重要性。按照这种方法,我们转发kf样本对,并且只使用训练损失最大的kb对进行反向传播,其中r=kf/kbge;1,这是“采矿比率”。在[10]该网络在没有采矿的情况下进行了预先培训,然后与R=8进行了调整。在这里,我们使用一种越来越多的采矿方案,从r=1开始,每5000批的采矿比率翻一番。我们使用128对正对和128对负对的平衡批次,每一批单独挖掘。

3.4定向估计数

我们的定位估计是受到了[9]的启发。然而,这种特殊的方法需要对多个方向的描述向量进行预计算,以数值计算方法参数在方向方面的斜率。这对我们来说是一个关键的限制,因为我们在整个管道中隐式地处理检测器组件的输出,因此不可能预先计算描述向量。

因此,我们建议使用空间变压器[11]代替学习方向。给定探测器提出的区域的一个补丁P,方向估计器预测一个方向

theta; = g phi;(p) (3)

这里g表示方向估计数,phi;表示其参数

结合探测器的位置X和原始图像补丁p,再用第二空间变压器层使用theta;来提供一个补丁Ptheta;,它是补丁的旋转版本p。

我们训练方向估计,以提供方向,使描述向量之间的距离最小化,以便对相同的3d点进行深入观察。我们使用已经训练的描述符来计算描述向量,并且由于检测器还没有训练,我们使用sfm的图

全文共16195字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13244],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。