来自局部尺度不变特性的对象识别外文翻译资料

 2022-07-22 12:07

Object Recognition from Local Scale-Invariant Features

David G. Lowe

Computer Science Department

University of British Columbia

Vancouver, B.C., V6T 1Z4, Canada

Abstract

An object recognition system has been developed that uses a new class of local image features. The features are invariant to image scaling, translation, and rotation, and partially in-variant to illumination changes and affine or 3D projection. These features share similar properties with neurons in in-ferior temporal cortex that are used for object recognition in primate vision. Features are efficiently detected through a staged filtering approach that identifies stable points in scale space. Image keys are created that allow for local ge-ometric deformations by representing blurred image gradi-ents in multiple orientation planes and at multiple scales. The keys are used as input to a nearest-neighbor indexing method that identifies candidate object matches. Final veri-fication of each match is achieved by finding a low-residual least-squares solution for the unknown model parameters. Experimental results show that robust object recognition can be achieved in cluttered partially-occluded images with a computation time of under 2 seconds.

1. Introduction

Object recognition in cluttered real-world scenes requires local image features that are unaffected by nearby clutter or partial occlusion. The features must be at least partially invariant to illumination,3D projective transforms, and common object variations. On the other hand, the features must also be sufficiently distinctive to identify specific objects amongmanyalternatives. The difficulty of the object recognition problem is due in large part to the lack of success in finding such image features. However, recent research on the use of dense local features (e.g., Schmid amp; Mohr ) has shown that efficient recognition can often be achieved by using local image descriptors sampled at a large number of repeatable locations.

This paper presents a new method for image feature generationcalled theScale InvariantFeature Transform(SIFT).This approach transforms an image into a large collection of local feature vectors, each of which is invariant to image translation, scaling, and rotation, and partially invariant to

Illumination changes and affine or 3D projection. Previous approaches to local feature generation lacked invariance to scale and were more sensitive to projective distortion and illumination change. The SIFT features share a number of propertiesincommon withtheresponses ofneuronsininferior temporal (IT) cortex in primate vision. This paper also describes improved approaches to indexing and model verification.

The scale-invariant features are efficiently identified by using a staged filtering approach. The first stage identifies key locations in scale space by looking for locations that aremaxima orminimaofadifference-of-Gaussianfunction. Each pointisused togenerate a feature vectorthat describes The local imageregionsampledrelativetoitsscale-space coordinate frame. The features achieve partial invariance to local variations, such as affine or 3D projections, by blurring image gradient locations. This approach is based on a model of the behavior of complex cells in the cerebral cortex of mammalian vision. The resulting feature vectors are called SIFT keys. In the current implementation, each image generates ontheorderof 1000SIFT keys, a process that

requires less than 1 second of computation time. The SIFT keys derived from an image are used in a nearest-neighbour approach to indexing to identify candidate object models. Collections of keys that agree on a potentialmodel poseare first identifiedthrougha Houghtransformhashtable,andthenthroughaleast-squaresfit toafinal estimate of model parameters. When at least 3 keys agree on the model parameters with low residual, there is strong evidence for the presence of the object. Since there may be dozens of SIFT keys in the image of a typical object, it is possibleto have substantial levels of occlusion in the image and yet retain high levels of reliability. The current object models are represented as 2D locations of SIFT keys that can undergo affine projection. Sufficient variation in feature location is allowed to recognize perspective projection of planar shapes at up to a 60 degree rotationaway from the camera or to allowup to a 20 degree rotationof a 3D object.

2. Related research

Object recognition is widely used in the machine vision in-dustry for the purposes of inspection, registration, and ma-nipulation. However, current commercial systems for object recognition depend almost exclusively on correlation-based template matching. While very effective for certain engi-neered environments, where object pose and illumination are tightly controlled, template matching becomes computa-tionally infeasible when object rotation, scale, illumination, and 3D pose are allowed to vary, and even more so when dealing with partial visibility and large model databases.

An alternative to searching all image locations for matches is to extract features from the image that are at least partially invariant to the image formation process and matching only to those features. Many candidate feature types have been proposed and explored, including line seg-ments [6], groupings of edges [11, 14], and regions [2], among many other proposals. While these features have worked well for certain object classes, they are often not de-tected frequently enough or with sufficient stability to form a basis for reliable recognition.

There has been recent work on developing much denser collections of image features. One approach has been to use a corner detector (more accurately, a detector of peaks in local image variation) to identify repe

全文共21573字,剩余内容已隐藏,支付完成后下载完整资料


来自局部尺度不变特性的对象识别

大卫·g·劳

计算机科学系

英属哥伦比亚大学

温哥华公元前,V6T 1 z4,加拿大

摘要

已经开发了一种对象识别系统,它使用了一种新的本地图像特性。这些特性对于图像缩放、平移和旋转都是不变的,并且在一定程度上是对光照变化和仿射或3D投影的局部变化。这些特征与在灵长类动物视觉中用于物体识别的神经元具有相似的特性。通过一种分阶段的过滤方法来有效地检测特征,该方法可以识别尺度空间中的稳定点。图像键可以通过在多个方向平面和多个尺度上表示模糊的图像梯度,从而允许局部的图像变形。键被用来作为一个邻近的索引方法的输入,这个方法可以识别候选对象匹配。通过为未知模型参数寻找一个低残值最小二乘解,从而实现对每个匹配的最终验证。实验结果表明,在混乱的部分遮挡的图像中,在2秒的时间内可以实现鲁棒的目标识别。

1。介绍

在混乱的现实场景中,物体识别需要局部的图像特征,而不受附近的混乱或部分遮挡的影响。这些特征必须至少是对照明的部分不变性,三维投影变换,以及常见的物体变化。另一方面,这些特性也必须具有足够的特性,以识别许多其他选项中的特定对象。对象识别问题的困难很大程度上是由于在寻找这样的图像特征方面缺乏成功。然而,最近关于使用密集的本地特性的研究(例如:Schmidamp;Mohr)已经表明,通过在大量可重复的位置采样的局部图像描述符可以实现有效的识别。

摘要提出了一种新的图像特征生成方法,称为“尺度不变特征变换”(筛选)。这种方法将一个图像转换为大量的本地特征向量,每个特征向量都是不变的,包括图像转换、缩放和旋转,以及部分不变的

照明改变,仿射或3D投影。以前对局部特征生成的方法缺乏尺度的不变性,对投射失真和光照变化更敏感。这些筛选特征与灵长类动物视觉上的神经颞(IT)皮质的反应有许多共同之处。本文还介绍了索引和模型验证的改进方法。

使用分级过滤方法有效地识别了标不不变特性。第一阶段通过寻找aremaxima或最低限度的高ussianfunction的位置来确定规模空间中的关键位置。每个点都用来生成一个特征向量,用来描述本地的imageregionsampled相对论空间坐标框架。该特性通过模糊图像梯度位置,实现局部变量的局部不变性,如仿射或三维投影。这种方法是建立在哺乳动物视觉大脑皮层的复杂细胞行为模型的基础上的。产生的特征向量称为筛选键。在当前的实现中,每个图像生成了1000个筛选键的on理论上,一个过程只需要不到1秒的计算时间。从图像中获得的筛选键被用于接近相邻的索引来识别候选对象模型。在一个潜在的模型中,对一个潜在的模型的集合的集合,首先是通过一个houghtransformhashtable,然后通过对模型参数的估计。当至少3个键在模型参数上有较低的剩余时,有强有力的证据表明物体存在。由于在典型对象的图像中可能有几十个筛选键,因此在图像中有可能存在大量的遮挡,但仍然保持较高的可靠性。当前的对象模型被表示为可以接受仿射投影的二维位置。在特征位置上有足够的变化,可以识别平面形状的角度投影,在距离摄像机的60度旋转或允许一个三维物体旋转20度的情况下。

2。相关研究

摘要对象识别技术广泛应用于机器视觉,目的是为了检测、注册和控制。然而,目前用于对象识别的商业系统几乎完全依赖于基于相关性的模板匹配。对于某些特定的环境,当物体的摆姿和光照受到严格控制时,当对象旋转、缩放、光照和三维姿态被允许变化时,模板匹配在计算上是不可行的,甚至在处理局部可见性和大型模型数据库时更是如此。

寻找匹配的所有图像位置的另一种选择是从图像的图像中提取出至少部分不变性的图像,并且只匹配那些特征。许多候选特征类型已经被提议和探索,包括第6条、第11条、第14条和第2部分的分组,以及其他许多建议。虽然这些特性在某些对象类上运行良好,但它们常常不够频繁,或者具有足够的稳定性,从而形成可靠的识别基础。

最近有一项关于开发更密集的图像功能集合的工作。一种方法是使用角落探测器(更准确地说,是局部图像变化的峰值检测器)来识别可重复的图像定位,在这些地方可以测量局部的图像属性。张等23用哈里斯角探测器将不同视角拍摄的图像从不同的角度进行了定位。与其试图将一个图像与所有可能的区域相关联,而不是在第二个图像中与所有可能的区域相关联,在计算时间中,只有在每个图像中以角点为中心的匹配区域,才能节省大量的计算时间。

对于对象识别问题,Schmid和Schmid 19还使用了哈里斯角探测器来识别最重要的点,然后在每一个兴趣点上创建了一个局部图像描述符,从一个不确定的角度来测量。这些图像描述符通过查找满足基于对象的面向对象和位置约束的多个匹配描述符来实现健壮的对象识别。对于大型数据库的识别速度和处理杂乱图像的能力,这项工作令人印象深刻。

在前面的方法中使用的角探测器有一个重大的失败,那就是他们只检查一个图像的一个尺度。随着规模的变化变成了符号,这些探测器会对不同的图像点作出响应。而且,由于检测器没有提供对象尺度的指示,所以有必要创建图像描述符并尝试在大量的尺度上进行匹配。摘要本文提出了一种有效的识别尺度空间中稳定键位的方法。这意味着,不同的年龄的不同的缩放将不会对所选的关键位置产生影响。此外,对于每个点都确定了一个显式的尺度,这使得该点的图像描述向量可以在每个图像中以相等的尺度进行采样。在每个位置都确定了一个canonical的方位,这样就可以相对于一个一致的局部2D协调框架来进行比赛。这允许使用更独特的图像描述符,而不是Mohr和Schmid使用的旋转不变的描述符,而描述符则被进一步修改,以改善其对仿射投影和照明的变化。

其他的基于外观的识别的方法,包括特征空间匹配13,颜色直方图20,以及接受域直方图18。这些方法都已经在独立的对象或预分割的图像上得到了成功的演示,但是由于它们的全局特性,很难将它们扩展到杂乱和部分遮挡的图像。Ohba和Ikeuchi 15通过使用许多小的本地特征窗口成功地将特征空间方法应用于混乱的图像,但是这需要花费昂贵的搜索新图像中的每个窗口,就像模板匹配一样。

3。关键定位

我们希望识别图像尺度空间中的位置,在图像转换、缩放和旋转方面是不变的,并且受到噪声和小的干扰的影响最小。Lindeberg 8已经表明,在一些关于尺度不变性的普遍假设下,高斯-内尔和它的衍生品是唯一可能的平滑的空间分析。

为了实现旋转不变性和高水平的effi功能,我们选择了在尺度空间中应用的高斯函数和最小值的关键位置。这可以通过在每层之间进行重新采样来构建一个图像金字塔来非常有效地计算。此外,它还能在高度变化的区域和尺度上定位关键点,使这些位置在描述图像时特别稳定。克罗利和帕克4和林德伯格9以前在规模空间中使用过不同的高斯分布,用于其他目的。在下面,我们将描述一种特别有效和稳定的方法,用于检测和识别该函数的最大值和最小值。

由于二维高斯函数是可分离的,它与输入图像的卷积可以通过在水平方向和垂直方向上的两种一维高斯函数的应用来得到有效的计算。

对于关键的本地化,所有的平滑操作都是使用的,可以用一个带有7个采样点的一维内核来近似地完成。

他输入图像首先与高斯函数进行卷积,然后再用另一种增量的平滑方法来给出一个新的图像B,它现在有了一个有效的平滑度=2。通过将图像B从A中减去图像B的结果,得到高斯函数的差值,从而得到高斯函数的差值。

为了生成下一个金字塔层次,我们用双线性插值的方法对al-就绪图像B进行采样,每个方向的像素间距为1.5。虽然用相对尺度来重新取样似乎更自然,但唯一的限制是采样频率足够频繁,以达到峰值1.5的间隔意味着每一个新的样本将是4个相邻像素的常数线性组合。这是一项有效的计算方法,可以最小化由于更改采样系数而产生的混叠工件。

这个尺度空间函数的最大值和最小值通过将金字塔中的每个像素与它的邻居进行比较来消除。首先,将一个像素与它的8个邻居在金字塔的同一水平上进行比较。如果这是一个最大值或最小值,那么最接近的像素位置是在金字塔的下一个最低层计算的,考虑到1.5倍的重采样。如果像素比这个最近的像素和它的8个相邻的像素高(或更低),那么测试就会重复以上的级别。由于大多数像素将在几个比较中被使用,因此这个检测的成本很小,而且比建造金字塔的成本要低得多。

如果金字塔的第一个层次以与输入图像相同的速率采样,那么最高的空间频率将是ig-nored。这是由于最初的平滑,这是为了提供用于强健检测的峰值的分离。在此之前,我们在构建金字塔之前,将输入图像扩展为2倍,使用双林耳内插。这就给出了一个典型的512 512像素图像的1000个关键点的顺序,而在没有进行扩展的情况下,这一数字只有四分之一。

3.1。SIFT关键稳定

为了描述每一个关键位置的图像,在金字塔的每一个层次上处理平滑的图像,以提取图像的梯度和方向。在每一个像素上,Aij,年龄的梯度,Mij,以及方向,R,都是用像素的差异来做的:

像素的差异是计算的有效的,并且提供了足够的精度,这是由于先前平滑的程度。当确定关键位置时,有效的半像素位移是对的。

对光照变化的鲁棒性增强了,其幅度为0。1,其值是最大可能的梯度值的0.1倍。

图1:第一个图像是由旋转、缩放、拉伸、亮度变化以及增加像素噪声产生的第一个图像产生的。尽管有了这些变化,第一张图像的78%的钥匙在第二张图片中都有一个紧密的配对键。这些示例只显示了减少杂乱的一些键的子集。

这降低了三维浮雕表面的光照方向变化的效果,因为光照变化可能导致梯度大小的巨大变化,但对梯度方向的影响可能较小。

每个键位置都被分配一个规范的方向,这样图像描述符就不需要旋转了。为了使这一过程尽可能的稳定,以避免光照或改变,方向是由局部图像梯度方向的直方图峰值决定的。采用高斯加权的三次-道琼斯指数的方法,采用了三倍于当前平滑度的方法。这些权重乘上了长尾的梯度值,并在直方图的位置上累积,在位置上,在方位,R ij上。直方图有36个箱子,覆盖360度的旋转范围,并且在选择峰值之前被平滑。

结果键的稳定性可以通过将自然图像进行仿射投影、对比度和亮度变化以及噪声的增加来测试。第一个图像中检测到的每个键的位置可以在转换后的图像中预测到转换后的图像。该框架用于选择上述的各种参数和平滑参数,以便在保持稳定不变的情况下获得最大的效率。

图1显示了相对较小数量的键,在两个八度范围内,只有较大的范围(以避免过度的混乱)。每一个键都显示为正方形,从中心到正方形的一条线表示出了方向。在这幅图的后半部分,这幅图像是由15度的图像所决定的,被放大了0.9倍,在水平方向上拉伸了1.1倍。在0到1的范围内,像素的取值范围从其亮度值中减去0.1,而乘法的对比则减少了0.9。然后添加随机的像素噪声,以提供小于5比特/像素的信号。尽管进行了这些转换,第一张图像中的78%的键在第二个图像中与第二个图像中的键在预期的位置、尺度和位置上有紧密的匹配。

可以从表2中判断图像转换键的总体稳定性。该表中的每个条目都是由20个不同的测试图像的结果组合而成的,并总结了大约15,000个键的匹配。表的每一行都显示了一个特定的图像转换。第一个数字给出了在转换后的图像中有一个配对键的关键字的百分比(按这个键的值)和一个1.5倍的比例。第二栏给出了符合这些标准的百分比,以及在20度的前措辞中有一个方向。

图像转换匹配

%

Ori%

A增加对比度为1.2

89

86.6

B降低强度减少0.2

88.5

85.9

C旋转20度

85.4

81.0

D比例为0.7

85.1

80.3

E拉伸为1.2

83.5

76.1

F拉伸时间是1.5

77.7

65.0

G增加10%的像素噪声

90.3

88.4

H所有的A,B,C,D,E,G

78.6

71.8

图2:对于应用于20个图像样本的各种图像转换,这个表给出了在匹配的位置和范围(匹配%)中找到的键的百分比,并且在朝向(Ori%)中也匹配。

4。当地的形象描述

给定一个稳定的位置、规模和每个键的方向,现在就可以用一个人纳不变的方式来描述局部图像区域。此外,它还可以使这种表现对局部几何的小变化产生强烈的影响,例如仿射或三维投影。在视觉皮质中,复杂神经元的反应特性可以提出一种方法,在这个区域中,一个特征位置可以在一个小区域内变化,而定位和空间频率的特异性是保持的。edel-man、内含者和Poggio 5的实验模拟了复杂神经元对计算机图形模型的不同三维视图的反应,发现复合细胞的输出提供了比简单的基于相关性的匹配更好的辨别能力。这可以看出,如果一个仿射投影在一个相对于另一个的相对位置上拉伸了一个图像,它会改变梯度特征的相对位置,同时对它们的方向和空间

全文共6413字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[145876],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。