超越词袋的特点: 空间金字塔匹配识别自然场景类别外文翻译资料

 2022-05-15 10:05

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


超越词袋的特点: 空间金字塔匹配识别自然场景类别

摘要

本文提出了基于近似全局几何对应的场景类别识别方法。 该技术通过将图像划分为越来越细的子区域并计算每个子区域内发现的局部特征的直方图来工作。 结果“空间金字塔”是一个简单而计算有效的无序词袋特征图像表示的扩展,它显示出对具有挑战性的场景分类任务的显着提高的性能。 具体而言,我们提出的方法超出了Caltech-101数据库的最新技术水平,并在大型自然场景类别的大型数据库上实现了高精度。 空间金字塔框架还提供了一些最近提出的图像描述的成功见解,包括Torralba的“gist”和Lowe的SIFT描述符。

1. 简介

在本文中,我们考虑识别图像的语义范畴的问题。例如,我们可能想要将照片分类为描述场景(森林,街道,办公室等)或包含某个感兴趣的对象。对于这样的整体图像分类任务,将图像表示为无序集合的局部特征的词袋特征方法最近表现出较好的性能水平。但是,由于这些方法忽略了关于这些特征的空间布局的所有信息,所以它们的描述能力严重受限。特别是,它们无法捕捉形状或从背景中分割出物体。不幸的是,克服这些局限性来构建有效的结构对象描述已被证明是非常具有挑战性的,特别是当识别系统必须在存在严重杂波,遮挡或大视野变化的情况下时。基于生成部分模型和几何函数搜索的方法以显着的计算代价实现了鲁棒性。一个更有效的方法是用相邻局部特征之间的成对关系来增加一个基本词袋特征表示,但是这个想法的现有实现取得的结果是不确定的。另一种提高几何变形鲁棒性的策略是增加局部特征的不变性水平(例如,通过使用恒定不变的探测器),但最近的大范围评估表明这种策略通常没有收益。

尽管我们仍然同意开发鲁棒的和几何不变的结构对象表示的目标,但是我们在本文中建议基于固定子区域上的局部特征的聚合统计来重访“全局”非不变表示。我们引入一种基于核的识别方法,该方法通过使用Grauman和Darrell的金字塔匹配方案所提供的有效近似技术,在全球范围内计算粗糙的几何对应关系。我们的方法涉及以越来越精细的分辨率重复细分图像并计算局部特征的直方图。正如第5节中的实验所示,这种简单的操作足以显着提高基本袋特征表示的性能,甚至超过基于详细几何对应关系的方法。

先前的研究表明,整体考虑场景的统计属性,而不对其构成对象进行任何分析,从而为其语义范畴提供了丰富的线索。我们自己的实验证实,全局表示不仅可以有效地识别整个场景,而且还可以将图像归类为包含特定对象,即使这些对象嵌入在繁重的杂乱中,并且在姿势和外观上显着变化。这就是说,我们不主张直接使用全局方法进行物体识别(除非是非常有限的图像)。相反,我们设想这种方法从属角色。它可以用来捕捉图像的“主旨”并通知随后搜索特定的对象(例如,如果基于全局描述的图像可能是高速公路,那么我们有很高的概率查找汽车,但不是烤面包机)。此外,我们的方法简单和有效,结合其对具有挑战性的数据产生意想不到的高识别率的趋势,可以使其成为“校准”新数据集和评估更复杂的识别方法的良好基准。

2. 先前的工作

在计算机视觉中,直方图作为图像描述的一种方法有很长的历史(参见Koenderink和Van Doorn)将广义直方图推广到局部无序图像或直方图值尺度空间(即对于给定位置和尺度上的每个高斯孔径,局部无序图像返回聚集在该孔径上的图像特征的直方图) 。我们的空间金字塔方法可以被认为是一个局部无秩序图像的替代表达式,其中代替高斯尺度的孔径空间,我们定义了一个固定的矩形窗口层次结构。 Koenderink和Van Doorn认为,本地无秩序的图像在视觉感知中扮演着重要的角色。我们的检索实验(图4)证实,空间金字塔可以捕获感知上的突出特征,并且表明“局部无序匹配”可能是估计图像之间总体感知相似性的强大机制。

将我们提出的方法与多分辨率直方图进行对比是很重要的,其中包括重复对图像进行二次采样并计算每个新级别的像素值的全局直方图。换句话说,多分辨率直方图改变了计算特征(强度值)的分辨率,但直方图分辨率(强度尺度)保持固定。我们采用相反的方法来定义计算特征的分辨率,但改变它们被聚合的空间分辨率。这导致保留更多信息的更高维度表示(例如,由薄黑白条纹组成的图像将在空间金字塔的每个级别保留两种模式,然而它将根本不可能与均匀灰度图像区分开来,除了嵌套水平的多分辨率直方图)。最后,与多分辨率直方图不同,空间金字塔配备适当的内核时,可用于近似几何匹配。

“细分和无序”的操作 - 即将图像分割成子块并计算这些子块中局部特征的直方图(或直方图统计,如均值) - 已经在计算机视觉中多次实现,既用于全局图像描述和局部描述感兴趣的区域。因此,虽然操作本身似乎是基本的,但以前的方法留下了什么是正确的细分方案的问题(虽然常规的4times;4网格似乎是最流行的实现选择),“细分”和“无序”。空间金字塔框架为解决这个问题提供了一种可能的方法:即当多种解决方案在原则的结合下达到最佳效果。它还表明,“细分和无序”技术在经验上取得成功的原因在于它们实际上执行了近似的几何匹配。

3空间金字塔匹配

我们首先描述金字塔匹配的原始公式,然后介绍我们应用这个框架来创建一个空间金字塔图像表示。

3.1. 金字塔匹配内核

设X和Y是d维特征空间中的两组向量。 Grauman和Darrell提出金字塔匹配以找出这两组之间的近似对应关系。非正式地,金字塔匹配通过在特征空间上放置一系列越来越粗糙的网格并且在每个分辨率级别上发生的匹配数量的加权总和来工作。在任何固定的分辨率下,如果两个点落入网格的同一个单元格中,则称它们匹配;在精细分辨率下找到的匹配被加权得更高,而且与匹配解决方案的匹配度更高。更具体地说,让我们构造一系列分辨率为0,...,L的网格,有2 pound;细胞沿每个维度,总共D = 2 dpound;细胞。让HX和HY表示该分辨率下的X和Y的直方图,以便HX(i)和HY(i)是从X和Y落入网格的第i个单元的点数。那么级别的比赛数量呢?由直方图相交函数给出

计算,但改变它们聚合的空间分辨率。这导致了一个更高维度的表示,它保留了更多的信息(例如,由薄黑白条纹组成的图像在空间金字塔的每个级别都会保留两种模式,而根本不会与统一灰度图像区分开来但多分辨率直方图的嵌套级别)。最终,不同于多分辨率直方图,可以使用配备有适当内核的空间金字塔近似几何匹配。从X和Y落入网格的i单元格中。 然后 , 编号与在 级别 kappa; 是给定的直方图交集函数:

请注意,在等级kappa;处找到的匹配数量还包括在等级kappa; 1处发现的所有匹配。因此,在等级kappa;处发现的新匹配的数量由A = 0给出,对于kappa;= 0 ,...,L 1。 与等级kappa;关联的权重设置为1,这与该级别的单元宽度成反比。 直觉上,我们希望惩罚较大单元格中的匹配,因为它们涉及的功能越来越不相同。 把所有的东西放在一起,我们得到以下金字塔匹配内核的定义:

3.2. 空间匹配方案

如图中所介绍的,金字塔匹配内核适用于无序图像表示。 它允许在高维外观空间中精确匹配两个特征集合,但丢弃所有空间信息。 本文提出了一种“正交”方法:在二维图像空间中进行金字塔匹配,并在特征空间中使用传统的聚类技术。具体而言,我们将所有特征向量量化为M个离散类型,并进行简化假设,即只有特征 相同的类型可以相互匹配。 每个通道m给我们两组二维向量,Xm和Ym,表示在各个图像中找到的类型m的特征的坐标。 最终的内核是单独的通道内核的总和:

这种方法的优点是保持了流行的“视觉词汇”范式的连续性 - 事实上,当L = 0时,它减少到一个标准的特征包。

由于金字塔匹配内核(3)仅仅是直方图交点的加权和,并且因为正数的c min(a,b)= min(ca,cb),所以我们可以将KL实现为单个直方图的“长” 通过在所有分辨率下连接所有通道的适当加权直方图形成的矢量(图1)。 对于L电平和M个通道,得到的向量具有维数MSigma;L4A = M 1(4L 1 - 1)。 几个经验 第5节中报告的内容使用M = 400的设置

并且L = 3,导致34000维直方图分解。 然而,这些操作是有效的,因为直方图向量非常稀疏(事实上,就像[7]中一样,内核的计算复杂度在特征数量上是线性的)。 还必须注意的是,我们没有观察到超过M = 200和L = 2的性能显着增加,其中级联直方图仅为4200维。

图1.构建三层金字塔的玩具示例 该图片有三种要素类型,分别以圆形,菱形和十字形表示。 在顶部,我们将图像分为三个不同的分辨率级别。 接下来,对于每个分辨率级别和每个通道,我们计算每个空间仓中的特征。 最后,我们根据等式对每个空间直方图进行加权。

最后的实施问题是正常化问题。 为了获得最大的计算效率,我们将所有直方图归一化为图像中所有要素的总权重,实际上是强制所有图像中要素的总数相同。 由于我们使用了密集的特征表示(参见第4节),因此无需担心杂波导致的杂质特征检测,因此这种做法足以处理可变图像大小的影响。

4. 功能提取

本部分简要描述了第5节实验中使用的两种特征。首先,我们有所谓的“弱特征”,它是面向边的点,即在给定方向上的梯度幅度超过最小值的点阈。我们在两个尺度和八个方向上提取边缘点,总共M = 16个通道。我们设计了这些特征来获得类似于“主旨”或图像的全局SIFT描述符的表示。

为了获得更好的辨别力,我们还利用了更高维的“强特征”,它们是在8像素间距的网格上计算的16times;16像素块的SIFT描述符。我们决定使用密集的规则网格而不是兴趣点是基于Fei-Fei和Perona的比较评估,他们表明密集特征对场景分类更好。直观地说,需要密集的图像描述来捕捉均匀区域,如天空,平静的水面或路面(为了处理低对比度的区域,我们跳过通常的SIFT标准化程序,当贴片的整体梯度幅度太大弱)。我们对来自训练集的随机补丁子集进行k均值聚类,以形成视觉体格。我们实验的典型词汇量是M = 200和M = 400。

办公室 厨房 客厅

卧室 商店 工业区

高楼 市中心 街道

高速公路 海岸 野外

高山 森林 市郊

图2.来自场景类别数据库的示例图像。主演的类别来自Oliva和Torralba [13]。

Weak features

(M = 16)

Strong features (M = 200)

Strong features (M = 400)

L

Single-level

Pyramid

Single-level

Pyramid

Single-level

Pyramid

0 (1 times; 1)

1 (2 times; 2)

2 (4 times; 4)

3 (8 times; 8)

45.3 plusmn;0.5

53.6 plusmn;0.3

61.7 plusmn;0.6

63.3 plusmn;0.8

56.2 plusmn;0.6

64.7 plusmn;0.7

66.8 plusmn;0.6

72.2 plusmn;0.6

77.9 plusmn;0.6

79.4 plusmn;0.3

77.2 plusmn;0.4

79.0 plusmn;0.5

81.1 plusmn;0.3

80.7 plusmn;0.3

74.8 plusmn;0.3

78.8 plusmn;0.4

79.7 plusmn;0.5

77.2 plusmn;0.5

80.1 plusmn;0.5

81.4 plusmn;0.5

81.1 plusmn;0.6

表1.场景类别数据库的分类结果(见文本)。每种功能

全文共8905字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[12347],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。