基于稀疏编码和空间金字塔匹配的图像分类研究外文翻译资料

 2022-05-17 09:05

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


Scene image classification using locality-constrained linear

coding based on histogram intersection

Abstract

最近基于稀疏的线性空间金字塔匹配(SPM)方法编码在图像分类中取得了巨大的成功。局部性约束线性编码(LLC)的增加证明了局部性的重要性。在本文中,我们提出了一种改进的特征编码方案,称为基于直方图相交距(HILLC)的局部约束线性编码。HILLC使用直方图相交距来描述特征向量与码本之间的距离。对于每个特征向量,搜索KNN个最近邻来构造一个本地码本。与LLC相比,HILLC可以获得更健壮的代码。实验结果表明,我们提出的方法优于其他相关的编码方法。

关键词:SPM、稀疏编码、直方图相交距、图像分类 。

1 Introduction

图像识别和分类主要包括两个步骤:特征提取[9,11, 14, 25, 37, 46–48, 50, 58]和分类器设计 [15, 16, 38, 44]。特征提取是图像识别和计算机视觉中的重要步骤[9, 11, 14,25, 37, 46–48, 50, 58]。词袋(BOW)模型[14]在场景图像分类中非常流行。它将图像视为具有许多视觉词汇的文档。然后将从局部图像补丁中提取的特征转换为视觉词并计算统计直方图作为图像表示。该模型简单高效,非常适合描述场景图像的内容。

分类器设计是另一个重要步骤。支持向量机(SVM)最初由Vapkin提出[6]。为了获得令人满意的分类精度,已经提出了一些改进的SVM[4,5,29,33,40]技术。值得注意的是,SVM在图像分类中的性能取决于相似性表征的基本度量的区分能力。在本文中,我们使用线性支持向量机,并选择适当的度量命名直方图相交距来描述特征向量和码本之间的距离。最好的分类器还包括前馈神经网络(FNN)[18,27],线性回归分类器(LRC)[34]和极限学习机器(ELM)[23]。FNN需要对所有参数进行后向调整,从而存在不同层参数之间的依赖关系,导致算法通常比需要的要慢。LRC是NS分类器的扩展。 其改进算法包括kernel-LRC,Improved-PCA-LRC,LDA-LRC和Unitary-LRC [19-22]。它们可以改善不同情况下的性能,如可变照明。 ELM是近年来最热门的分类器。它克服了局部最小值,学习率,停止标准和学习时间等缺点,并证明对分类任务是有效和有效的[24,53]。然而,在本文中,我们关注基于LLC的改进特征编码方案。如前所述,它忽略了特征之间的空间关系。为了解决这个问题,Lazebnik等人[25]提出了空间金字塔匹配(SPM)。它将图像分成不同比例的子区域。对于每个比例尺,计算每个子区域中局部特征的直方图。然后连接所有的直方图以形成图像的表示。SPM在许多图像分类任务中表现出了巨大的成功,如对象识别[45,51],图像匹配和场景分类[43,51]。图1的左侧显示了基于SPM的场景图像分类流程图。

首先,使用SIFT算法提取图像特征[26]。其次,应用K均值聚类[31]或字典学习[1,17]来构建带有K个条目的字典。然后,使用矢量量化将每个特征描述符转换为K维代码。第三,使用SPM方法来汇集不同尺度的代码。最后,构造一个非线性核函数并实现SVM分类[3,7,10]。传统的SPM方法在场景图像分类中取得了很好的性能。然而,在矢量量化中,每个特征向量只被分配给一个字典元素。它会导致很大的量化误差。此外,SPM必须使用具有非线性核函数的分类器,如交集内核[52]。非线性分类器必须承受较高的计算复杂度和较大的内存消耗,限制了其在实际系统中的应用。杨等人[45]开发了稀疏编码图像分类,命名为基于稀疏编码(ScSPM)的线性SPM方法。它可以在图1的右侧说明。使用稀疏编码代替矢量量化来减少重建误差。在此之后,汇总池被最大汇集所代替以汇总代表图像的所有特征代码。最重要的是它与线性分类器运行良好。实验表明,这种方法可以实现比非线性SPM方法更高的分类精度。Yu et al等人[51]提出局部坐标编码(LCC),并证明局部性比稀疏性更重要。但解决LCC是非常复杂的.Wang et al[43]提出了局部约束线性编码(LLC)。它使用局部约束来替换SC中的稀疏约束。与LCC相比,LLC有一个分析解决方案。此外,为快速编码提出了一种近似的LLC方法。它执行K-最近邻(KNN)算法为每个功能选择本地基地。在上述方法中,基于L2距离计算特征与词典元素之间的距离,这是不合理的,因为特征是基于直方图的统计变量。

图1 左图:基于非线性SPM的场景图像分类流程图

右图:基于线性SPM的场景图像分类流程图

为了克服这个问题,我们提出了一种改进的用于场景图像分类的LLC算法,称为基于直方图的局部约束线性编码相交(HILLC)。通过引入直方图相交距,它重新定义了特征向量和字典元素之间的距离。实验结果表明,与其他相关方法相比,我们提出的方法可以实现更好的分类准确率。本文的其余部分安排如下。 第2节回顾有关特征编码的相关着作。第3节详细介绍了我们提出的算法HILLC。第4节报告了不同数据集上的一些实验结果。第5节总结了本文。

2背景

假设表示一组D维特征向量。是相应的一组编码。是由K个元素组成的字典。K是聚类中心的数量。特征编码将每个特征向量转换成K维向量。 本节将讨论三种不同的编码方法。

2.1矢量量化

在K均值聚类中,每个特征向量被分配给其最近的聚类中心。这种硬编码方案被称为矢量量化。目标是最大限度地减少重构误差。它可以用下面的数学公式来表征。

限制意味着ci中只有一个非零元素,其值为1.也就是说,每个特征向量将由一个聚类中心重建。这种约束过于严格,可能会导致较大的重构误差。

2.2稀疏编码

稀疏编码的思想是每个信号可以通过一组基本信号的线性组合重构。当应用于特征编码时,这意味着每个特征向量可以分配给多个聚类中心。每个聚类中心都有不同的权重。 它可以用下面的公式表示。

与矢量量化相比,公式(1)中增加了稀疏项。为了解决这个问题,可以执行迭代解决方案。当B固定时,它是L1-正则化的最小二乘问题,可以通过特征符号搜索算法求解[51]。当C固定时,这是一个最小平方问题。拉格朗日对偶可以使用。

2.3局部受限线性编码

提出局部约束线性编码来解决特征编码的局部性问题。它使用局部约束来替代稀疏编码中的稀疏约束。然后公式(2)变成另一个优化问题。

这里⊙表示单元乘法。是距离参数。表示和之间的欧几里得距离。通常,字典B可以通过K均值聚类来获得。因此LLC可以被看作是一个简单的最小平方问题。虽然LLC中没有稀疏项,但我们可以简单地将中的那些小元素设置为零。这引入了近似的LLC编码方案。

对于每个特征向量使用K-最近邻算法来寻找KNN最近的聚类中心作为局部基底Bi。因此,LLC可以执行得非常快。

3基于直方图相交距的局部约束线性编码

SIFT始终用于从图像中提取局部特征。SIFT描述符的本质是局部图像块的梯度方向直方图。 因此,欧几里得距离不能很好地描述特征向量与词典元素之间的相似度。在这里,我们提出了一种改进算法,称为基于直方图相交距(HILLC)的局部约束线性编码。

通过引入直方图相交距,我们重新定义了特征向量和码本之间的距离。这个问题可以重新表述如下。

其中,表示特征向量与聚类中心之间的相似度。通常,直方图有三种类型的距离度量[47,52]。

——Chi square统计():

其中P和Q是两个图像特征描述符(直方图矢量)。

——直方图相交距:

——对数似然统计量:

具体而言,我们使用了直方图相交距。在这里,我们举例说明L2距离和直方图交点的性能。 考虑到ORL人脸数据库[36]中的两幅人脸图像和相应的SIFT特征,两个SIFT特征之间的L2距离和直方图相交距分别为7.0846和126.6307(图2)。在ORL人脸数据库中,首先,将一个人的前6张图像用作训练集,其余的用于测试。其次,SIFT特征在每个图像上被提取。最后,分别使用带有直方图相交距和L2距离度量的最近邻分类器进行分类。识别率分别为86.25%和87.50%。简单的实验显示了直方图度量的重要性。

像[43]一样,我们的实验中使用了近似的HILLC。不同之处在于我们使用直方图相交距而不是欧几里德距离来查找每个特征向量的KNN最近邻。

4实验结果

在本节中,我们根据两个众所周知的数据集报告结果:15场景类别[28]和UIUC体育赛事[35]。已经比较了四种不同的编码方案。

图2 ORL人脸数据库和SIFT特征的两幅图像。 经AT&T Laboratories Cambridge许可

图3 15个场景类别数据集的例子

(1)KSPM [25]:基于矢量量化的非线性SPM方法。 相交内核用于SVM。
(2)ScSPM [45]:基于稀疏编码的线性SPM方法。
(3)LLC SPM [43]:基于LLC的线性SPM方法。
(4)HILLC SPM:基于HILLC的线性SPM方法。

在我们的实验中,SIFT算法用于从图像中提取特征。具体来说,我们使用密集的网格采样来获得大量的图像块。每个图像块被视为一个兴趣点,可以用128维立体特征向量表示。为了比较不同的方法,我们分别将补丁大小和步长分别修改为16和8。在获得所有特征之后,使用K均值聚类来构建字典。为了与以前的工作一致[25],字典大小设置1024。然后我们使用不同的编码方法进行编码特征向量并使用SPM将所有代码汇集在一起。使用近似HILLC,并将邻居数量设置为5(根据[43])。

4.1 15个场景类别

Lazebnik建立了十五个场景类别数据集。该数据集包含15个类和4486个图像。其中8个来自MIT场景数据集[2]。 其他七类是:卧室(216图像),郊区(241图像),工业(311图像),厨房(210图像),客厅(289图像),办公室(216图像)和商店(315图像)。图3给出了一些数据集的例子。

表1 15个场景类别数据集的分类精度比较

粗体指出了我们方法的结果

图4 15个场景类别数据集的混淆矩阵

对于数据集中的每个类,我们随机抽取50张图像进行训练,20张图像进行测试。详细的比较结果列于表1。

从表1可以看出,我们提出的HILLC SPM方法优于其他非线性或线性SPM方法。 与LLC相比,HILLC的分类准确率提高了3.4%。图4给出了相应的混淆矩阵。由于SIFT特征基于直方图和频率类型,所以直方图相交距比L2距离更适合于测量相似度。我们提出的方法利用直方图相交距离,而其他人利用L2距离。

4.2 UIUC体育赛事

UIUC Sports Event数据集[28]由Li-Jia Li和Li Fei-Fei收集。它包含8个体育赛事类别:划船(250张图片),羽毛球(200张图片),马球(182张图片),地滚球(137张图片),单板滑雪(190张图片),槌球(236张图片),帆船(190张图片)攀岩(194图像)。图5给出了一些数据集的例子。

图5 UIUC体育赛事数据集示例

表2 UIUC运动事件数据集的分类准确度比较

粗体指出了我们方法的结果

按照相同的实验设置,我们还随机选择每个类50个图像进行训练,每个类有20个图像进行测试。比较结果如表2所示。

从表2可以看出,我们提出的方法在所列出的四种方法中可以达到最高的分类精度。它胜过KSPM 13.75%,并且胜过ScSPM 6%。与LLC相比,HILLC进一步提高了分类的准确性。图6显示了相应的混淆矩阵。

将来,我们将比较我们提出的方法与其他最先进的方法,包括SVM-DT [39],广义特征值近似SVM [13,54],模糊SVM [30,42,49,55] ,双SVM [12,32,57],线性回归分类器[8,41],稀疏自动编码器[56]等。

5结论和未来的工作

在本文中,我们提出了一种改进的特征编码方案,称为基于直方图相交距的局部约束线性编码(HILLC)。它基于LLC建立。 通过使用直方图相交距,HILLC重新定义了特征向量和码本之间的距离。实验结果表明,我们提出的方法优于其他现有的编码方法。

图6 UIUC体育事件数据集的混淆矩阵

在我们的未来工作中,所提出的特征编码方案将被扩展到其他研究领域,例如
图像标注,形状匹配等。

致谢本项目得到了中国国家自然科学基金委(61202134,31671006),江苏省自然科学基金(No.BK20140638,BK2012437)的部分支持

<p

全文共14783字,剩余内容已隐藏,支付完成后下载完整资料</p


资料编号:[12288],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。