使用融合深度卷积特性的图像检索外文翻译资料

 2022-04-08 10:04

[1]使用融合深度卷积特性的图像检索

Hailong Liu a,b, Baoan Li a,b,* , Xueqiang Lv a, Yue Huang c

摘要:本文提出一种融合深层卷积特征的图像检索方法,解决传统基于竞争的图像检索方法的低层特征与高层语义特征间的语义鸿沟。首先,通过改进卷积神经网络LeNet-5来获得改进的网络结构LeNet-L。然后,融合由LeNet-5和AlexNet提取的两个不同的深度卷积特征。最后,融合后通过距离函数比较检索图像和数据库图像的相似度,得到相似图像。在Corel数据集中,该方法与单卷积神经网络提取特征的图像检索方法进行比较,具有较高的精度和查全率。结果表明,该方法具有较好的检索精度。

关键词:深度学习;卷积神经网络;特征提取;图像检索;特征融合

1.简介

图像特征选择与提取一直是计算机视觉领域的热点问题,直接影响到学习算法对图像分类,检索和识别的影响。早期的图像检索技术主要是基于文本和基于竞争的。基于文本的图像检索比较图像上的文本信息以检索信息,但是在检索之前,图像数据库需要注释文本信息,它需要人工贴标签,所以耗时更长,而且还有人为因素,尽管后来出现了图像自动标注技术,但效果仍不能满足人们的需求。基于内容的图像检索使用低级特征,如颜色特征,纹理特征,形状特征等。由于低级特征与肉眼视觉特征之间存在“语义鸿沟”,因此无法提取高级特征,用户期望准确描述图像内容的高级语义特征。此外,随着互联网技术的快速发展和大数据时代的到来,形势越来越复杂,人们的需求越来越高,基于文本和内容的图像检索已经不能满足用户的需求。

深度学习的概念是基于人工神经网络的研究。 LeCun等人在1998年提出了卷积神经网络的概念,2006年Hinton等人提出了一种自学习初始化参数的方法,并逐步优化来解决优化深度学习模型的问题。自那时以来,深度学习在各个领域得到了迅速发展和广泛应用,包括自然语言处理,语音识别,计算机视觉等。目前,深度学习已经发展了多种框架,如深度

神经网络,卷积神经网络,脉冲耦合神经网络和深层信念网络。根据深度神经网络的体系结构和训练方法可分为三大类:生成深层体系结构,深层体系结构和混合深层体系结构的识别。本文使用的卷积神经网络是深层结构的识别,通过直接学习不同类别的不同描述特征,是一种深层次的模型分类体系结构。卷积神经网络主要由卷积层,汇聚层和全连接层组成,是一种具有局部连接和权重共享的深层神经网络,以S形函数作为激活函数的特征映射结构,使特征映射具有位移鲁棒性。合并层次不仅可以降低数据的计算复杂度和输入图像的空间分辨率,而且可以使神经网络在识别失真时对输入样本具有较强的鲁棒性,从而CNN可以有效地提取更有用的特征信息。

本文基于对卷积神经网络的研究,首先通过对卷积神经网络的优化提出改进的卷积神经网络模型LeNet-L。其次,利用已有的卷积神经网络AlexNet提取图像特征信息,融合不同卷积神经网络体系结构提取的图像特征,得到图像特征信息,最后通过距离函数比较图像与图像数据集的相似度以获得相似的图像。

2.改进的卷积网络架构

神经网络的体系结构有很多种,如应用于人脸识别的DeepID网络架构,用于识别数字手写的LeNet-5以及ImageNet-2010网络架构等。文献6介绍了深度学习中图像检索的一些研究,在此基础上提出了三种基于预训练卷积神经网络的图像检索方法。在本文中,我们使用第一种通过卷积神经网络提取图像特征进行图像检索的方法。最近有很多研究表明,卷积神经网络可用于图像检索。

2.1改进的网络架构LeNet-L

LeNet-5卷积神经网络最初用于数字笔迹的识别,输入是32times;32大小的数字手写图像,输出类别为10,通过计算可以得到16个特征图,即5 * 5在最后的汇合层中S4和16 * 5 * 5 = 400个神经元需要与120个神经元完全连接。但本文的实验数据集使用Corel图像数据集,该数据集中的图像大小为384 * 256或256 * 384,因此我们将在最后的合并图层中获得16个特征图像,即61 * 93。那是16 * 61 * 93 = 90768个神经元。考虑到S4层90768个神经元与C5层120个神经元之间的全连接可能导致LeNet-5网络结构中图像特征信息的丢失。

在本文中,实验通过训练神经网络卷积提取全连接层作为图像的低层特征,然后实现基于欧几里得距离的图像检索。根据实验图像的特点和实验结果分析,本文提出了改进的卷积神经网络LeNet-L,它在池层S4和充分层S4之间增加了全连通层LK(K代表神经元增加层数)连接C5。结果,改进的卷积网络结构如图1所示。

图1. LeNet-L卷积神经网络架构

在这项研究中,LeNet-L提取图像低级特征是图像检索功能的一部分。卷积神经网络提取图像特征的过程是图像数据集中所有图像的连续学习过程,深度学习网络体系结构是逐层抽取和抽象为原始图像数据的过程。深度学习网络体系结构的高级特征是更抽象,更高效的语义特征,它可以更好地表达图像中包含的信息。因此,本文使用图1中的F6层图像特征信息作为图像检索特征的一部分。

2.2.AlexNet网络架构

AlexNet卷积神经网络由Hinton的学生Alex Krizhevsky等人构建, AlexNet赢得ILSVRC 2012比赛的一等奖,本次比赛的Top5错误率为15.3%。 AlexNet的成功极大地提高了各个领域深度学习的积极性。 AlexNet卷积网络架构如图2所示。

图2. AlexNet卷积网络架构

在图2中,AlexNet的深度比LeNet-5深,AlexNet的体系结构也有卷积层,汇聚层,全连接层。另外,它利用更多的卷积核来提取特征信息的更多不同方面,同时也带来更多的神经网络参数和训练时间。由于饱和非线性比非饱和非线性慢得多,近年来,卷积神经网络模型的激活函数主要使用ReLU(整型线性单元),所以AlexNet模型通过使用非饱和非线性函数ReLU。

卷积神经网络提取图像特征的过程是对图像逐层进行研究,提取和抽象,网络体系结构的特征可以更加抽象地描述图像,因此它将更有助于图像检索。在AlexNet中,它提取Fc8图层的特征信息以参与图像检索。

3.实验和分析

3.1.数据集和实验评估

本文的图像数据集是Corel数据集,包含1000幅图像,图像数据集包括野人,恐龙,建筑,花卉等10类,每类包括100幅图像。

对于图像检索有回忆,精确度,均值平均精度等评估。

召回:回忆= a / b (1)

精确:preci si on = a / c (2)

这意味着平均精度:

(3)

a:与要检索的图像类似的图像的数量,b:与要检索的图像相似的图像的总数,c:由检索系统返回的图像的数量,Kij表示第i类中的第j个图像的结果作为要检索的图像。

3.2.实验结果分析

3.2.1.参数值

在LeNet-L网络体系结构中,增加了一层L-K来减少图像特征信息的丢失,L-K层中神经元的数量与图像特征丢失的数量密切相关。本文对不同数目的神经元K = {800,1000,1200,1400,1600,1800}进行实验得到相应的平均精度。如图3所示,当K = 1400时,无论返回的图像数量多少,均值平均精度都高于其他值。因此,这个实验选择K = 1400来训练神经网络,前10位表示返回类似图像的数量为10。

图3.具有不同K值的平均精度

3.2.2平均精度

本文通过两种神经网络提取图像的特征信息,然后融合两种特征来检索图像。在LeNet-L卷积神经网络中,选择完全连通的F6来提取图像的特征,输出特征维度为84维,特征数据较少。在AlexNet卷积神经网络中,选择Fc8图层来提取图像特征,该图层的输出是更多的特征信息,并且它是1000维的,因此可以获得更好的检索结果。

图像高级语义特征Fc8和F6都是由不同的深度网络,网络结构,卷积核的大小和数量而得到的,它们也是图像描述的不同特征。融合这两方面的图像特征信息(AL表示)可以得到更全面,更有效和更准确的信息。

表1. AL,Fc8和F6的平均精确度比较

从表1可以看出,融合后的回归效果明显提高。 AL的平均精度比深度卷积特征Fc8高2.01%〜3.05%。卷积神经网络的深度越深,神经元的数量也越多,这也将能够更好地提取语义特征。 Fc8和F6是深层卷积神经网络学习和抽象层层获得的图像特征信息。深度学习具有很强的学习能力和效率特征表达能力,减少了“语义鸿沟”的影响。 AL是这两种不同类型的神经网络融合提取语义特征,这使得AL特征更加有效和抽象,这可以考虑到图像信息的许多方面的特点。

3.2.3.召回

在本文中,AL,Fc8和F6的图像特征执行回忆实验。其结果如图4所示。从图中可以清楚地看到:融合后的深层特征回忆较好,比Fc8特征增加了1%-7%。与Fc8和F6相比,AL特征包括更全面和更有效的图像信息,更有利于提高召回率。

图4. 每个功能的召回比较

4.结论

通过对深度卷积神经网络结构的分析,改进现有的卷积神经网络模型,将改进的卷积神经网络提取的图像特征与卷积神经网络AlexNet的深层融合进行图像检索。与基于两种不同卷积神经网络架构提取特征的图像检索方法相比,均值精度和查全率均有较大提高。最后,实验结果表明,融合两种深度卷积特征来检索图像是有效的。

致谢

该项目获国家自然科学基金资助项目(批准号:61671070)和北京市互联网文化与数字传播研究重点实验室开放项目(批准号:IDD201608)资助。

参考文献

1.LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998,86( 11) : 2278-2324.

2.Hinton G E,Ruslan R S.Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

3.Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012, 25(2):2012.

4.Zhiyuan Sun, Chengxiang Lu, Zhongzhi Shi, et al, Research and Advances on deep learning [J]. Computer Science, 2016,43(02):1-8.

5.Sun Y, Wang X, Tang X. Deep Learning Face Representation from Predicting 10,000 Classes[C]// Computer Vision and Pattern Recognition(CVPR).IEEE,2014:1891-1898.

6.Xie L, Wang J, Zhang B. Fine-Grained image search [J].IEEE Transactions on Multimedia, 2015,17(5):636-647.

7.Babenko A, Slesarev A, Chigorin A, et al. Neural Codes for Image Retrieval[M]// Computer Vision–ECCV 2014. Springer International Publishing, 2014:584-599.

8.Donahue J, Jia Y, Vinyals O, et al. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition[J]. Computer Science, 2013, 50(1):815-830.

9.Bing Liu, Hong Zhang. Image retrieval algorithm based on convolutional neural network and manifold ranking[J].Journal of Computer Applications, 2016, 36(2):531-534,540.

10.Qicai Zheng. Research on Image Ret

全文共13238字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14387],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。