使用密集的描述符和zernike矩作为基于形状的图像检索的特征外文翻译资料

 2022-08-10 05:08

英语原文共 56 页,剩余内容已隐藏,支付完成后下载完整资料


使用密集的描述符和zernike矩作为基于形状的图像检索的特征

摘要

抽象形状作为物体的重要组成部分,在基于形状的图像检索领域有着特殊的地位。尽管 zms / czms 在图像处理中表现良好,但是它们只能提取图像的全局细节,因此除此之外,还需要一些其他的方法来提高系统的性能。本文对基于像素的密集描述子如局部二元模式、局部方向模式及其变体进行了实验分析。 这些描述符与 zms 全局特征一起作为局部特征,在 sbir 系统中实现更高的准确检索率。我们分析了这些 lbp / ldp 的变体,并对图像进行了不同的相似度量。对于 zms,级数分量被用作全局特征。这些方法分别在合适的形状数据库上进行测试。本文使用的数据库有 mpeg-7 ce-2区域数据库、mpeg-7 ce-1轮廓数据库和商标数据库。通过实验分析可以得出结论: ldp 和 zms一起的表现优于 zms 和 zms

关键词:基于形状的图像检索(sbir) 全局特征 zernike 矩(zms) 局部二值模式(lbp) 局部方向模式(ldp)

1.简介

数字时代为信息检索提供了一个新的维度。今天,用户希望在很短的时间内获取图像和视频方面的相关信息。这一搜索可能与放射学领域有关,以找到类似的诊断图像,或其他领域,如股票,商标,标识在广告领域使用等。编目是在地质、艺术和时装领域进行的。传统的基于文本的图像检索系统致力于用一些文本或关键字映射图像的概念。但是这个系统的主要缺点是它没有存储有关图像的足够细节。为了克服这个限制,基于内容的图像检索(cbir)的概念出现在图片中[1–3]。在cbir系统中,图像是借助图像的视觉内容而不是带有图像注释的关键字来检索的[4–6]。

cbir致力于低层次的特征,如形状,纹理,颜色和空间位置。将高级语义添加到低级特性中,以改进其工作状态。一般情况下,使用关键字对图像进行手动注释可能会出错;因此,在描述图像的某些特性的支持下,可以进行自动注释。这些特性可以是本地的,全球性的,或者是这两种特性的组合。某些技术,如基于图形的学习框架,也增强了图像的表现。cbir系统的成功取决于特征提取方法、特征匹配过程和特征存储过程。cbir系统面临着许多挑战,为了提高准确性,这些挑战应该得到解决。形状特征的相关性可以很好地理解,因为人类的感知是基于物体的形状;因此,物体的分类最好是基于形状而不是纹理、颜色等

从广义上讲,形状决定了图像的轮廓和整个区域。 形状描述技术分为两组,即轮廓和基于区域[13-15]。 基于轮廓的描述只集中在边界线上,因此不适用于自然场景中由多个不相交的区域组成的复杂形状,如剪贴画、徽章、商标或各种形状。 基于区域的方法考虑对象的整个区域,最适合于复杂形状[16]。 通常,基于区域的方法使用矩描述来描述一个形状。 规则矩存储冗余信息。 低阶矩不能准确地描述形状,因此,高阶矩是可取的,但更容易受到噪声的影响[17]。 有不同的基于区域的描述符,如通用傅里叶描述符(gfd) ,勒让德矩(lms) ,泽尼克矩(zms)等[18,19]。 Zms 具有旋转不变性、对噪声的鲁棒性、每阶矩的快速计算等特点。 Zms 被称为全局描述符; 因此,它们不关注图像的局部细节。 为了捕捉图像的局部细节,需要局部描述符。 尽管在 sbir 领域取得了许多里程碑式的成就,但是由于图像的形状可能具有任何类型的复杂结构,特别是对于商标或基于徽标的图像[18-25] ,检索的准确性还需要更多的改进。 为了提高检索的准确性,需要同时从图像中提取局部和全局特征。

一般来说,局部特征的提取方式有两种: 一种是使用稀疏描述符,另一种是使用稠密描述符。 使用第一种方法,即稀疏描述符,特征提取周围的兴趣点,而不是提取每个像素周围的特征是在密集的情况下。 例如,哈里斯角点检测器、哈里斯仿射区域检测器、最大稳定极值区域检测器都是区域检测器。 然后,在兴趣点 / 角点 / 关键点周围形成局部斑块或区域以收集局部细节。 中心对称局部二进制模式(cs-lbp)、尺度不变特征变换(sift)、梯度定位和方向直方图(gloh)、主成分分析和 sift (pca-sift)描述符是众所周知的稀疏描述符[26,27]。 第二种方法利用密集描述符,其中局部细节在整个图像上逐个像素捕获。 Gabor 小波和局部二进制模式(lbp)是两种广为人知的密度描述子。 还有许多其他方法用于捕捉图像的局部细节[20-24]。 局部二进制模式(lbp)提出的 ojala 等人[28,29]主要是为纹理分类和面部图像分析[30-32]。 许多 lbp 的变体在扩展 lbp 方面或者将 lbp 特征与其他描述符结合起来的方面已经被试验了[31]。 Jabid 等人[33]提出的局部方向模式(ldp)是另一个密集描述符,它和它的变体一起被用于 sbir 领域。 这些描述符在以前的研究工作中没有使用过。 为了得到更好更有意义的检索结果,我们结合了 zms 和 lbp / ldp 的变体来提取图像的局部和全局特征。 本文分析了 zms 作为全局特征在 sbir 系统中的应用,给出了 zms 作为全局特征在 sbir 系统中的应用。 在 sbir 系统中,进一步分析了全局特征和局部特征相结合的有效性。 利用局部和全局描述子提取最佳检索精度。 全局特征提取方法,如 zms 描述了第二节。 第三节讨论了基于密集描述子的局部特征提取技术。 第四部分解释了提出的算法。 第五部分展示了使用局部特征和全局特征(即密集描述符和 zms)进行的实验结果。 第六部分提出了基于实验得出的建议。 结论见第7节。

2. sbir 使用全局特征

全局特征是指从图像的所有重要像素中获取信息的特征。 基于矩的方法解决了提取图像全局细节的问题。 Zms,gfds,lms 是正交的时刻,其中每个时刻的顺序捕获唯一的信息没有任何冗余。

2.1 zernike momentszms 在模式识别、字符识别、图像检索、图像重建、车辆识别等领域具有良好的描述能力。 Zms 也被选为 mpeg-7数据库最好的基于区域的描述符[16]。 每个 zernike 矩有两个分量,即幅值分量和相位分量。 Zms 的大小是旋转不变的。 对于连续像函数 f (x,y) ,在笛卡尔坐标系中,我们只使用了一个分量,即 zm 的大小,传统的计算 zm (具有矩序 n 和重复 m)的方法,并用此方法给出了 n-| m | 为偶数且 | m | le; n 的约束条件。 (1)[40].

在笛卡尔坐标系下,传统的 zms 计算方法的缺点是,由于边界点的存在,使得圆盘边界附近的信息丢失,从而导致几何误差。 为了克服这个问题,将整个图像映射到单元磁盘中,使所有图像像素都成为 zms 计算的一部分。 用这种方法,精确的 zms 计算和数值误差被消除[41]。

3. 局部特征描述

本文利用局部特征描述子对密集描述子进行了实验,lbp 是最常用的描述子之一,主要用于纹理分类,但是它已经应用于人脸图像分析、签名验证、唐氏综合征识别、目标检测和识别等领域,另一种类型的密集描述子是 ldp [33,44,45] .

3.1局部二元模式(lbp)

lbp 是基于灰度像素的纹理测度方法,它返回一个密集特征集。 原始 lbp 使用每个像素的33个邻域标记图像像素,并用中心像素值标记阈值,从而得到一个称为 lbp 码的二进制模式。 33个邻居生成256个箱子,每个箱子都存储了对应于箱子的像素频率。 在将 lbp 应用于灰度图像之前,最好将图像分割为不同的窗口 / 区域。 然后,对每个区域绘制直方图。 基于区域的直方图可以在连接成组合直方图[30]之前进行标准化。 可以通过 eq 获得 lbp 代码。 (6)其中 nc 表示中心像素的强度,nk 对应于邻域像素的强度。 对于 n 个邻域,可以为任意(xc,yc)像素生成2n 个二进制模式或 lbp 代码。

邻域可能是不同的,如图1所示,例如,半径1对应8个邻居由细胞有rsquo;1rsquo;代表,半径2对应16个邻居由细胞显示值rsquo;2rsquo; ,半径3对应24个邻居由细胞编号rsquo;3rsquo;突出。 Lbp 在每种情况下(即,半径1,2或3)分别表示为 lpp8,1,lpp16,2,lpp24,3。 半径为一个像素,像素之间的相关性仍然很高。 因此,半径一般保持较小[29]。

Lbp 还有很多变体,它们强调增强其判别能力和鲁棒性。 此外,为了提高其性能,lbp 与其他方法相结合,如 cs-lbp、 haar 小波和 lbp (hlbp)、统一 lbp、 lbp 直方图 fourier 描述符(lbp-hf)等[31,46,47]。

3.1.1 lbp (ulbp)算子

统一的 lbp (ulbp)算子通过扩展得到统一的模式[29]。 如果二进制模式由最多两个从0到1的位转换组成,或者反过来由0到1的位转换组成,并假设位模式为顺时针或逆时针,则 lbp 码被描述为统一模式。 例如,10100001和11100101是不统一的模式,而1000001和000000000是统一的模式。 这样就把256箱的需求降到了59箱。 在256个箱子中,有58个符合上述条件的模式被称为均匀模式,剩下的198个非均匀模式被放入59箱。

3.1.2二元模式直方图(lbp-hf)描述符

局部二元模式直方图(lbp-hf)描述符和原始 lbp 码不具有旋转不变性。 这意味着,如果图像旋转,然后 lbp 模式将改变。 在这个描述符中,直方图使用58个统一的 lbp (ulbp) binswheretwobinsarefor000000000和111111111,其余56个箱子用作78个方向的箱子。 均匀的图案排列成7行,这可以从图2中理解。 8位模式中只有一个1的均匀二进制模式有8个方向,同样,两个连续1的模式也会有8个方向,以此类推,最多可以有7个连续1的模式。 快速傅里叶变换(fft)分别应用于 ulbp 模式7行的8个方向(即1个连续的1,2个连续的1... 7个连续的1)。 Fft 是对称的,因此只有[0到 n / 2]5个箱子就足以产生 n8的旋转不变特征集。

3.1.2本地二进制模式直方图傅里叶(lbp-hf)描述符

原始的lbp代码不是旋转不变的。这意味着如果图像被旋转,那么lbp模式将被改变。在这个描述符中,直方图是使用58个均匀的lbp(ulbp)二键生成的,其中两个Bobinsorform 00000和111111作为7times;8(定向)的容器,其余的56个容器被用作7times;8(定向)容器。均匀的图案排列为7行,这可以从图2中理解。8-位模式中精确于单1的均匀二进制模式有8个定向;同样,两个连续1的模式也会导致8个定向,以此类推,直到7个连续1的模式。快速傅里叶变换(fft)分别应用于UBP模式的7行(即连续1的1,连续2的1hellip;hellip;连续7的1)的8个方向上。fft在性质上是对称的,所以只有[0to n/2]=5 bin足够产生n=8的旋转不变特征集。基于ff的技术将减少56个统一的模式到35个统一的模式使用7行与5个垃圾箱。由于每个装有一个非均匀图案的垃圾箱和两个均匀图案,即00000000和11111111,为此而设置的特征。

图2排列在7行[48]描述符中的 ulbp 均匀模式将变为38。 这个描述符被称为局部二进制模式直方图傅里叶描述符(lbp-hf)[49]。 研究正在进行,以提供 ulbp 的另一种变体,即郭等人提出的统一 lbp 方差[48]。 文献[48]中的结果减少了特征集,并改进了图像的分类,在这些图像中,只有一个容器被用来对抗对应于一排统一的 lbp 模式的八个容器。 郭等人观察到,随着行数的减少,分类率下降,并随着行数的增加,分类率逐渐增加,因此,建议最佳的减少。3.1.3中心对称 lbp (cs-lbp)对 cs-lbp [27,50] ,只有相邻的像素属于同一个圆的直径。 在 lbp 中,所有相邻像素与中心像素进行比较,生成256个相邻像素,而在 cs-lbp 中,只有4个相邻像素与中心像素进行比较,生成16个相邻像素。 这一举措将垃圾箱的数量从256个减少到了16个。

3.1.4 haar wavelet 和 lbp (hlbp)

lbp 是一种很好的基于像素的目标检测识别方法。 在基于形状的图像检索中,我们结合 haar 小波对其进行了探索。 Haar wavelet 捕捉水平方向,垂直方向和对角线方向的特征。 只是使用了角度或方向,而不考虑震级[47,51]。 Lbp 的模式数是256但 haar 和 lbp (hlbp)的结合只产生16个模式。 除了这个优势,hlbp 提供了更好的有意义的结果。 对于 hlbp,选择33邻域,其中 nc 是中心像素。 这种模式取决于当前一组实验中设置为15的阈值 t 的选择。 Hlbp 代码是使用 eq 计算的。 (7).

其中 something 代表内积。 Z (xc,yc)显示中心像素周围的邻域值,hk 是 haar 基函数。 使用 haar 小波对所有四个方向的 hk 和 z (xc,yc)的内积返回 l (d)的值,最后使用某个阈值生成 hlbp 码。 就像图像上的任何 lbp 代码一样,这里的图像也被分解为 g (r0... rg-1)区域,因此,对 g 区域做了单独的直方图。 为 hlbp 特征的直方图 hlbph 计算区域 rk 使用 eq。 (8).

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238047],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。