颜色和纹理描述外文翻译资料-外文翻译网

英语原文共 13 页

颜色和纹理描述

摘要——本文提出了对颜色和纹理的概述描述，该描述已通过最终委员会草案MPEG-7标准的核准。本文所描述的颜色和纹理在过去两年已经历了广泛地评估和发展。评价标准包括相似性检索描述的有效性，以及提取，存储和代表的复杂性。标准的颜色描述符包括使用哈尔变换的直方图描述，颜色结构直方图，主导颜色描述符以及颜色布局描述符。这三个纹理描述符包括一个有质地均匀的特点以及另一个代表当地的边缘分布。一个促进纹理浏览功能的紧凑描述也得以确定。通过它们的语义、提取和使用，每一个描述符都解释得非常详细。实验结果已经记录了其有效性。

导言

颜色和纹理都属于更多的视觉特征表现。在为这些功能的应用如相似性检索的有效描述的设计中，相当大的工作已经完成。例如，颜色直方图是最常用的色彩特征描述符中的一种，用来描述图像中的颜色分布。本文给读者阐述了一项通过基于颜色和纹理的MPEG-7标准来描述的视觉内容组的技术。我们可以在引用和其他相关的MPEG文件中找到一些涉及MPEG-7对颜色和纹理更详细描述的资料。

本文提到的颜色和纹理的描述符已经在过去的两年里通过了严厉的测试和开发，因此在内容代表中代表了一些更加成熟的技术。这些测试和开发是由MPEG视频组和它的广告对颜色和纹理定义的各项核心实验而进行的。

第二节介绍了MPEG-7的颜色和纹理检索核心实验，包括在这些实验中使用的颜色、纹理数据集的一个简短讨论。随后在第三节中描述了颜色描述符。第四节中讨论的是纹理描述符。最后，我们以撰写对一些尚未解决的问题作简要说明来结束本文。

必须强调，这一文件的主要目的是提供一个对MPEG-7描述的概述。由于交易文件的网络限制，技术的详细程度并不是像我们所希望提供的那样。对于一个完整的技术说明，有兴趣的读者可以参考[1]、[2]。

二、基于MPEG-7的颜色/纹理检索核心实验程序

核心实验通常是在MPEG标准化过程期间，以比较不同的竞争性技术，来建立拟议技术的优点。视频组技术主要根据以前MPEG标准在处理高效的压缩上，和信号的信噪比（SNR）构成一个有效的标准来进行比较。MPEG -7图像视觉描述的比较和测评技术展现了不同的挑战，因为在不同的测评方法中并不存在共同的基本规则。对于图像视觉的描述，检索应用程序被认为是最好的模型。一个好的检索结果对于描述符的表述查询是一个很好的指标。在颜色和纹理的核心实验中，所谓的事例查询模式已被用来作为评价的主要方法。在事例查询中，从图像中提取出来各个描述值，然后进行匹配，在一个数据库中找出有相应描述的图片。为了能够进行客观的比较，我们需要定量测量。这需要规范的数据集，查询集和相应的地面实测数据。地面实测数据是一个类似图像视觉给定的查询图像集。

在颜色和纹理核心试验中，查询数量约为数据库内部图像数量的1%。例如，在色彩的实验中，一个常见的颜色集（CCD）大约由5000个图像以及50个常见的颜色查询（犬牙）组成，每个指定的地面实况图像设置已经确定。

各工作委员会和特设小组内的MPEG -为编制这一数据集花了超过6个月的时间。对于颜色和纹理的核心实验，数据集由多种不同的静止图像，一些从照片画廊以及电视节目截屏下来的图片和动画组成。查询和相应的地面实况图像是通过在不同MPEG参与者群体进行目视检查和交叉核实手动建立的。在一些描述的案例中，检索静态图像的功能（如同质纹理）是基于采用将大图片分割成更小的子图这样一个较为客观的策略。在所有颜色核心实验的计算工作上都是使用相同数据集的，尽管每个描述符解决了不同方面的可视内容。

在数据库和地面实测查询已经确定之后，有必要权衡一些数字衡量的查询结果。检索率（RR）是一个非常流行的措施。

（1）

NG(q)：查询地面实况的值

NF(a，q)：实况图在中的第一个检索值

RR(q)：在0和1之间取值，0代表“没有发现图片”1代表“查询所有图片”

a因子应该大于等于1，值越大容错性越好。如果（1）式已经将所有的NQ查询都执行了，则我们可以通过以下的公式得出平均检索率

（2）

此外，RR在（1）式已经被硬性定义。因此，设置a= 1可能并不恰当，因为按NG 1检索地面实况图像会利于排除公式（1），而在主观检索准确性方面，这可能不会太严重。另一方面，选择较大的a值会减少好的检索结果与不好的检索结果之间的差异性。例如：当a=2时，RR可能等于所有的图像是按照1......NG的形式排列被找到的情况或者等于按照NG 1.....2。NG的形式排列被找到的情况，显然后者是一个坏的结果。

为了解决这些问题，标准化措施，考虑到不同规模地面实况集和从定义检索时获取的真实队列。检索那些丢失项则进行罚款分配。考虑查询。假设作为检索结果，对于地面实况图像的检索是通过特定的RANK（k）来发现的。此外，使用特定的“相关排列”来定义一个数k大于等于NG， i.e.,队列将仍然算作是可行的主观评价的检索条件。对于比较大的NG（20~25），项目会判断检索结果是否仍然有效，假如项目是围绕着2XNG，而较小的地面实况集，更大的偏差也是允许的。罚款分配应该大于等于k，但有人认为，罚款只是为了追平k值而使的检索在有利因素下出现很多的偏差。一个好的方案是要Rank(k)来定义的

通过（3），我们可以得到查询q的平均排列(AVR)

然而，不同的路面实测集（实际上，NG是在3到32之间变化 in the CCQ）和通过大小不一的NG(q)值计算地面实测集的AVR有着显著的差异。为了减少在NG(q)值变化所带来的影响，一个修改检索排名公式如下：

注意，MRR(q)在完美检索（发现地面实况的第一时间位置）的案例中的值是等于0。然而上界仍然取决于NG，最后的一个标准化是关于NG(q)导致规范化修改检索排名（NMRR）

NMRR(q)的取值只能是在0（事实表明整个地面实况被发现）和1（实况没有被发现）之间，对于NG(q)的值则不予考虑。从公式（6）我们可以直接得出ANMRR，giving just one number indicating the retrieval quality over all queries。ANMRR的公式如下：

ANMRR评价标准使用在所有基于MPEG—7的颜色核心实验中。数据证明：ANMRR测量结果与关于检索准确的搜索引擎[12]的主观评价结果近乎线性吻合。当然，视觉描述的评价，不能仅仅根据检索的准确性。下一步的标准则是更加的紧密，特征提取和匹配以及可扩展性是复杂性的。有趣的是，在实验中发现，核心之间存在的一个相关性很强的描述（如计入为代表所需的比特数），以及检索的准确性。这允许安装“速度精度曲线”（类似于信噪比的失真率曲线广泛的被图像和视频编码使用）。为了使匹配的程序设计中描述符的评估独立，共同的匹配方法被用于实验范围内尽可能的核心部分。大多数实验都依靠第一标准，也有一些通过二级标准和确定被别人使用过的统计性的距离措施。

三、颜色

颜色也许是所有视觉特征中最具表现力的并且在过去十年的图像检索研究中被广泛的使用。图像颜色在当前MPEG - 7最终委员会草案（FCD）[1]版本的描述如图1所示。颜色描述包括一个直方图描述，一个主色描述符数目，以及颜色布局描述符（CLD）。定义这套指标是为了服务于不同的应用领域，而保持可能变体的数目减至最低，以保证之间的互相操作产生不同的MPEG - 7的色彩描述（见下文）。它已经超出了本文的范围，总结了发生在核心实验过程中的整个选择过程；一般来说，描述是基于深入研究的效率被接受和定义的（在规模和检索描述准确性方面），复杂度，以及其他标准一样广泛地适用于应用范围。

我们从直方图来分析颜色描述符在基于MPEG—7的视觉描述发展中所发挥的核心作用。首先，一个通用的颜色直方图描述被定义为能够捕捉颜色分布对于图像搜索的准确性和应用合理性。然而，在一个通用的颜色直方图中有太多独立的维度。其中包括色彩空间的选择，色彩空间量子化的选择，以及直方图价值量子化的选择。我们能够意识到（经过广泛的试验后）如果离开这些选择用户会就破坏根本目的的标准，例如，描述之间的互操作性是通过不同的MPEG - 7系统产生的。对此有必要限制衍生直方图描述集。可扩展的颜色描述符（SCD）是在HSV色彩模型颜色空间量化的色彩空间中定义的，并采用了新颖的哈尔变换编码。哈尔变换的编码促进了描述代表的可扩展性，以及特征提取复杂性的可扩展性和匹配程序。这种描述可以扩展到照片的收集或若干视频帧，和一些帧的图片组（GoP）描述符指定不同构造方式的直方图。颜色结构直方图旨在查明局部颜色分布使用的小结构窗口。为了确保互操作性，颜色结构直方图是在色调最小最大差（HMMD）色彩空间中构造的。HMMD色彩空间的描述我们会在III-A这节给出。

占主导地位的颜色描述给出了图像中的突出颜色分布。不同于本量化直方图，颜色的主色描述规范只是受了色彩空间量化的限制。其目的是提供一个有效的、体积小的以及目前一个地区利益的直观颜色代表。

地方发展中心捕获就感兴趣的区域网格叠加占支配地位的颜色空间布局。这是一个非常紧凑的描述，且对快速浏览和搜索应用很有效。它可应用于静态图像以及视频片段。

以下各节提供有关这些颜色描述符更加详细的介绍，首先是以使用于MPEG-7的色彩空间的简单描述考试。

颜色空间

使用于MPEG-7的不同色彩空间包括熟悉的单色，RGB，HSV，YCrCb，以及新的HMMD。单色（只有强度）空间也得到支持。这相当于在YCrCb空间。如果在现有的捕获过程中有用，它可以参考色度初选定义为RGB。从规范化的RGB（其中的每一个组成部分的光谱值范围从0到1）到其它的颜色空间的转换可参考图2。

HSV颜色空间是操作色彩的一个热门选择。HSV颜色空间的开发提供一个直观的颜色代表，以及近似人类认识和处理颜色的方式。RGB对于HSV来说是非线性的，而且是可逆的，可改造的。高色调代表光谱成分占主要地位——光谱纯形式，如绿色、红色、黄色或白色。添加纯白色改变了颜色：白色越少，颜色越饱和。这对应于饱和度（S）。该值（V）对应颜色的亮度。坐标系统是圆柱形的，通常由一个六面的倒金字塔定义的子空间作为代表。在金字塔的顶端对应V=1，以“白色”为中心。色调的衡量标准时绕垂直轴的角度，用红色对应0。饱和范围是由金字塔中心的0到表面的1。倒锥也是用来表示子空间，而不是金字塔。

一种新的色彩空间，HMMD色彩空间，在MPEG-7中也被支持。在HSV空间中，色调也有着同样的意义，并且最大值和最小值在R，G，B中分别是最大和最小的。该差异被定义为最大和最小之间最大的区别。只要三四个组件足以说明HMMD空间。这个色彩空间可以使用双锥形结构描述，如图3。在MPEG-7图像检索的核心实验中，有人指出，HMMD色彩空间是很有效的，与HSV颜色空间相媲美。注意：该HMMD色彩空间是一个关于恒指的颜色略有扭曲的空间[6]，其中部分差异是根据强度值规模的。HMMD颜色空间是使用在颜色结构描述符中。

为了确保互操作性，色彩空间允许各种颜色描述符限制标准。占主导地位的颜色描述符允许MPEG-7支持的任何色彩空间的颜色规格。RGB空间对于搜索和提取任务不是很有效，并且在使用任何颜色时没有明确描述。SCD使用HSV空间，颜色结构直方图使用HMMD。发展中心的定义为YCrCb空间，。这些色彩空间的描述也在视觉以外的描述中使用，例如在指定为“在适当的媒体属性描述的计划”。在指明“媒体属性”计划的适当的描述。

B.SCD

早期的MPEG-7实验中定义的通用的颜色直方图描述是一个由复合符、色彩和直方图描述组成的色彩空间。这将使颜色直方图具有不同规格的箱子和非均匀量化不同的色彩空间。然而，不宜有太多这样规范的灵活性，因为这会限制不同种类之间的互操作性基于MPEG-7。SCD通过固定色彩空间到HSV空间，解决了操作性问题，以期在HSV空间的统一量化到256箱。本值是非均匀量化的11位值。

这种方法实现了颜色代表的不同决议间的完全互操作性，范围从16位/低端大约1000位柱状图/直方图在高端。当然，该功能的描述精度在很大程度上取决于所使用的位数。不过，核心实验表明，仅使用64位，良好的检索结果仍然是可以实现的，而良好的效果可以充分使用中等或决议的描述。

HSV空间均匀量化成256箱。这包括H中的16个水平，S中的4个水平以及V中的4个水平。直方图为11位数表示截断水平。为了实现更有效的编码，11位整数值首先映射到“非线性”的4位代表中，从而更高的意义，以更大的可能达到概率小的值。

256箱HSV直方图的4位代表将需要1024比特/直方图，在许多情况下的MPEG-7应用中，这是一个很大的数目。为了降低这个数字，并使应用可扩展，直方图使用哈尔变换进行编码。

哈尔的基本单位变换的款项包括一个总的经营和一个不同的运作[见图4（a）]，它涉及到原始低收入和高通滤波器。直方图总结相邻先对，相当于一个半直方图计算的回收箱。如果这个过程是反复的，对哈尔代表的系数子集的使用，相当于128，64，32箱，这些都是从源直方图来计算。

高通（差）的哈尔变换系数表达了直方图所载资料分辨率的水平（和更高的箱数）。自然图像信号通常表现出相邻直方图线的高冗余。这可以解释为通过可变光照和阴影效果造成的颜色“杂质” （略有变化）。因此，可以预计，高通系数表示相邻直方图箱之间的差异通常只有小值。利用这个属性，就可以截断高通系数为整数，以只有1位偏低的数字为代表。

图4（b）显示了完整的系统框图。输出代表是可扩展的回收箱，通过改变所使用系数的数目。不同的分辨率水平之间的互操作性仍然保留，是因为哈尔变换的缩放属性。因此，匹配以子集系数信息为基础保障了相似性。表一显示哈尔变换系数之间的关系，如SCD。相应的HSV直方图组件中的分区可以通过系数重建

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

颜色和纹理描述外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章