基于非参数低层视觉模型的显著性估计外文翻译资料

 2022-08-09 10:08

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


Saliency Estimation Using a Non-Parametric Low-Level Vision Model

基于非参数低层视觉模型的显著性估计

摘要

许多成功的用于预测场景中注意力的模型都涉及三个主要步骤:与一组过滤器进行卷积,中心环绕机制和空间池以构造显著图。但是,整合空间信息并证明选择各种参数值的合理性仍然是悬而未决的问题。在本文中我们表明,可以概括一种有效的人类视觉颜色外观模型,其中包含参数的原则性选择以及固有的空间汇集机制,从而可以得到优于最先进模型的显著性模型。

尺度积分是通过对一组尺度加权的中心环绕声响应进行逆小波变换来实现的。缩放权重函数(称为ECSF)已经过优化可以更好地复制颜色外观方面的心理物理数据,并且通过在眼动数据上训练高斯混合模型来确定中心周围抑制窗口的适当大小,从而避免了ad-hoc参数选择。此外,我们得出结论将颜色外观模型扩展到显著性估计,为不同视觉任务的通用低级视觉前端增加了证据。

1.介绍

眼动可能是人类视觉系统最重要的特征之一,它使我们能够通过改变注视点来快速采样图像。尽管许多因素可能决定我们的注意力过程选择或丢弃了哪些图像特征,但将这些特征分为两类因素很有用:自下而上和自上而下。前者包括自动驱动的(瞬时)过程,而后者包括依赖于生物体内部状态(例如手头的视觉任务或受试者的背景)的过程。尽管通常通过在先验知识上训练的机器学习技术来解决了解内部状态的困难,但通常通过构建显著图来解决图像驱动的过程,该过程从低级生物学过程中获得灵感,而生物学过程比更难捉摸的顶层更出名的下降机制。显著性图是场景中视觉上显著部分的地形图(给定位置的显著性又取决于该位置与其周围在颜色,方向,运动,深度等方面的差异[10])。计算这些地图仍然是一个悬而未决的问题,其对计算机视觉的兴趣正在增长[6、5、3、18、9、8]

几种计算模型已经被提出来预测人的注视,其中一些是受生物学机制(通常是众所周知的低水平过程)启发的,而另一些则基于直接从注视数据中训练的学习技术。

在显著性的生物学启发模型中,Itti等人的模型[7]是最有影响力的方法之一,将不同空间频率和方向的特征图的尺度空间中心-周围激励响应相加,并将结果馈入神经网络,其输出可测量显著性。高等[4]在某处采用显著性作为描述该位置的一组特征的区分能力,以区分该区域及其周围区域。Bruce&Tsotsos[3]认为该位置的显著性可以通过该位置相对于其周围环境的自信息来量化-整个图像,或更局部的像素区域。张等[18]也提出了一种基于自我信息的方法,但是使用空间金字塔来产生局部特征(上下文统计是从自然图像的集合而不是像素或单个图像的局部邻域中生成的)。 Seo和Milanfar [14,15]使用自相似机制来计算显著性,在该显著性中,与周围环境相比曲率不同的区域被指定为高度突出。在典型的基于学习的方法[9,8]中,使用眼动数据学习并结合了显著特征,而学习技术则用于减少必须调整的模型参数的数量。

在最常见的自底向上建模框架中,场景中的注意力包括使用一组线性滤波器

图1:(a)用绿色和红色概述的场景的两个显著特征。在(b)和(c)中,我们显示了每个对象最突出的空间比例和方向。由于这两个要素的比例和方向不同,因此整合空间金字塔中包含的信息至关重要。

对输入图像进行比例空间分解,对分解进行中心环绕操作以及某种空间池化以构建最终显著图。但是,此方法核心的两个主要问题仍未解决:(a)如何整合从分解的多个尺度得出的信息,以及(b)如何调整各种参数以获得通用机制。集成比例尺信息特别重要,因为场景中的显著特征和不同场景中的显著特征可能占据不同的空间频率,如图1所示。因此,一种在空间金字塔的不同级别定位显著特征并将这些特征组合成最终特征的机制地图至关重要。

在本文中,我们提出了一个显著性的计算模型,该模型遵循上述典型的三步体系结构,同时尝试通过简单的,在神经上似乎可行的机制的组合来回答上述问题,该机制几乎消除了所有任意变量。我们在本文中的建议概括了为预测颜色外观而开发的特定低级模型[13],它具有三个主要级别:

在第一阶段,以与关于早期人类视觉通路的已知方式一致的方式处理视觉刺激(颜色对手和亮度通道,然后进行多尺度分解)。从生物学上讲,所使用的滤波器组(类Gabor小波)和空间尺度范围(以八度为单位)是合理的[1,16,17],通常用于低级视觉建模。

我们模型的第二阶段包括模拟视觉皮层细胞中存在的抑制机制,该机制有效地规范了它们对刺激对比的反应。通过训练关于眼动数据的高斯混合模型(GMM)来学习中央和归一化环绕窗的大小。

我们模型的第三阶段通过直接对皮质输出的非线性化计算出的权重执行逆小波变换,从而在多个尺度上整合信息。这种非线性积分是通过类似于Otazu等人提出的加权函数完成的[13]并命名为扩展对比度敏感度函数(ECSF),但经过优化以适合不同空间尺度上的心理物理色彩匹配数据。

我们合适的ECSF是我们提案的核心,代表了其最新颖的组成部分。以前已经通过拟合相同的低层模型对其进行了调整,以预测人类观察者对颜色感应图案的匹配。该功能还可以对显著性进行建模,这一事实为针对不同视觉任务的独特底层机制的假设提供了支持。可以对该机制建模,以预测颜色外观(通过将反小波变换应用于由ECSF权重调制的分解系数)或视觉显著性(通过将变换应用于权重本身)来建模。此外,我们介绍了一种选择标准化窗口大小的新颖方法,该方法减少了必须以即席方式设置的参数数量。

我们的两个主要贡献可以总结如下:

1.一种框架,用于通过一组加权的中心环绕输出的简单逆小波变换来积分比例。

2.减少临时参数。通过引入有关颜色外观和注视心理物理数据的培训步骤来完成此操作。

本文的其余部分安排如下。在第2节中,我们介绍了低级色觉模型和拟合的ECSF。在第3节中,我们使用模型得出的权重来计算显著性,而在第3.1节中,我们评估模型的性能。第3.2节总结了结果,第4节讨论了进一步的工作。

2.低级视觉模型

我们在这项工作中提出的显著性估计方法是从Otazu等人开发的统一颜色归纳模型得出的低级视觉表示的扩展 [12,13]。在这些作品中,作者提出了一种分别预测亮度和颜色外观的多分辨率模型。颜色感知是几种适应机制的结果,这些适应机制会导致同一色块根据其周围环境而不同地感知。尽管在两种情况下它们在物理上是相同的(绘制了强度和RGB颜色通道轮廓,但图2中两个图像的区域A和B分别被感知为具有不同的亮度(在面板a中)和/或不同的颜色(在面板c中)。如相应面板(b)和(d)中的实线所示。这些错觉是由Otazu等人的颜色模型预测的[13],如图2中的虚线所示(面板(b)和(d))。 例如,区域A在图形(b)中较暗,而区域B在图形(d)中较橙。

图2:亮度和彩色视觉错觉及其相应的图像配置文件(实线b和d)和模型预测配置文件(虚线b和d中的虚线)。

在Otazu等人模型的第一阶段,使用多分辨率小波变换将图像与一堆滤镜进行卷积。生成的空间金字塔包含水平(h),垂直(v)或对角线(d)定向的小波平面。使用小波变换获得的空间金字塔的系数可以认为是局部取向对比度的估计。对于给定的图像I,将小波变换表示为:

其中omega;S,O是空间尺度s上的小波平面,方向为o,IC表示图像I的相对通道O1,O2和O3之一。每个相对通道都分解为使用小波变换WT的空间金字塔。此变换包含类似Gabor的基函数,并且对于最大尺寸为D的图像,分解中使用的比例数由n = log2D给出。

在第二阶段,通过以二值滤波器h对局部区域进行卷积,来估计以小波系数omega;x,y为中心的,以位置x,y为中心的对比能量ax,y。滤波器的形状随其在其上工作的子波平面的方向而变化,如图5所示。例如,对于水平子波平面,通过ax,y来计算

其中hj是一维滤波器h的第j个系数。针对所有空间位置和空间比例下的系数计算对比能量。滤波器hj定义了中心小波系数omega;x,y周围的区域,在该区域中计算了活动ax,y。该中心区域与周围区域之间的相互作用产生了中心环绕效果。为了建模此中心环绕效果,使用比较了中心区域和周围区域的能量。

以类似于的方式计算周围区域的能量,唯一的区别是滤波器h的定义,也如图5所示。执行rx,y以产生最终的中心环绕能量量度zx,y

使得zx,yisin;[0,1]。当zx,y→0时,中心活动比周围活动低得多。同样,当zx,y→1时,中心活动比周围活动高得多。因此,rx,y可以解释为相对中心活动的饱和近似。中央和环绕区域的大小用于定义相应的hj滤波器的大小。

众所周知,颜色外观取决于空间频率。Mullen [11]用广义的对比敏感度函数(CSF)描述了人对色彩对手通道中局部对比度的敏感度,这是空间频率的函数。 采用这种想法Otazu等人定义一个扩展的对比敏感度函数(ECSF),该函数由空间比例s和中心环绕声参数化对比能量。空间比例与空间频率nu;成反比,因此s = log2(1 /nu;)= log2(T),其中T为周期,因此表示一个以像素为单位的频率周期。功能ECSF定义为

其中函数g(s)定义为

此处s表示要处理的小波平面的空间比例,beta;是比例常数,而sigma;1和sigma;2定义g(s)的空间灵敏度的展宽。 参数定义g(s)的峰值空间尺度灵敏度。在等式5中,小波系数的中心周围活动z由g(s)调制。引入了一个附加函数k(s),以确保k的下界为非零

此处,sigma;3定义了k(s)的空间灵敏度的分布,而定义了k(s)的峰值空间尺度灵敏度。

ECSF函数用于加权某个位置的中心周围对比能量zx,y,从而产生最终响应alpha;x,y

alpha;x,y是调制小波系数omega;x,y的权重。包含色彩外观错觉的感知图像通道I感知到的c,是通过在每个位置,比例和方向上对小波系数omega;x,y进行逆小波变换后获得的,该系数已通过alpha;x,y响应加权位置:

在此,o表示小波平面omega;x,y,s,o的方向,Cr表示从WT获得的残像平面。

Otazu等人的模型。能够复制从两个单独的实验中获得的心理数据。在第一个实验中,由Blakeslee等人进行[2],观察者执行不对称亮度匹配任务,以匹配刺激区域中存在的错觉。图3(a)显示了一些示例亮度刺激。第二个实验是由Otazu等人进行的[13]以类似的方式,但观察者执行不对称的颜色匹配任务,而不是执行涉及亮度的任务。这些实验中使用的一些示例色彩刺激如图3(a)所示。

我们的显著性估计模型基于我们刚刚描述的先前阶段。但是,为了获得强度和颜色ECSF(z,s)函数的参数,我们使用了由[2]和[13]的作者提供给我们的心理物理数据来进行最小二乘回归,以便选择功能的参数。我们的结果在表1中给出。两个拟合的ECSF(z,s)函数与颜色和亮度心理物理数据保持较高的相关率(r = 0.9),如图3(b)所示。注意,两个色度通道共享相同的ECSF(z,s)函数。亮度和色度通道的优化ECSF(x,s)函数的最终结果曲线如图4所示。这些函数增强了窄通带中的对比能量响应,并在低空间比例(高空间频率)下抑制了对比能量。增强或抑制的幅度随中心周围对比能量z的幅度而增加。

图3:(a)心理物理实验中使用的图像示例。 (b)模型预测与心理物理数据之间的相关性。 实线表示模型线性回归拟合,虚线是理想拟合。 由于度量涉及无量纲度量和物理单位,因此将它们任意归一化以显示相关性。

表1:使用最小二乘回归获得的ECSF(z,s)参数

3.建立显著图

在上一节中,我们描述了预测颜色外观现象的低级视觉表示。 该模型由公式9得出结论,公式9可以重新表示为

我认为Iperceivedc是原始频道的新版本,其中图像位置可能已通过alpha;权重(通过模糊或增强效果)进行了修改。 修改后的位置的颜色要么被同化(取平均值)以使其与周围颜色更相似,要么被对比(被锐化)以使其不与周围环境相似。

图4:(a)强度和(b)色度通道的加权函数:蓝色表示较低的值,而红色表示较高的值。 (c)显示了色度通道的ECSF(z,s)切片,z = 0.9。 对于小波系数,它对应于大约3到6之间的比例,其中心周围对比度能量得到了增强。 通带以外的系数被抑制(对

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239524],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。