语义单幅图像去雾外文翻译资料

 2021-11-06 05:11

英语原文共 15 页

语义单幅图像去雾

郑子昂、邵迪友、维奥拉和李洪东

1澳大利亚国立大学数据2澳大利亚联邦工业研究组织

摘要

由于单一图像中包含的信息有限,因此单一图像去雾具有挑战性。以前的解决方案主要依靠手工制作的先验来弥补这一不足。最近的卷积神经网络模型已经被用来学习雾霾相关的先验知识,但是它们最终作为高级图像滤波器工作。本文提出了一种新的去除单幅图像模糊的语义方法。与现有方法不同,我们基于提取的语义特征推断颜色先验。我们认为语义语境可以被用来为(a)在干净图像上学习颜色和(b)估计环境光照提供信息线索。该设计允许我们的模型从具有强模糊性的挑战性情况中恢复干净的图像,例如图像中的饱和照明颜色和天空区域。在实验中,我们在合成和真实模糊图像上验证了我们的方法,其中我们的方法显示出优于最先进方法的性能,表明语义信息有助于模糊去除任务。

1介绍

在朦胧/多雾天气拍摄的图像通常会因粒子散射光而导致能见度下降,这包括颜色偏移、对比度损失和衰减饱和等。这又可能危及高级计算机视觉任务的性能,例如物体识别/分类、航空摄影、自主驾驶和遥感。

现有去雾算法遵循广为接受的粒子模型[1],该模型将场景结构和给定雾度输入下的无雾度图像相关联。早期研究利用从不同角度/位置拍摄的同一场景的多个图像来恢复结构信息,从而恢复雾度浓度。另一方面,单一图像去模糊化是一个极端的不适定问题。挑战来自于这样一个事实,即单个模糊的图像既不能提供场景结构的信息,也不能提供清晰的场景,而需要一个图像来推断另一个图像,从而导致清晰图像估计的模糊性。通常,传统方法[2,3,4]在两个方面都明确利用先验(或约束):通常假设局部深度一致,一个或多个颜色先验也是如此。最近,有几个有线电视新闻网模型被提出用于去除[5,6,7],并且在性能方面与现有技术处于可比较的水平。这些模型通常是轻量级的,并且基本上利用了大多数较低级别的特征,因为去杂仍然被认为是一个图像处理问题。

总之,现有的方法完全依赖于手工制作的物理或低级先验。虽然这些经验主义的先例通常都很有效,但人们可以很容易地得出结论

(a)地面实况 (b)我们车辆 (c)AOD网[7] (d)发展合作署[2] (e)联合呼吁[3] (f)雾霾线[4,8]

图1:针对去雾提出的语义解决方案:我们依赖语义先验来提供其他难以获得的附加信息

这些额外的知识有助于预测物体的真实颜色以及环境光照违反其假设的示例(例如,明亮的表面、彩色的薄雾)。这方面观察到的一个明显问题是,恢复的图像趋向于过度饱和,并且具有不正确的色调。仅仅因为低级别的信息不足,这个问题一般是无法解决的。然而,人类用户可以很容易地辨别颜色的自然性,例如,是树太绿了还是天空太蓝了。这种感觉不是来自任何低层次的先验,而是因为我们人类所了解的语义先验。

本文介绍了一种新的基于语义的去雾方法,它利用语义信息为推断清晰图像提供额外的指导。语义线索已经在其他“低级”应用中获得成功,例如色彩恒常性·[9]和图像过滤[10]。本文提出了一种完全端到端的卷积神经网络,该网络从训练样本中学习语义和物体自然颜色之间的相关性,并基于所学习的语义特征推断干净场景和照明颜色。这样,对于中等或强语义颜色先验的对象类别(例如,天空是蓝色的,植被是绿色的),语义提供关于对象真实颜色的信息提示,并且可以高置信度地学习干净的场景和环境照明;对于中等或弱语义先验的对象,可以用例如来自其他强自信对象的低级先验和环境照明估计来预测真实颜色。我们方法背后的概念如图1所示。

本文的主要贡献在于,我们首次明确利用高级特征为单幅图像去雾问题提供信息性的颜色先验。我们发现,我们的方法对于极端环境(明亮的表面、严重的颜色变化、饱和的大气光线、天空区域等)是稳健的。这给以前的方法带来了重大挑战,实验表明,该模型在合成雾度的RGB-D测试集上获得了最新的结果。

图2:贝克山在不同天气下的距离(取自互联网)

作为模型,干净的图片(左)和两种不同的照明颜色(中、右)缝合在一起。我们也在现实世界中相似语义类别的模糊场景上测试我们的模型,其中该模型显示了与最先进的方法相当的结果。

2相关工作

2.1大气散射模式

跟随[1],朦胧的图像可以被视为真实物体颜色和环境照明的线性组合(图3),因此等式

, (1)

其中,I(x)是像素x的模糊图像值,J(x)是相应的清晰图像,A是环境照明的颜色,t(x)属于(0,1)表示透射率。假设雾度在空间中均匀分布,透射率t(x)定义为

, (2)

其中d(x)是来自照相机中心的物距,beta;是与雾度粒子相关的非负散射系数。

有时假设甲是亮灰色/白色[3,6,5]。然而,对于某些粒子或特定的照明条件,如图2所示,A也可以采用其他颜色(例如黄色/红色)。

2.2去除雾霾的最新技术

虽然在单个图像去雾(例如最大局部对比度[11)、大气光线恢复[12)、雾霾特征学习框架[13、彩色线[14)、压缩雾霾图像和视频伪影去除[15)方面有许多进展,但在本节中,我们将仅列出一些最突出或最近的进展。对于其他现有去雾算法的对比调查,我们请读者参考[16]。

暗通道先验(DCP) [2]是基于这样的观察,即现实世界对象的至少一个RGB通道通常具有非常小的值。在这种假设下,由环境照明引起的颜色偏移可以通过其暗通道获得。

图3:大气散射模型

捕获的图像是环境照明和干净场景的凸组合,因此传输颜色衰减先验(CAP) [3]由朱等人提出。创建一个线性模型,关联场景深度和局部饱和度与亮度之间的差异。雾霾线[4,8]假设真实世界的图像具有不同的颜色,因此图像像素在RGB空间中形成簇。随着雾度的存在,基于透射形成所谓的雾度线,簇向环境照明转移。最近还提出了一些深入学习的方法。德哈泽网[5]采用端到端全卷积网络(FCN) [17]来学习场景传输。然而,网络是在小图像补丁上训练的,每个补丁具有恒定的传输,并且不考虑非本地特征。摩根·德哈泽·[6]提出了一种用于学习粗传输的多尺度有线电视新闻网,并依靠另一个在管道中的有线电视新闻网对其进行提炼。AOD-[网络7]是第一个直接产生干净图像的端到端模型,并且已经被发现在朦胧的天气条件下提高高水平视觉任务的性能。杨等人。[18]设计三个独立的网络,分别生成清晰的图像、环境照明和传输,并使用对抗网络进行半监督学习。

由于图像去雾通常被认为是一项低级任务,现有去雾算法从经验观测或物理雾度模型中寻找先验。虽然深度学习的技术没有明确地假设这些知识,但它们是轻量级的,最终是为了学习低水平的霾相关特性而设计的。

2.3单图像去雾数据集

由于很难在不同天气条件下拍摄图像,同时保持其他场景设置不变,因此目前没有数据集提供大量真实世界模糊图像和相应的干净图像。

基于(1)的模糊数据集统一合成了RGB-D图像上的模糊。由于难以在室外环境中收集深度图,大多数RGB-D数据集仅包含室内场景(例如,[19号模糊数据集),该数据集使用来自NYU·[20]和米德尔伯里·[21、22、23]数据集的图像和深度图。室外场景的深度图通常不太精确,并且是通过(a)从立体摄像机(例如福格奇景[24)获得的视差或者(b)单目图像深度估计(例如[25]使用[26]来生成深度图。除此之外,所有现存的合成模糊数据集使用接近灰度的照明颜色,唯一的例外是Fat-tal的数据集[14],它选择天空颜色作为照明颜色。

3语义颜色优先

我们提出了一种探索去雾语义的新方法,通过训练一个有线电视新闻网模型,从训练集中学习以一组语义特征为条件的颜色分布。这种方法允许我们的模型推断用于恢复真实场景颜色的语义先验。当模型再次看到相似的语义时,通过语义线索获得的额外知识被用来弥补单一图像中信息的缺乏。清晰图像:传统方法依赖物理雾度模型来恢复物体的真实颜色。这需要准确估计大气光和透射值(结构信息),这两者都很难获得。然而,语义类和它所呈现的颜色分布之间往往存在很强的相关性(例如,植被可能具有绿色),因此,真实的颜色有时可以高置信度地直接预测(见图1)。语义特征因此可以为干净图像的预测提供强先验,这在估计模糊度高(例如非常小的传输值)时尤其有用。一个例子是实际上深度无限的天空区域,在这种情况下不可能恢复真彩色。然而,当正确识别为天空时,图像部分可能是蓝色。虽然猜测不一定准确,但是颜色分布仍然可以被学习和利用来减少预测的模糊性。

环境照明:另一方面,语义上下文对于估计大气照明颜色也是有用的,最直接的情况也是天空区域,其颜色通常接近环境光。这反过来可以有益于具有弱语义先验的对象(例如,汽车可以是任意颜色的,但是在空间上靠近道路或树的汽车将可能具有相似的深度和透射率,然后可以在给定环境照明的情况下推断其真实颜色,如图1所示)。

然而,在实践中,我们也观察到当给定模糊图像作为输入时,物体的真实颜色和环境照明是相互依赖的。因此,我们设计了一个网络,将两者结合起来,并允许其中一个完善另一个。不是要求我们的网络明确预测照明颜色,而是利用一组全局特征,其可以携带与例如不仅环境照明颜色而且全局场景语义相关的全局上下文信息。这种非局部性允许从具有强自信语义先验的对象中学习的信息传播到图像的其他部分,并且有利于具有弱语义先验的对象的真实颜色预测。

3.1概述

建议模型的管道如图4所示。该模型以模糊图像为输入,输出为预测的清晰图像。我们的模型遵循完全卷积设计,由三个模块组成:用于高级语义特征提取的语义模块,用于预测全局特征的全局估计模块,以及用于推断干净图像的颜色模块。

图4:所提出模型的管道由语义模块、全局估计模块和颜色模块(分别用绿色、橙色和蓝色表示)组成

注意,语义模块和全局估计模块的输出都被上采样/广播到原始图像大小,并与模糊图像连接作为颜色模块的输入。

3.2语义模块

对于语义特征提取,我们利用在图像网数据集[28]上预先训练的众所周知的图像分类网络VGG16 [27]。该模型已被广泛训练用于超过1000个语义类别的对象识别任务[28]。由于我们只需要语义相关的特征,而不需要精确的标注,因此我们移除了VGG模型的最终密集和最软层,并使用其中间卷积层的输出进行语义特征提取。我们选择VGG16是因为其良好的性能和简单的设计。VGG16模型有5个多层块(我们称之为块1到块5),每个块有几个卷积层,后面跟着一个最大汇集层[27]。因为我们想要加强语义网络的泛化能力,所以我们不训练VGG模型来服务于我们的数据集,即它的权重在训练期间是固定的。

通常观察到,随着信息通过深层有线电视新闻网(例如分类和识别模型)传播,处理后的知识通常信息量较少,但更面向任务。为了平衡信息丢失和任务特异性之间的平衡(在这种情况下是场景语义提取),我们使用VGG16的块4中的最终卷积层(降采样系数为8)来推断局部特征的颜色先验。然后,提取的局部语义特征由一个轻量级三级子网向上采样到原始图像大小,以适应颜色模块的输入大小。在每个阶段,使用核大小为3 times; 3的卷积层将特征数量减少一半,然后将特征映射向上采样2倍。

3.3全球评估模块

我们进一步利用语义模块来估计一组32个全局特征。这种设计背后的关键直觉是,全局特征可能携带关于环境照明或语义上下文的有价值的信息,这些信息可以从场景语义中推断出来。VGG16模型的块5输出(下采样系数为32)被发送到我们的全局估计模块,该模块预测每个要素图的单个值(1 times; 1大小的要素)。

我们采用[9]中提出的置信加权池技术。所提出的全局估计模块被训练为从每个输入片omega;学习一组局部特征以及局部置信度。然后,通过平均由局部特征的个体置信度加权的局部特征来获得全局特征F:

(3)

这种汇集技术使我们的模型能够根据局部区域语义先验的置信度来提取全局特征,因为一些语义类可能比其他语义类具有更高的重要性(如图1所示)。全局汇集允许局部特征被聚集并广播到图像的其他部分,并且在完全卷积架构中有效地启用图像大小的接收场。

为此,我们构建了一个具有四个中间层的轻量级模型来学习全局特征。我们使用前三个卷积层(滤波器大小分别为5times;5times;256、5times; 5times;64和1times;1times;33)进行进一步的特征提取。置信度汇集层的输入有33个特征,其中前32个是预测的局部特征,最后一个特征是相应的置信度。在池化之前,出于标准化目的,基于置信度应用分层软最大激活。全局估计模块的最终输出被简化为32个信道的1 times; 1特征映射。

3.4颜色模块

颜色模块读取语义特征和全局特征。全局特征被广播到原始图像大小,此时模糊图像以及语义和全局特征映射被连接,如图4所示。

级联的输入然后由我们的颜色模块处理。在这一部分,我们使用AOD网络[7]的架构,因为它是最先进的端到端有线电视新闻网德哈兹模型。然而,在我们的例子中,输入不仅包含模糊图像,还包含48通道特征图(16通道用于语义特征,32通道用于全局特征),因此,中间层具有更多过滤器来处理额外的输入特征。最初的AOD网络的5个卷积层各有3个滤波器,我们的改进版本分别有16、16、8、4、3个滤波器。没有进行其他修改。我们网络的最终输出是预测干净场景的RGB图像。lt;/

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。