英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

附录A 译文

一幅单一图像中雨滴去除的专注生成对抗性网络

摘要

雨滴粘附在玻璃窗或相机镜头上会严重影响背景图像的可见性，并大大降低图像的质量。在本文中，我们通过视觉上去除雨滴解决了这个问题，将雨滴退化图像转化为清晰的图像。这个问题很难解决，因为第一没有给出雨滴遮挡的区域。第二，遮挡区域的背景场景信息大部分是完全丢失的。为了解决这一问题，我们利用对抗性训练建立了一个专注生成网络（ an attentive generative network）。我们的主要想法是将视觉注意力（visual attention）注入到生成性和判别性的网络中。在训练中，我们的视觉注意力学习雨滴区域及其周围环境。因此，通过注入这些信息，生成网络将更多地关注雨滴区域和周围的结构，而判别网络将能够评估恢复区域的局部一致性（the local consistency）。将视觉注意力注入生成网络和区分网络是本文的主要贡献。实验证明了该方法的有效性，在数量和质量上都优于先进的方法。

附着在玻璃窗口、挡风玻璃或镜头上的雨滴会阻碍背景场景的可见度并降低图像的质量。这主要是由于雨滴区域与没有雨滴的区域包含不同的图像信息。与非雨滴区域不同，雨滴区域是由来自更广阔环境的反射光形成的，因为雨滴的形状类似于鱼眼透镜的形状。此外，在大多数情况下，相机的焦点是在背景场景，这使得雨滴的外观模糊。

在本文中，我们解决了可见性退化问题。给出一个被雨滴破坏的图像，我们的目标是移除雨滴，并产生一个干净的背景，如图1所示。我们的方法是全自动的。我们认为，这将有利于图像处理和计算机视觉应用，特别是对于那些遭受雨滴，污垢或类似的人为影响的图片而言。

图1.演示雨滴清除方法

左：输入因雨滴而退化的图像。右：我们的结果，大部分雨滴被移除，结构细节被恢复。放大图像将提供一个更好的恢复质量。

针对雨滴检测和排除问题，之前已经提出了几种解决方法。诸如[17，18，12]等方法专门用于检测雨滴，但不去除雨滴。其他方法采用 stereo（立体）[20]、视频[22、25]或专门设计的光学快门[6]探测和去除雨滴，因此不适用于由普通照相机拍摄的单个输入图像。艾根等人提出的一种方法[1]，与我们的相似。它试图通过深度学习的方法，用一幅图像去除雨滴或污垢。然而，它只能处理微小的雨滴，并产生模糊的输出[25]。在我们的实验结果中（第6节)，我们会发现，这种方法不能处理较大和密集的雨滴。

与[1]相反，我们打算处理大量的雨滴，如图1中所示。一般情况下，雨滴清除问题是难以解决的，因为第一没有给出被雨滴遮挡的区域。第二，关于被遮挡区域的背景场景的信息大部分是完全丢失的。当雨滴相对较大并且密集分布在输入图像上时，问题就变得更严重了。为了解决这个问题，我们使用了一个生成的对抗性网络，在该网络中，我们生成的输出将由我们的区分网络进行评估，以确保我们的输出看起来像真实的图像。为了解决这个问题的复杂性，我们的生成网络首先尝试制作一张注意力图（attention map）。这张映射图是我们网络中最关键的部分，因为它将引导生成网络的下一个过程集中在雨滴区域。该映射是由深度残差网络(ResNet)[8]和卷积LSTM[21]以及几个标准的卷积层组成的递归网络生成的。我们称之为关注-循环网络（ attentive-recurrent network）。

生成网络的第二部分是以输入图像和注意图为输入的自动编码器。为了获得更广泛的上下文信息，在自动编码器的解码器端，我们采用了多尺度损失。这些损失中的每一个都比较了卷积层的输出与已被相应缩小的相应地面真相之间的差异。卷积层的输入是来自解码器层的特征。除了这些损失，对于最终输出的自动编码器，我们应用一个感知损失（ perceptual loss），以获得一个更全面的对于地面真相的相似性。这最后的输出也是我们生成网络的输出。

在获得生成图像输出后，我们的判别网络将检查它是否足够真实。就像一些修复方法(例如，[9，13])一样，我们的判别网络对图像进行全局和局部验证。然而，与修复的情况不同，在我们的问题中，特别是在测试阶段，没有给出目标雨滴区域。因此，没有关于局部区域的信息可供判别网络关注。为了解决这一问题，我们利用我们的注意力图来引导判别网络趋向于局部目标区域。

总之，除了引入一种新的雨滴去除方法外，我们的另一个主要贡献是将注意力图注入生成网络和区分网络，这是一种新颖的、有效地去除雨滴的方法，如我们的实验（第6节）中所示。.我们将发布代码和数据集。

论文的其余部分组织如下。第二节讨论了雨滴检测和去除领域以及CNN图像修复领域的相关工作。第三节解释了图像中的雨滴模型，这是我们方法的基础。第四节介绍了基于生成对抗网络的方法。第五节讨论了我们如何获得我们的合成和真实的图像，以用于培训我们的网络。第六节从数量和质量两个方面展示了我们的评价。第7节总结了我们的论文。

2. 相关工作

有几篇关于恶劣天气视觉增强的论文，主要用于防雾霾或雾(例如[19，7，16])和雨纹（ rain streaks）(例如[3，2，14，24])。不幸的是，我们不能直接应用这些方法来去除雨滴，因为玻璃窗口或镜片上的雨滴的形成和约束不同于雾霾、雾或雨纹。

之前已经提出了许多检测雨滴的方法。Kurihata等人[12]使用PCA来学习雨滴的形状，并尝试将测试图像中的一个区域与所学雨滴的区域相匹配。然而，由于雨滴是透明的，形状各异，尚不清楚需要了解的雨滴数量有多大，如何保证PCA能够模拟雨滴的各种外观，以及如何防止局部类似雨滴的区域被检测为雨滴。Roser和盖革[17]提出了一种方法，将一个综合生成的雨滴与可能有雨滴的斑块进行比较。综合雨滴被假定为球面截面（ a sphere section），后来被假定为倾斜球面截面[18]。这些假设在某些情况下可能是可行的，但却不能推广用于处理所有的雨滴，因为雨滴可以有不同的形状和大小。

Yamashita等人[23]使用立体声系统（stereo system）来探测和清除雨滴。它通过比较立体声测量的差异（disparities）与立体相机与玻璃表面之间的距离来检测雨滴。然后，将雨滴区域替换为相应图像区域的纹理，从而去除雨滴，假设其他图像没有遮挡相同背景场景的雨滴。在Yamashita等人的[22]中，提出了一种用图像序列代替立体声的类似方法。最近， You等人在[25]中介绍了一种基于运动的雨滴检测方法，并通过视频完成（video completion）来去除检测到的雨滴。虽然这些方法在一定程度上起到了去除雨滴的作用，但它们不能直接应用于一幅图像。

艾根等人的[1]单图像雨滴去除，据我们所知，这是在文献致力于这个问题的唯一方法。该方法的基本思想是使用雨滴退化图像和相应的无雨滴图像的图像对来训练卷积神经网络。它的cnn由3层组成，每个层有512个神经元。虽然这种方法有效，特别是对于相对稀疏的和较小的液滴以及污垢，但它不能对大而密集的雨滴产生干净的结果。此外，输出图像也有些模糊。我们怀疑，所有这些都是由于网络容量有限以及通过损失提供足够约束的不足所致。第6节将我们的结果与该方法的结果进行了比较。

在我们的方法中，我们使用一个GAN[4]作为我们网络的骨干，这是最近在处理图像修复或完成问题(例如[9，13])中流行的方法。与我们的方法一样，[9]在其判别网络中使用了全局和局部评估。然而，与我们的方法相比，在图像修复中，给出了目标区域，从而可以进行局部评估(不管局部区域是否足够真实)。因此，我们不能将现有的图像修复方法直接应用于我们的问题。另一个类似的架构是 Pix2Pix[10]，它将一个图像转换成另一个图像。它提出了一种条件GAN，不仅学习从输入图像到输出图像的映射，而且对训练的映射也学习了一个损失函数。这种方法是一种通用的映射方法，并没有提出专门处理雨滴再移动的方法.在第6节中我们将展示我们的方法和 Pix2Pix之间的一些评估。

3. 雨滴图像生成

我们将雨滴退化图像建模为背景图像和雨滴效应的结合：

（1）

式中，I是输入彩色图像；M是二值掩码（binary mask）。在掩码中，M (x)=1表示像素 x 是雨滴区域的一部分，否则认为是背景区域的一部分；B是背景图像，R是雨滴所带来的影响，代表复杂的混合背景信息和环境中的光线反射，以及他们通过附着在镜头或挡风玻璃上的雨滴（造成的影响）。算子代表元素相乘。

雨滴实际上是透明的。然而，由于雨滴的形状和折射率（ refractive index），雨滴区域的像素不仅受现实世界中某一点的影响，而且还受整个环境的影响[25]，使得大部分雨滴似乎都有不同于背景场景的图像。此外，由于我们的相机被假定聚焦于背景场景，雨滴区域内的图像大多是模糊的。雨滴的某些部分，特别是在边缘和透明区域，传达了一些关于背景的信息。我们注意到我们的网络可以显示和使用这些信息。

基于模型(Eq.1)，我们的目标是从给定的输入I中获取背景图像B。为了实现这一点，我们创建了一个由二值掩码M引导的注意映射（attention map）。注意，对于我们的训练数据，如图5所示。为了获得掩码（mask），我们只需将雨滴退化图像I减去与其对应的干净图像B。我们使用阈值来确定像素是否是雨滴区域的一部分。在实践中，我们将所有的图像训练数据集的阈值设置为30。这个简单的阈值设置（simplethresholding）对于我们产生注意力图的目的是足够的。

图2展示了我们提出的网络的总体架构。遵循生成对抗网络的思想[4]，在我们的网络中有两个主要部分：生成网络和判别网络。如果输入的图像因雨滴而退化，我们的生成网络试图生成尽可能真实、不受雨滴影响的图像。判别网络将验证生成网络产生的图像是否真实。

我们的生成性对抗性损失可以表示为：

(3)

其中G表示生成网络，D表示判别网络.I是从被雨滴侵蚀的图像库中提取的样本( images degraded by raindrops)，这是我们的生成网络的输入。R是从一堆干净的自然图像中提取的样本。

图2 提出的专注的GAN的结构

该生成器由一个注意力递归网络和一个具有跳过连接的上下文自动编码器组成。该判别器由一系列卷积层组成，并由注意图引导。

如图2所示。我们的生成网络由两个子网络组成：注意力递归网络和上下文自动编码器。注意-递归网络的目的是在输入图像中寻找需要引起注意的区域。这些区域主要是雨滴区域及其周围的结构，是上下文自动编码器必须关注的区域，这样才能产生更好的局部图像恢复，并使判别网络集中于评估。

关注-循环网络。视觉注意模型（Visual attention models）已被应用于定位图像中的目标区域，以捕捉区域的特征。这一思想已被用于视觉识别和分类(例如[26、15、5])。同样，我们认为视觉关注对于生成无雨滴背景图像是非常重要的，因为它允许网络知道移除/恢复应该集中在哪里。如图2中我们的架构所示。我们使用一个递归网络来产生我们的视觉注意。每一块（即每个时间步长长）都包含5层ResNet[8]-它们帮助从前一块的输入图像和掩码中提取特征，一个卷积的LSTM单元[21]和用于生成2D注意分布图的卷积层。

我们的注意力图，是在每个时间步骤中学习的，是一个从0到1的矩阵，其中值越大，它所表示的注意力就越多，如图3中的可视化所示。与二值掩码M不同，注意映射是一种非二值映射，它代表着从非雨滴区域到雨滴区域的注意力的增加，雨滴区域内部的关注度也是不同的。这种注意力的增加是有意义的，因为雨滴周围的区域也需要注意，而雨滴区域的透明度实际上是不同的(有些部分并不完全遮住背景，从而传达了一些背景信息)。

图3注意映射图学习过程的可视化

这个可视化是最后的注意图，。我们专注-循环网络显示，在训练过程中它更多地关注雨滴区域和相关结构。

我们的卷积LSTM单元包括一个输入门、一个忘记门、一个输出门以及一个单元状态。状态与门随时间维度的相互作用定义如下：

（3）

其中，是由ResNet生成的特征；对将要转递到下一个LSTM的状态进行编码；代表LSTM单元的输出特性；运算符 * 表示卷积运算。LSTM的输出特征随后被输入到卷积层，这将产生一个2D的注意图。在训练过程中，我们将注意力图的值初始化为0.5。在每个时间步骤中，我们将当前的注意力映射与输入连接起来，然后将它们输入到我们的递归网络的下一个块中。

在训练生成网络时，我们使用包含和不包含雨滴的具有完全相同背景场景的图像对。每个循环块中的损失函数定义为在时间步长t的输出注意映射，或者说与二值掩码M之间的均方误差(MSE)。我们在N个时间步骤中应用这个过程。较早的注意映射值较小，且随着时间步长的增加而变大，这说明信任度的增加。损失函数表示为：

(4)

其中是由注意递归网络在时间步骤t生成的注意图。=(，，)，而Ftminus;1是输入图像与注意图的连接。当t=1时，是输入图像，它的初始注意映射的值为0

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[608830]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

一幅单一图像中雨滴去除的专注生成对抗性网络外文翻译资料

附录A 译文

您可能感兴趣的文章

登录

注册

找回密码

附录A 译文

您可能感兴趣的文章