DeblurGAN:利用条件生成对抗网络去运动模糊外文翻译资料

 2022-08-12 03:08

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


DeblurGAN:利用条件生成对抗网络去运动模糊

摘要

我们提出了一种基于条件生成对抗网络和内容损失的端到端的去运动模糊的方法。该方法在峰值信噪比(PSNR)、结构相似性度量(SSIM)和视觉效果方面提升了去模糊的技术水平。我们以现实世界中的(去)模糊图像的目标检测结果来评估去模糊模型的质量。我们的方法比最接近我们的竞争者快了5倍。

其次,我们提出了一种新颖的由清晰图像合成运动模糊图像的方法,对真实的数据集进行了扩充。

模型、训练代码和数据集可以从“https://github.com/KupynOrest/DeblurG”获取。

1.引言

我们的工作致力于在没有模糊核的任何信息和相机运动轨迹的情况下去单张图像的运动模糊。近来,相关领域的图像超分辨率[18]和图像修复[40]通过采用生成对抗网络(GANs)[10]取得了较大的进展。生成对抗网络因其具有保留图片的高纹理细节和创建接近真实图像的解决方案的能力而闻名,并且在视觉上具有更强的说服力。受最近基于生成对抗网络的图像超分辨率[18]和图像翻译[14]工作的启发,我们将图片去模糊视为了一种图像翻译的特例。我们提出了基于条件生成对抗网络[22]和多元分组损失函数的DebluGAN。与以往的工作不同,我们采用了具有梯度惩罚[11]和感知损失[15]的Wasserstein GAN[2]。这使得利用我们的方法处理过的模糊图像在视觉上很难与真实的清晰图像区分开来,并且与使用传统的MSE(均方误差)或MAE(平均绝对误差)作为优化目标的方法相比,我们的方法能够恢复出更加精细的图像纹理细节。

我们在三个方面做出了重要贡献。首先,我们提出了一种在去运动模糊方面取得了很好效果的“损失和”结构,比速度最快的竞争对手快了5倍。其次,我们提出了一种基于随机轨迹的由清晰图像集合自动生成用于去模糊训练的模糊图像数据集的方法。我们表明,与仅用现实世界的图片进行训练相比,将我们提出的方法与现有的数据集结合用于去运动模糊的学习可以提升去运动模糊的效果。最后,我们提出了一种新的去模糊算法的评价方法,该方法致力于对目标检测效果的提升。

图1:DeblurGAN助力于目标检测。由上至下为YOLO[27]对模糊图像、DeblurGAN的复原图像和原始清晰图像的目标检测结果。

图2:DeblurGAN处理过的图像:从左至右依次为模糊图像、DeblurGAN处理的图像、原始清晰图像。

2.相关工作

2.1图像去模糊

模糊模型的常用公式如下:

其中为模糊图像,为模糊核,为潜在的清晰图像,*为卷积操作,为添加的噪声。

去模糊的方法可以分为两种类型:盲去模糊和非盲去模糊。早期的研究工作[33]大多集中于假设模糊核已知的非盲去模糊。他们中的大多数依靠传统的 Lucy-Richardson算法、Wiener或者Tikhonov滤波来执行反卷积获得估计的清晰图像。而实际上模糊核大多都是未知的,所以盲去模糊算法同时估计潜在的清晰图像与模糊核。为每一个像素找到一个模糊核是一个不适定问题,所以现有的大多数算法依赖于图像启发和模糊源假设。这些方法主要用于解决因相机抖动而在图像中形成的均匀模糊。首先通过“诱导模糊核”来估计相机的运动,再通过执行反卷积操作来去模糊。自Fergus等人[8]成功后,许多衍生的方法[39][37][26][3]在过去的10年中发展起来。这些方法中的部分方法是基于迭代的方法,并且利用参数先验模型提升了模糊核和清晰图像的估计效果。然而,运行时间以及停止标准对这类算法来说是一个重要问题。另一些方法则使用模糊核的局部线性假设和简单的启发式算法来快速估计未知的模糊核。这些算法的速度很快,但只在一小部分的图片上表现良好。随着深度学习的成功,在过去的几年里出现了一些基于卷积神经网络的图像去模糊方法。Sun等人[32]用卷积神经网络(CNN)来估计模糊核,Chakrabarti [6]预测运动模糊核的傅里叶级数,在傅里叶空间中进行非盲去模糊。Gong[9]利用全卷积神经网络来进行运动流的估计。这些方法都利用卷积神经网络来估计未知的模糊核。最近,Noorozi[25]和Nah[23]基于多尺度卷积神经网络提出了一种无核端到端的直接对图像进行去模糊的方法。这些方法可以处理不同类型的模糊图像。

2.2生成对抗网络(GAN)

由Goodfellow等人[10]提出的生成对抗网络在判别器网络和生成器网络间定义了一个博弈过程。生成器将噪声作为输入来生成样本,判别器读入一个真实样本和一个生成器生成的样本并且尝试去分辨出它们。生成器的目标是通过生成尽可能真实的样本来欺骗判别器,使判别器无法分辨出生成样本和真实样本。从理论上来看,生成器G和判别器D之间的博弈是一个最大最小化的过程:

其中Pr为真实的数据分布,Pg为模型的分布,由定义,输入z是一个来自某一噪声分布的样本。生成对抗网络因其具有能够生成高质量样本的能力而闻名,然而,原始生成对抗网络的训练存在诸多问题,如文献[29]中描述的模式崩溃,梯度消失等。最小化生成对抗网络的值函数等价于最小化真实数据分布与模型在x上的分布之间的JS散度。Arjovsky等人[2]讨论了由JS散度所引起的生成对抗网络的训练困难,并且提出使用Earth-Mover(也被称为 Wasserstein-1)距离。利用Kantorovich-Rubinstein对偶[35]构造了WGAN的值函数:

其中Drsquo;为1-Lipschitz函数集,Pg仍为模型分布。WGAN的思想是值函数的临界值近似于,其中是Lipschitz常数,是Wasserstein距离。在这种设定下,判别器被称为批评家,它不断地估计样本之间的距离。为了在WGAN中强制执行Lipschitz约束,Arjovsky等人将权值剪裁至[-c,c],然而这个技术可能会导致优化困难,比如梯度消失或梯度爆炸等。 Gulrajani等人[11]提出在值函数中添加一个梯度惩罚项:

作为另一种方式来强制执行Lipschitz约束。这使得能够训练各种各样的生成对抗网络并且几乎不需要进行超参数调优。

2.3条件生成对抗网络

条件生成对抗网络被应用于各种图像翻译问题,如图像超分辨率[18]、风格迁移[20]、照片生成[5]等。Isola等人[14]详细概述了这些方法并且提出了条件生成对抗网络架构,也被熟知为pix2pix。不同于普通的生成对抗网络,条件生成对抗网络可以学习由观察到的图像和随机噪声z到y的映射。Isola等人对判别器设置了条件,在生成器和马尔可夫鉴别器中应用了U-net架构,这使得条件生成对抗网络在许多任务上取得了优越的结果,包括从标签映射合成照片,从边缘映射重建对象,以及对图像进行着色等。

3.提出的方法

我们的目标是在仅给出模糊图像IB作为输入的条件下复原出清晰图像IS,所以没有任何关于模糊核的信息被提供。为了实现这个目标,我们训练了一个卷积神经网络(CNN)Gtheta;G,并将其称为生成器。它为每个模糊图像IB估计相应的清晰图像IS

此外,在训练过程中,我们也引入了判别器Dtheta;D,并且以对抗的方式训练两个网络。

3.1损失函数

我们将损失函数定义为内容损失和对抗损失的组合:

对抗损失 内容损失

总损失

其中lambda;在所有实验中均为100。不同于Isola等人[14],我们不需要对判别器设置条件,因为我们不需要对输入和输出之间的不匹配进行惩罚。

对抗损失 大多数与条件生成对抗网络相关的文章都采用的都是普通的生成对抗网络的损失函数[18][23]。最近,文献[41]提出了相对于least aquare GAN 这种稳定、能产生高质量结果的方法的另一种选择。我们使用WGAN-GP[11]作为判别函数。判别函数并不输出恢复出清晰图像的概率,并且损失计算如下:

内容损失 对于内容损失,两个经典的选择是基于原始像素的 L1损失(MAE)和L2损失(MSE)。相反,我们采用了最近提出的感知损失[15]。感知损失是一个简单的L2损失, 它基于生成图像和目标图像CNN feature maps的差异。它的定义如下:

其中phi;i,j是在ImageNet[7]上预先训练过的VGG19网络中第i个最大池化层之前的第j个卷积层(激活后)获得的feature maps,Wi,jHi,j是feature maps的宽度和高度尺寸。

3.2网络结构

生成器的卷积神经网络结构如图3所示,它类似于Johnson等人提出的一种[15]用于风格转换任务的卷积神经网络。它包含两个步幅为的卷积块,9个残差块和2个转置卷积块。每个残差块由1个卷积层、1个实例归一化层[34]和1个ReLU[24]激活层组成,在每个残差块中的第一个卷积层之后添加概率为0.5的Dropout[31]正则化。

此外,我们提出了称之为ResOut的全局跳跃连接。卷积神经网络(CNN)学习模糊图像IB的残差矫正IR,所以IS=IB IR。我们发现这种构想使得训练更快并且模型的复原效果更好。

在训练过程中,我们定义了一个判别网络Dtheta;D,是一个具有梯度惩罚的Wasserstein GAN [2],我们将其称为WGAN-GP。判别网络的结构与PatchGAN[14,20]相同。除了最后一个卷积层外,所有的卷积层后都接着一个实例归一化层和alpha;=0.2的LeakyReLU[36]层。

图3:DeblurGAN生成器的网络结构。DeblurGAN包括两个步幅为的卷积块、9个残差块[12]和2个转置卷积块。每个残差块由1个卷积层、1个实例归一化层和1个ReLU激活层组成。

图4:去运动模糊的条件生成对抗网络。生成器网络将模糊图片作为输入并且生成估计的清晰图片。在训练过程中,判别网络将复原图像与清晰图像作为输入,并且估计他们之间的差异大小。总的损失包括来自判别方面的WGAN损失和基于VGG-19[30]激活差异的清晰图像和复原图像间的感知损失[15]。在测试时只需要判别器。

4.运动模糊生成

与图像超分辨率、图像着色等其它流行的图像翻译任务相比,用于训练算法的清晰和模糊的图像对难以获取,一种典型的获取方法是用高帧频相机捕捉视频中清晰图像来模拟模糊图像[25,23]。这种方法可以创建出逼真的模糊图像,但仅将图像空间限制为拍摄视频中的场景,并且标定数据集的时候也非常复杂。Sun等人[32]通过将清晰的自然图像与73个可能的线性运动模糊核核中的一个卷积而创建合成的模糊图像,Xu等人[38]也用线性运动模糊核来创建合成的模糊图像。 Chakrabarti[6]通过采样6个随机点并将它们拟合为一个样条曲线来创建模糊核。

我们在Boracchi和FOI[4]提出的随机轨迹生成的思想基础上进一步提出了一种可以模拟更真实、更复杂的模糊核的方法。对轨迹矢量进行亚像素插值,生成模糊核。每个轨迹矢量是一个复值矢量,它对应于物体在连续域内进行二维随机运动后的离散位置。在算法1中对采用马尔科夫过程生成随机轨迹的方法进行了概述,轨迹下一点的位置是根据先前的点速度和位置、高斯扰动、脉冲扰动和确定性惯性分量随机生成的。

算法1 运动模糊的生

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[236784],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。