基于生成对抗网络的照片般逼真的单张图片超分辨率重建技术外文翻译资料

 2022-04-26 10:04

英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料


基于生成对抗网络的照片般逼真的单张图片超分辨率重建技术

摘要

尽管使用更快更深的卷积神经网络在单幅图像超分辨率的准确性和速度方面取得了突破,但仍然存在一个中心问题很大程度上没有解决:当我们在大规模放大因子上超解决时,我们如何恢复更精细的纹理细节?基于优化的超分辨率方法的行为主要由目标函数的选择驱动。最近的工作主要集中在最小化均方重建误差。由此产生的估计具有较高的峰值信噪比,但它们通常缺乏高频细节,并且在感觉上不能满足高分辨率预期的保真度。在本文中,我们提出SRGAN,一种用于图像超分辨率(SR)的生成对抗网络(GAN)。据我们所知,它是第一个能够推出4倍放大因子的真实照片的自然图像的框架。为了达到这个目标,我们提出了一个感知损失函数,它包含对抗性损失和内容损失。对抗性损失将我们的解决方案推向自然图像流形,使用鉴别网络进行训练,以区分超分辨图像和原始照片拟真图像。此外,我们使用感知相似性驱动的内容损失而不是像素空间中的相似性。我们的深度残留网络能够从公共基准上的严重下采样图像恢复照片般逼真的纹理。广泛的平均意见得分(MOS)测试显示使用SRGAN的感知质量的巨大显着增益。使用SRGAN获得的MOS分数与原始高分辨率图像的分数比用任何最先进的方法获得的分数更接近。

  1. 简介

从低分辨率(LR)图像估计高分辨率(HR)图像是非常具有挑战性的任务,它被称为超分辨率复原技术(SR)。其受到计算机视觉研究领域的大量关注并且有着广泛的应用。

图1:超分辨图像(左)与原始图像(右图)几乎没有区别。

欠定SR问题的不适定性质对于高倍率因子特别明显,因为重构SR图像中的通常没有处理纹理细节。 监督SR算法的优化目标通常是使得复原的高分辨率图像与原始图片之间的均方误差(MSE)的最小化。 这样做很方便,因为最小化MSE也可以最大化峰值信噪比(PSNR),这是用于评估和比较SR算法的常用度量。然而,MSE(和PSNR)捕捉感知相关差异(如高纹理细节处理)的能力非常有限,因为它们是基于按像素的图像差异定义的。如图2所示,其中最高的PSNR不一定反映感知上更好的SR结果。超分辨率图像和原始图像之间的感知差异意味着恢复的图像不像Ferwerda所定义的真实照片。

图2:从左到右:双三次插值,针对MSE优化的深度残留网络,针对人类感知更敏感的损失优化的深度残留生成对抗网络,原始HR图像。 括号内显示相应的PSNR和SSIM。

在这项工作中,我们提出了一个超分辨率生成对抗网络(SRGAN),我们采用了一个深度残差网络(ResNet),跳过连接和MSE分歧作为唯一的优化目标。与以前的研究不同,我们使用VGG网络的高级特征映射与鉴别器相结合来定义新的感知损失,所述鉴别器鼓励感知难以与HR参考图像区分的解决方案。 图1展示了一个用4倍放大倍数超分辨的照片般逼真的图像。

    1. 相关工作
      1. 图像超分辨率技术

近期有关图像超分辨率复原的论文包括Nasrollahi和Moeslund或Yang等人的文章。这里我们将重点介绍单张图像超分辨率(SISR),并且不会进一步讨论从多幅图像恢复高分辨率图像的方法。

基于预测的方法是首先解决SISR的方法之一。 尽管这些过滤方法,例如线性,双三次或Lanczos滤波可以非常快速地过滤,但它们过度简化了SISR问题,并且通常会过度平滑纹理。特别关注边缘保存的方法已经提出了。

更强大的方法旨在建立低分辨率和高分辨率图像信息之间的复杂映射,并且通常依赖于训练数据。许多基于示例对的方法都依赖于LR训练补丁,相应的HR对应方已知。早期工作由Freeman等人提出,SR问题的相关方法来源于压缩感知。在Glasner等人的作品中,作者利用图像内各尺度的补丁冗余来驱动SR。Huang等人也采用了这种自相似的范式,在这种范式中,通过进一步允许小变换和形状变化来扩展自我字典。顾等人提出了一种卷积稀疏编码方法,通过处理整个图像而不是重叠补丁来提高一致性。

为了重建逼真的纹理细节,同时避免边缘伪影,Tai等人将基于梯度曲线的边缘定向SR算法与基于学习的细节综合的优点相结合。Zhang等人 提出了一个多尺度字典来捕捉不同尺度的相似图像块的冗余。为了超级分辨率重建标记图像,Yue等人从网络中检索具有相似内容的HR图像,并提出用于对齐的结构感知匹配标准。

邻域嵌入方法通过在低维流形中找到相似的LR训练块并将它们对应的HR块组合以用于重建来上采样LR图像块。Kim和Kwon强调邻域方法的倾向,以过度拟合并使用核岭回归制定更一般的示例对映射。回归问题也可以用高斯过程回归,决策树或随机森林来解决。在Dai等人的论文中,学习了许多补丁专用回归器,并在测试过程中选择了最合适的回归器。

最近基于卷积神经网络(CNN)的SR算法表现出优异的性能。在Wang等人的论文中,基于学习迭代收缩和阈值算法(LISTA),将稀疏表示先编码成其前馈神经网络结构。Dong等人使用双三次插值来提升输入图像的质量,并端到端地训练三层深度全卷积网络以实现最先进的SR性能。随后显示,使网络能够直接学习升级滤波器可以进一步提高精度和速度方面的性能。凭借其深度递归卷积网络(DRCN),Kim等人提出了一种高性能架构,该架构允许长距离像素依赖性,同时保持较少的模型参数数量。与我们的论文特别相关的是Johnson等人和Bruna等人的论文,他们依靠更接近感知相似性的损失函数来恢复视觉上更令人信服的HR图像。

      1. 卷积神经网络的设计

许多计算机视觉问题研究的现状基于由Krizhevsky等人的成功设计的CNN架构。

结果表明,深层网络体系结构可能难以训练,但有可能显著提高网络的准确性,因为它们允许非常高的复杂性的建模映射。为了有效地训练这些更深层次的网络架构,常常使用批规范化来抵消内部的协变量偏移。更深入的网络体系结构也被证明可以提高SISR的性能,例如, Kim等人制定了一个递归的CNN和当前最新的结果。最近引入了残留块和跳跃连接的概念,这是缩短深度CNN训练时间的另一个强大的设计选择。跳跃连接减轻了对身份映射进行建模的网络体系结构的本质,但是,使用卷积核可能不是微不足道的。

在SISR的背景下,还表明学习升级过滤器在准确性和速度方面是有益的。这是对Dong等人研究的一种改进,其中在将图像馈送到CNN之前采用双三次插值来升级LR观察。

      1. 损失函数

诸如MSE之类的逐像素损失函数努力处理恢复丢失的高频细节(例如纹理)固有的不确定性:最小化MSE鼓励寻找似然性解决方案的像素平均值,其通常过度平滑并且因此具有较差的感知质量。不同感知的重建图3:从MSE(蓝色)和GAN(橙色)获得的自然图像流形(红色)和超分辨斑块的斑点图。由于像素空间中可能的解决方案的逐像素平均,基于MSE的解决方案看起来过于平滑,而GAN驱动重建朝向自然图像歧管,产生感知上更有说服力的解决方案。

图3:使用MSE(蓝色)和GAN(橙色)获得的自然图像流形(红色)斑块和超分辨斑块的插图。 由于像素空间中可能的解决方案的逐像素平均,基于MSE的解决方案看起来过于平滑,而GAN驱动重建朝向自然图像歧管,产生感知上更有说服力的解决方案。

质量以图2中相应的PSNR为例。 我们举例说明了图3中最小化MSE的问题,其中多个具有高纹理细节的潜在解决方案被平均以创建平滑重建。

在Mathieu等和Denton等人的论文中,作者通过使用生成对抗网络(GAN)来应用图像生成来解决这个问题。Yu和Porikli利用鉴别器损失增加了像素方向MSE丢失,以训练一个网络,该网络超分辨率解析了具有较大放大因子(8times;)的人脸图像。GANS也用于Radford等人的无监督表示学习。Li和Wand描述了使用GAN来学习从一个歧管到另一个歧管的映射,而Yeh等人也提到了这样的描述。Bruna等人最小化了VGG19和散射网络的特征空间中的平方误差。

Dosovitskiy和Brox在神经网络的特征空间中结合对抗训练使用基于欧几里得距离计算的损失函数。结果表明,所提出的损失允许在视觉上优越的图像生成,并且可以用于解决解码非线性特征表示的不适定反演问题。类似于这项工作,Johnson等人和Bruna等人提出使用从预训练的VGG网络中提取的特征,而不是使用低级像素方式的误差测量。具体而言,作者基于从VGG19网络提取的特征地图之间的欧氏距离制定损失函数。在超分辨率和艺术风格转移方面获得了令人信服的更令人信服的结果。最近,Li和Wand也研究了在像素或VGG特征空间中比较和混合色块的效果。

    1. 贡献

GAN提供了一个强大的框架,用于生成具有高感知质量的看似合理的自然图像。GAN程序鼓励重建朝着搜索空间的区域移动,并且具有包含相片逼真图像的高概率,因此更接近自然图像流形,如图3所示。

在本文中,我们描述了第一个使用GAN概念的非常深的ResNet架构,以形成照片般逼真的SISR的感知丢失函数。我们的主要贡献是:

  • 我们利用PSNR测量的高放大倍数(4倍)和结构相似性(SSIM)与我们为MSE优化的16块深度ResNet(SRResNet)设置了图像SR的新技术水平。
  • 我们提出的SRGAN是一种基于GAN的网络,针对新的感知损失进行了优化。 在这里,我们用基于VGG网络的特征映射计算的损失替换基于MSE的内容损失,这对于像素空间中的变化更为不变。
  • 我们通过对来自三个公共基准数据集的图像进行广泛的平均意见得分(MOS)测试来证实SRGAN是最新的技术水平,大幅度地用于评估具有高放大倍数的照片般逼真的SR图像(4times;)。
  • 我们在第2节描述网络架构和感知损失。第3节提供了公共基准数据集的定量评估以及视觉插图。本文最后在第4节中进行讨论,并在第5节结束语中进行总结。
  1. 方法

在SISR中,目标是从低分辨率输入图像ILR估计高分辨率,超分辨率的图像ISR。这里ILR是其高分辨率对应IHR的低分辨率版本。高分辨率图像仅在训练期间有效。在训练中,通过对I HR应用高斯滤波器,然后使用下采样因子r进行下采样操作来获得ILR。对于具有C色通道的图像,我们用尺寸为Wtimes;Htimes;C和IHR的实数张量描述ILR,由rWtimes;rHtimes;C分别描述ISR。我们的最终目标是训练一个生成函数G,它为给定的LR输入图像估计其相应的HR对应值。 为了达到这个目的,我们训练一个发电机网络作为前馈CNN Gtheta;G,它的参数为theta;G。这里theta;G= {W1:L; b1:L}表示L层深度网络的权重和偏差,并通过优化SR特定的损失函数lSR来获得。对于训练图像IHRn,n = 1, hellip; , N 与相应的ILRn, n = 1, hellip; , N,我们解决:

在这项工作中,我们将特别设计一个感知损失lSR作为几个损失组件的加权组合,这些损失组件模拟恢复的SR图像的不同期望特征。单个损失函数在第2.2节中有更详细的描述。

    1. 对抗网络结构

继Goodfellow等人之后,我们进一步定义了一个鉴别器网络Dtheta;D,我们与Gtheta;G一起以交替方式进行优化,以解决敌对最小 - 最大问题:

该公式背后的总体思想是,它允许人们训练生成模型G,目的是欺骗一个可区分的鉴别器D,该鉴别器经过训练可区分超分辨率图像和真实图像。通过这种方法,我们的发生器可以学习创建与真实图像高度相似的解决方案,因此很难根据D进行分类。这鼓励居住在自然图像的子空间,多方面的感知上的解决方案。 这与通过最小化像素误差测量(例如MSE)获得的SR解决方案形成对比。

在我们非常深的发电机网络G的核心,如图4所示的是具有相同布局的B残余块。受Johnson等人的启发,我们采用了Gross和Wilber提出的区块布局。具体而言,我们使用两个小3times;3内核和64个特征映射的卷积层,接着是批量归一化层和ParametricReLU作为激活函数。如Shi等人提出的,我们使用两个训练的子像素卷积层来增加输入图像的分辨率。

为了从生成的SR样本中区分真实的HR图像,我们训练鉴别器网络。 该体系结构如图4所示。我们遵循Radford等总结的体系结构指南,并使用LeakyReLU激活(alpha;= 0.2)并避免整个网络中的最大共享。鉴别器网络被训练以解决公式2中的最大化问题。它包含八个卷积层,其中3times;3滤波器内核的数量增加,从VGG网络中的64个增加到512个内核。每次功能数量翻倍时,使用分段卷积来降低图像分辨率。得到的512个特征图之后是两个密集层和一个最终的S形激活函数,以获得样本分类的概率。

图4:具有相应内核大小(k)的发生器和鉴别器网络的体系结构,针对每个卷积层指示的特征映射(n)和跨步(s)的数量。

    1. 感知损失函数

我们的感知损失函数lSR的定义对于我们的发电机网络的性能至关重要。尽管lSR通常基于MSE建模,但我们改进了Johnson等人和Bruna等人的方法,并设计了一种损失函数,用于评估与感知相关特性相关的解决方案。我们将知觉损失制定为内容损失(lSR X)和敌对损失部分的加权总和为:

在下文中,我们描述可能的内容丢失lSRX和生成对抗lSRGen的选择。

2.2.1 内容损失

以像素为单位

全文共6004字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13274],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。