使用对抗性边缘学习进行生成图像修复外文翻译资料

 2022-08-19 04:08

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


附录A 译文

使用对抗性边缘学习进行生成图像修复

摘要

过去几年,深度学习技术在图片修补领域上取得了显著的成果。然而,这些技术无法重构出(图片缺失区域的)合理结构,它们总是得到过于平滑或者模糊的结果。这篇论文开发了一种新的图片修补技术,它的修补效果更好,填补的区域展示出了更加精致的细节。我们提出的二阶段图片修补对抗模型 EdgeConnect,整合了边缘生成器与图片修补网络。先由边缘生成器生成出不规则缺失区域的边缘假想图作为先验结果,然后在这张边缘假想图的基础上,使用图片修补网络对缺失区域进行填充。我们在可获取到的公共数据集 CelebA,Places2,以及 Paris StreetView 上对我们的模型进行端到端的评估,结果表明我们的结果在定量与定性的分析上,优于现阶段的其他算法。

  1. 介绍

图片修补 (Image Completion /Inpainting) 就是将一张图片中的缺失区域进行修补。是许多图片处理任务中的重要一步。举例说明,它可以被应用在将图片中某个物体移除后,对缺失区域的修补任务上。人类有一种不可思议的能力去消除视觉上的不连续性,因而填补区域必须在感知上合理。另外,填补区域缺乏精细结构一直是一个令人不满意的问题,尤其是图片中的区域包含锐利的细节时。我们观察到现有图像修复技术会产生过度平滑或者模糊的区域,这推动了本文所介绍的方法的产生。

我们将图片修补分为两个阶段(如图1):轮廓生成与图片修补。为了确保生成的边缘假想图与填补区域的RGB像素值视觉上的感受是连续的,这两个阶段的任务,我们都使用了对抗网络去完成。两个网络都包含了基于深度特征的损失函数,以生成尽可能逼真的图片。

图1,二阶段图片修补流程:输入的不完整图片(左),在黑色的边缘轮廓的基础上生成补充的蓝色轮廓线条(中),根据左边的两种图片生成完整的图片(右)

像大部分计算机视觉问题一样,图片修补任务比深度学习技术更早地被广泛地使用。广义上讲,传统的图片修补方法可以分为两种:基于扩散的和基于补丁的。基于扩散的方法通过遵循使用微分算子建模的扩散过程将背景数据传播到缺失区域[4, 14, 27, 2]。另一方面,基于补丁的方法使用源图像集合中的补丁填充缺失区域,以最大化补丁相似性[7, 21].然而这些方法在重建可能位于缺失区域局部的复杂细节方面做的很差。

目前的深度学习方法在图片修补任务上取得了显著的成果。这些方案通过学习数据的分布对缺失的像素进行填补。他们可以生成缺失区域内连贯的结构。这是传统的技术几乎不可能实现的创举。虽然这些方法可以为缺失区域生成有意义的结构,但是生成的区域通常是模糊图像,或者伪像,这表明了这些方法无法准确地重建高频率的信息。

那么,如何强制图像修复网络以生成精细细节呢?由于图像结构在其边缘掩模中得到很好的表示,我们表明通过调整缺失区域边缘上的图像修复网络可以产生出色的结果。显然,我们无法访问缺失区域的边缘。相反,我们可以训练一个边缘生成器,利用它生成这些缺失区域的轮廓。我们“生成轮廓线条,再生成填充色彩”的方案,有一部分灵感来自于艺术家的工作过程[13]。在线条画中,线条不仅描绘和定义空间和形状,他们也在作品中起着至关重要的作用,“贝蒂爱德华兹说,要从艺术角度强调素描的重要性[12]。我们提出的模型,在实质上解耦合了图片修补过程中对缺失区域的高频与低频信息的恢复过程。

我们在标准的数据集 CelebA,Places2,以及Paris Sreet View 上进行评估。我们将我们的模型的性能与目前最好的方案进行比较。我们提供了实验来研究边缘信息对图片修补任务的影响。我们的文章做出了以下贡献:

  • 一个可以生成(缺失区域)的假想轮廓的边缘轮廓生成器。它在给定了图片剩余部分的灰度图的情况下,能够给出缺失区域的轮廓假想图。
  • 一个图片修补网络,它可以结合缺失区域(作为先验)的假想轮廓图,根据图片的其余部分,对缺失区域的色彩以及上下文信息进行填补。
  • 一个结合了轮廓生成器与图片修补的端到端的训练网络。可以为缺失区域填补上具有精致细节的内容。

我们展示了在常见的图像编辑任务上的应用,如物体的移除和场景生成任务。我们也在GitHub上面开源了我们的代码: knazeri/edge-connect

  1. 相关工作

基于扩散的方法将邻近的信息传播到丢失的区域中[4,2]。 [14]改编了用于图像修复的Mumford-Shah分割模型。 但是,重构仅限于这些基于扩散的本地可用信息,并且这些方法无法恢复缺失区域中有意义的结构。这些方法也无法充分应对较大的缺失区域。基于补丁的方法可填充缺失的区域(即目标)。通过复制来自相似区域(即来源)的信息来填充缺失区域。源区通常混合到目标区域,以尽量减少不连续性[7, 21]。这些方法在计算上是非常复杂的,因此必须为每个目标 - 源对计算相似性得分。 PatchMatch [3]解决了这个问题,它是通过使用快速最近邻域算法来做到的。 这些方法假定修补的纹理区域可以在图像的其他地方找到,然而这种假设并不总是成立。这些方法在恢复高度图案化的区域(例如背景完成)方面表现优异,但在重建图案方面却很困难。

最早的深度学习方法之一图像绘制的是上下文编码器[38],它使用编码器 - 解码器架构。编码器将具有缺失区域的图像映射到低维特征空间,解码器使用该低维特征空间来构造输出图像。然而,由于信道方式完全连接层中的信息瓶颈,输出图像的恢复区域通常包含视觉伪像并且表现出模糊性。由Iizuka 等人提出的[22]通过减少采样层的数量,并用一系列扩张的卷积层替换通道中完全连接层[51]。通过使用变化的膨胀因子来补偿采样层的减少。但是由于使用大的膨胀因子产生极稀疏的滤波器,培训时间显著增加。杨等人[49]使用预先训练的 VGG网络[42]通过最小化图像背景的特征差异来改善上下文编码器的输出。该方法需要迭代地求解多尺度优化问题,这在推理时间期间显着增加了计算成本。刘等人[28]引入了用于图像修复的“部分卷积”,其中卷积权重由卷积滤波器当前所在的窗口的掩模区域归一化来决定。这有效地防止了卷积滤波器在遍历不完整区域时捕获过多的零。

最近,一批学者通过在修复之前提供附加信息提出了几种方法。Yeh[50]训练 GAN用于修复带有未损坏的数据的图像。在推理期间,反向传播迭代了 1500 次迭代用来在均匀噪声分布上找到损坏图像的表示。但是,在推理期间,由于模型必须对它试图恢复的每个图像执行反向传播,故而效率很低。Dolhansky 和 Ferrer [9]证明了样本信息对于修复的重要性。他们的方法能够得到清晰和逼真的修复效果。然而,他们的方法适合于填充正面人脸图像中的缺失眼睛区域,是高度专业化的,并不能很好地概括。内容感知[53]采用两步法解决图像修复问题。首先,它产生缺失区域的粗略估计。接下来,通过搜索与粗略估计细化网络中具有最高相似性的背景片的集合,并使用注意机制来锐化结果。[43]采用了类似的方法,并引入了一个“补丁交换”层,用缺少区域内的每个补丁替换边界上最相似的补丁。这些方案受到两个限制:1)细化网络假设的粗略估计是合理准确的,并且 2)这些方法不能处理具有任意形状缺失的区域。自由形式的修复方法[52]或许与我们的计划最接近,它使用手绘草图来指导修复过程。我们的方法取消了手绘草图,并学会了在缺失区域产生幻觉。

2.1图像到边缘与边缘到图像

本文提出的修复技术包含两个完全不同的计算机视觉问题:图像到边缘和边缘到图像。有大量文献涉及“图像到边缘”问题[5, 10, 26, 29]。例如,Canny 边缘检测器是构建边缘图的早期方案,大约有 30 年的历史[6].Dollar 和 Zitnikc [11]使用结构化学习[35]在随机决策森林上预测局部边缘掩模。整体嵌套边缘检测(HED)[48]是一个完全卷积网络,根据其作为整体图像特征的重要性来学习边缘信息。在我们的工作中,我们训练使用 Canny 边缘检测器计算的边缘区域。

我们将在4.1和5.3章节详细解释这一点。

传统的 '边缘对图像 '方法通常遵循的是通过一组预先定义的关键词来构建图像内容。然而,这些方法无法准确地构建精细的细节,特别是在物体边界附近的细节。Scribbler[41]是一种基于学习的模型,其中图像生成使用线条草图作为输入,他们的工作成果具有艺术般的气质。在这里,颜色分布的生成结果是由输入中的颜色引导的草图。Isola等人[23]提出了一个有条件的GAN框架[33],称为pix2pix,主要用于图像到图像之间的转换问题。这种方案可以利用现有的边缘信息作为先验。CycleGAN[57]扩展了这个框架,并且找到了一个反向映射回原始的数据分布。

  1. 解决方案

我们提出了一个图像修复网络,它包括两个阶段:1)边缘生成器,和 2)图像完成网络,如图2所示:

图2:模型结构图。不完整的灰度图像和边缘图以及掩模是 G1 的输入,用于预测全边缘图。将预测的边缘图和不完整的彩色图像传递给 G2 以执行修复任务。

两个阶段都遵循对抗网络模式[18],即每个阶段由生成器/判别器对组成。设 G1 和 D1 分别是边缘生成器的生成器和鉴别器,G2 和 D2 分别是图像完成网络的生成器和鉴别器。为了简化表示法,我们将使用这些符号来表示各自网络的功能映射。

我们的生成器结构遵循类似于 Johnson 等人提出的方法.[24],这个架构常用于图片到图片的转换任务上,如:风格迁移,超分辨率等,取得了令人印象深刻的效果。具体来说,生成器由两次向下采样的编码器、八个残余块[19]和将图像上采样到原始大小的解码器组成,使用了扩张系数为 2 的扩张卷积代替残余层中的规则卷积,导致最终残余块处的感受野为205。对于判别器,我们使用 PatchGAN [23, 57]来决定重叠大小为70times;70 图像块是否真实的。我们在所有的网络层还使用了实例规范化[45].

3.1边缘生成器

作为真实图片,为真实图片的灰度图,为真实图片的轮廓图,在边缘生成器中,我们使用不完整的灰度图作为输入,其不完整的边缘图表示为,并且将掩膜层M作为先决条件(把缺失区域标记为1,背景图片标记为0),为哈达玛积,则轮廓假想生成器的预测结果为:

(1)

我们使用和作为判别器的输入来预测边缘图是否真实。构建损失函数如下,用以训练这个对抗网络:

(2)

和是正则化参数。对抗损失定

(3)

特征损失与判别器的中间层中的激活图相比,通过强制生成器产生具有与真实图像类似的表示的结果来稳定训练过程。这类似于将激活图与预先训练的VGG网络的激活图进行比较的感知损失[24, 16, 15]。但是,由于 VGG 网络没有经过训练来产生边缘信息, 因此无法捕获我们在初始阶段寻求的结果。特征损失定义为:

(4)

我们用 L表示判别器的最后一层卷积层。是判别器的第 i层的激活结果。使用SN进一步稳定判别器的训练,通过按比例缩小权重矩阵的方式训练最大奇异值,有效地将网络的Lipschitz限制为1,最初建议仅使用于判别器,后来发现生成器也可从SN中受益。由于WGAN在我们早期的测试中慢几倍,因此我们选择SN而不是WGAN。在我们的实验中,选择和=10.

3.2图片修补网络

图像修补网络使用不完整的彩色图像作为输入,使用 复合边缘图 进行调节。复合边缘是通过将地面实况边缘的背景区域与生成的边缘相结合来构造的,如.该网络返回了一个填充入缺失区域的具有相同颜色且分辨率与输入图像相同的彩色图像,表示为:

(5)

训练过程中使用了联合损失,包括L1损失,对抗损失,感知损失和风格损失。为了确保正确缩放,L1损失由掩膜大小标准化。对抗损失的定义与Eq.3相似,为:

(6)

我们在[16,24]中使用的是感知损失和风格损失。顾名思义,Lprec通过在预训练的网络激活图间定义一个距离度量来惩罚那些与标签感知上不相似的结果,感知损失定义为:

(7)

公式中的是预训练网络的第i层的激活图。在我们的工作中,对应了来自VGG-19的激活函数特征图 relu1_1,relu2_1,relu3_1,relu4_1和relu5_1。这些激活图还用于计算在测量激活图的协方差差异时产生的风格损失。给出的特征图尺寸为,风格损失定义为:

(8)

公式中的是一个的伽马矩阵对激活函数特征图 进行构造得到的。我们选择的风格损失函数在Sajjadi的论文中得到描述,是一个用来对抗由转置卷积层引起的“棋盘”伪影的有效工具。我们整体的损失函数是:

(9)

在我们的实验中,选择=1, ==0.1, =250。我们注意到,如果包括光谱归一化,训练时间会显著增加,我们认为这是由于网络随着损失函数中项数的增加而变得过于束缚。因此,我们选择从图像完成网络中排除光谱归一化。

4.实验lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[409988],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。