英语原文共 17 页

基于生成对抗网络的图像翻译

Phillip Isola 朱俊彦Tinghui Zhou Alexei A. Efros

加州大学伯克利分校伯克利AI研究（BAIR）实验室

图1：图像处理，图形和视觉中的许多问题涉及将输入图像转换成相应的另一种输出图像。类似于语言翻译任务，这些问题通常使用特定于应用程序的算法来处理，即使设置始终相同：将像素映射到像素。有条件的对抗性网络是一种通用的解决方案，似乎可以很好地解决各种各样的问题。在这里我们展示几种方法的结果。在每种情况下，我们使用相同的架构和目标，并简单地训练不同的数据。

摘要

我们调查生成对抗网络作为图像翻译的通用解决方案问题。这些网络不仅可以学习映射输入图像到输出图像，还学习一个损失函数来训练这个映射。这使得应用传统问题相同的通用方法就是需要不同的损失函数。我们证明这种方法在合成照片时很有效，来自标签贴图，从边缘贴图重建对象，和其他任务中的图像着色。的确，自从发布与论文相关的pix2pix软件，大量互联网用户（其中许多是艺术家）已经在我们的系统中发布了他们自己的实验展示其广泛的适用性和易于采用无需参数调整。作为一个社区，我们不再手工设计我们的映射函数，这项工作表明我们可以取得合理的结果没有手工设计我们的损失函数。

1介绍 3

2相关工作 5

3.方法 6

3.1目的 7

3.2网络构架 8

3.3优化和推理 10

4.实验 11

4.1评估指标 12

1介绍

图像处理，计算机图形学，计算机视觉可以被视为“翻译”输入将图像转换为相应的输出图像。就像一个概念可以用英语或法语表达，一个场景可以被渲染为RGB图像，渐变场，边缘图，语义标签贴图等与自动语言类似翻译，我们定义自动图像到图像的翻译作为翻译一个可能的表示的任务场景进入另一个场景，给出足够的训练数据（见图1）。传统上，这些任务中的每一项都已得到解决独立的专用机器（例如，[16,25,20,9，11,53,33,39,18,58,62]），尽管设置的事实总是一样的：用像素预测像素。我们的目标本文将为所有这些开发一个通用框架问题。

社区已经朝着这个方向迈出了重要的一步，卷积神经网络（CNNs）成为各种图像预测问题背后的共同主力。美国有线电视新闻网（CNN）学会将损失函数降至最低 - 这是一个评估结果质量的目标 - 尽管学习过程是自动的，但很多手动工作仍然需要设计有效的损失。换句话说，我们仍然必须告诉CNN我们希望它最小化。但是，就像迈达斯国王一样，我们必须小心我们的期望！如果我们采取天真的方法并要求CNN最小化预测像素和地面真实像素之间的欧几里德距离，它将倾向于产生模糊的结果[43,46]。这是因为通过平均所有合理的输出来最小化欧几里德距离，这会导致模糊。提出损失功能迫使CNN做我们真正想要的事情 - 例如，输出清晰，逼真的图像 - 是一个开放的问题，通常需要专业知识。

如果我们只能指定一个高级别目标，例如“使输出与现实无法区分”，然后自动学习适合于满足此目标的损失函数，那将是非常可取的。幸运的是，这正是最近提出的生成对抗网络（GAN）所做的[24,13,44,52,63]。如果输出图像是真实的或假的，GAN会学习一种损失，试图对其进行分类，同时训练生成模型以最小化这种损失。模糊的图像是不容忍的，因为它们看起来很明显是伪造的。因为GAN学习了适应数据的损失，所以它们可以应用于传统上需要非常不同类型的损失函数的大量任务。

在本文中，我们在条件设置中探索GAN。就像GAN学习数据的生成模型一样，条件GAN（cGAN）学习条件生成模型[24]。这使得cGAN适用于图像到图像转换任务，其中我们对输入图像进行调节并生成相应的输出图像。

GAN在过去两年中得到了大力研究，我们在本文中探索的许多技术都是先前提出的。尽管如此，早期的论文主要关注具体的应用，目前尚不清楚图像条件GAN如何作为图像到图像转换的通用解决方案。我们的主要贡献是证明在有各种各样的问题上，有条件的GAN产生了合理的结果。我们的第二个贡献是提供一个足以取得良好结果的简单框架，并分析几个重要架构选择的影响。代码可在https://github.com/phillipi/pix2pix上找到。

2相关工作

用于图像建模的结构化损失图像到图像转换问题通常被表述为每像素分类或回归（例如，[39,58,28,35,62]）。这些公式将输出空间视为“非结构化”，即在给定输入图像的情况下，每个输出像素被视为在条件上独立于所有其他像素。有条件的GAN改为学习结构性损失。结构性损失会对输出的联合配置造成不利影响。 A

图2：训练条件GAN以映射边缘→照片。鉴别器D学习在假（由发生器合成）和真实（边缘，照片）元组之间进行分类。生成器G学会愚弄鉴别器。与无条件GAN不同，生成器和鉴别器都观察输入边缘映射。

大量文献考虑了这种损失，方法包括条件随机场[10]，SSIM度量[56]，特征匹配[15]，非参数损失[37]，卷积伪先验[57]，以及基于匹配协方差统计的损失[30]。条件GAN的不同之处在于学习了损失，并且理论上可以惩罚输出和目标之间不同的任何可能的结构。

条件GAN我们不是第一个在条件设置中应用GAN的人。先前和并发的工作已经在离散标签[41,23,13]，文本[46]以及实际上图像上调整了GAN。图像条件模型已经从法线贴图[55]，未来帧预测[40]，产品照片生成[59]以及稀疏注释[31,48]的图像生成中处理了图像预测（参见[47]的自回归图像）处理同样的问题）。其他几篇论文也使用GAN进行图像到图像的映射，但只是无条件地应用GAN，依赖于其他术语（如L2回归）来强制输出以输入为条件。这些论文在修复[43]，未来状态预测[64]，用户约束引导的图像处理[65]，样式转移[38]和超分辨率[36]方面取得了令人瞩目的成果。每种方法都是针对特定应用而定制的。我们的框架不同之处在于没有任何特定于应用程序这使我们的设置比大多数其他设置简单得多。

我们的方法也与先前的工作不同，在生成器和鉴别器的几种架构选择中。与过去的工作不同，对于我们的生成器，我们使用基于“U-Net”的架构[50]，对于我们的鉴别器，我们使用卷积“PatchGAN”分类器，其仅在图像块的尺度上惩罚结构。之前在[38]中提出了类似的PatchGAN架构来捕获本地样式统计数据。在这里，我们表明这种方法对更广泛的问题有效，我们研究了改变补丁大小的效果。

3.方法

GAN是生成模型，可以从中学习映射随机噪声向量z输出图像y，G：z→y [24]。在相比之下，条件GAN从观察中学习映射图像x和随机噪声矢量z，到y，G：{x，z}→y。训练生成器G以产生不可能的输出通过对抗训练来区分“真实”图像鉴别者D，受过尽可能好的训练检测生成器的“假货”。这个培训程如图2所示。

3.1目的

条件GAN的目标可以表示为

LcGAN(G,D) =Ex,y[logD(x,y)] Ex,z[log(1 minus; D(x,G(x,z))], (1)

其中G试图最小化这个目标，以对抗试图最大化它的对手D，即G * =argmin测试调节鉴别器的重要性，G maxD LcGAN（G，D）。我们还比较了一个无条件变量，其中鉴别器没有观察到x：

LGAN(G,D) =Ey[logD(y)] Ex,z[log(1 minus; D(G(x,z))]. (2)

以前的方法发现将GAN物镜与更传统的损失混合是有益的，例如L2距离[43]。鉴别器的工作保持不变，但是生成器的任务不仅是欺骗鉴别器，而且还要接近L2意义上的地面实况输出。我们也探索这个选项，使用L1距离而不是L2，因为L1鼓励减少模糊：

LL₁(G) = Ex,y,z[ky minus; G(x,z)k1]. (3)

我们的最终目标是

G^lowast;= argminG maxD LcGAN(G,D) lambda;LL₁(G). (4)

如果没有z，网络仍然可以学习从x到y的映射，但会产生确定性输出，因此无法匹配delta函数以外的任何分布。过去的条件GAN已经承认了这一点并且除了x之外还提供了高斯噪声z作为生成器的输入（例如，[55]）。在最初的实验中，我们没有发现这种策略有效 – 生成器只是学会忽略噪声 - 这与Mathieu等人一致。[40]。相反，对于我们的最终模型，我们仅以dropout的形式提供噪声，在训练和测试时间应用于我们的生成器的多个层。尽管存在dropout噪声，但我们观察到网络输出中只有轻微的随机性。设计产生高随机输出的条件GAN，从而捕获它们建模的条件分布的完整熵，是当前工作留下的一个重要问题。

Encoder-decoder U-Net

xy xy

图3：生成器架构的两种选择。 “U-Net”[50]是编码器 - 解码器，在编码器和解码器堆栈中的镜像层之间具有跳过连接。

3.2网络构架

我们使用[44]中的生成器和鉴别器结构进行调整。生成器和鉴别器都使用卷积形式的模块 - BatchNorm-ReLu [29]。在线补充材料中提供了该架构的详细信息，其中包括下面讨论的主要功能。

3.2.1跳跃鉴别器

图像到图像转换问题的一个定义特征是它们将高分辨率输入网格映射到高分辨率输出网格。另外，对于我们考虑的问题，输入和输出的表面外观不同，但两者都是相同底层结构的渲染。因此，输入中的结构与输出中的结构大致对齐。我们围绕这些考虑设计生成器架构。

许多以前针对该领域问题的解决方案[43,45,30,64,59]使用了编码器 - 解码器网络[26]。在这样的网络中，输入通过一系列逐渐下采样的层，直到瓶颈层，此时该过程被反转。这样的网络要求所有信息流都通过所有层，包括瓶颈。对于许多图像转换问题，在输入和输出之间共享大量低级信息，并且希望直接在网络上传送该信息。例如，在图像着色的情况下，输入和输出共享突出边缘的位置。

为了给生成器提供一种绕过这样的信息瓶颈的方法，我们按照“U-Net”[50]的一般形状添加跳过连接。具体来说，我们在每个层i和层n-i之间添加跳过连接，其中n是层的总数。每个跳过连接简单地将第i层的所有通道与第n-i层的通道连接起来。

3.2.2马尔可夫鉴别器（PatchGAN）

众所周知，L2损失 - 和L1，见图4 - 在图像生成问题上产生模糊结果[34]。虽然这些损失不能鼓励高频脆性，但在许多情况下它们仍能准确地捕获低频。对于出现这种情况的问题，我们不需要一个全新的框架来强制低频率的正确性。 L1已经做好了。

这促使限制GAN鉴别器仅模拟高频结构，依赖于L1项来强制低频正确性（方程4）。为了模拟高频，将我们的注意力限制在局部图像块中的结构就足够了。因此，我们设计了一个鉴别器体系结构 - 我们称之为PatchGAN - 仅在补丁规模上惩罚结构。这个鉴别器试图对eachage是真的还是假的进行分类。我们在整个图像中运行这个鉴别器卷积-Ntimes;N补丁，平均所有响应以提供D的最终输出。

在

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

基于生成对抗网络的图像翻译外文翻译资料

基于生成对抗网络的图像翻译

摘要

1介绍

2相关工作

3.方法

3.1目的

3.2网络构架

3.2.1跳跃鉴别器

3.2.2马尔可夫鉴别器（PatchGAN）

您可能感兴趣的文章

登录

注册

找回密码

基于生成对抗网络的图像翻译

摘要

1介绍

2相关工作

3.方法

3.1目的

3.2网络构架

3.2.1跳跃鉴别器

3.2.2马尔可夫鉴别器（PatchGAN）

您可能感兴趣的文章