卡通化:生成对抗性网络的照片卡通化外文翻译资料

 2022-01-07 10:01

卡通化:生成对抗性网络的照片卡通化

杨陈 清华大学,中国

赖玉坤,英国加的夫大学

刘永靖 清华大学,中国

摘要

本文提出了一种将真实场景的照片转化为卡通风格的图像的解决方案,对计算机视觉和计算机图形学都具有一定的参考价值和挑战性。我们的解决方案属于基于学习的方法,这是最近流行的风格化艺术形式的图像,如绘画。然而,现有方法并不cartoonization产生令人满意的结果,因为(1)卡通风格和高度简化和抽象,具有独特的特征,(2)卡通形象往往有明确的边缘,光滑的色差和相对简单的纹理表现出重大挑战texture-descriptor-based损失函数中使用现有的方法。本文提出了一种基于Car-toonGAN的动画个性化生成对抗网络(GAN)框架。我们的方法采用不配对的照片和卡通图像进行训练,使用方便。草案的两个小说适合cartoonization损失:(1)语义内容的损失,这是制定的稀疏正则化的高级特征图谱VGG网络应对大量风格差异照片和漫画,和(2)一个edge-promoting敌对的损失保留清晰的边缘。我们进一步引入初始化阶段,以提高网络对目标流形的收敛性。我们的方法比现有的方法训练效率更高。实验结果表明,我们的方法能够从真实世界的照片中生成高质量的卡通图像。,遵循特定艺术家的风格和清晰的边缘和平滑的阴影),并优于最先进的方法。

1. 介绍

漫画是一种广泛应用于我们日常生活中的艺术形式。除了艺术兴趣,它们的应用范围从印刷媒体的出版到儿童教育的讲故事。和其他形式的艺术作品一样,许多著名的卡通形象都是根据真实世界的场景创作的。图1显示了一个实际场景、

(a)原始场景 (b)我们的结果

图1所示。卡通程式化的一个例子。(a)在动画电影《你的名字》中出现相应卡通形象的真实场景。(b)将照片(a)转换为卡通风格的结果。请注意,我们的培训数据不包含任何图片在“您的名字”。回应的卡通形象出现在动画电影《你的名字》中。然而,用卡通风格手工再现真实世界的场景是非常辛苦的,需要大量的艺术技巧。为了获得高质量的动画,艺术家们必须画出目标场景的每一条线和每一个颜色区域的阴影。与此同时,现有的具有标准特征的图像编辑软件/算法对卡通化效果并不理想。因此,可以自动将真实世界的照片转换成高质量的卡通风格的图像的特殊设计技术是非常有用的,对于艺术家来说,可以节省大量的时间,使他们可以专注于更多的创造性工作。这些工具还为Instagram和Photoshop等照片编辑软件提供了有用的附加功能。

在非真实感渲染[25]领域,以艺术的方式对图像进行风格化已经得到了广泛的研究。传统方法为特定的样式开发专用的算法。然而,需要大量的工作来创建细粒度的样式,以模仿单个艺术家。近年来,基于学习的风格转换方法(如[6])引起了广泛的关注。特别是探讨了生成式对抗网络(GANs)[38]循环表达的能力,以实现高质量的风格转换,其独特的特点是使用非配对照片和风格化图像训练模型。

尽管基于学习的程式化已经取得了显著的成功,但最先进的方法无法生成具有可接受质量的卡通图像。有两个原因。首先,卡通图像高度简化并从真实世界的照片中抽象出来,而不是添加其他风格的纹理,比如笔触。其次,尽管艺术家之间的风格不同,但卡通形象有明显的共同外观——清晰的边缘,平滑的色彩阴影和相对简单的纹理——这是非常不同于其他形式的艺术作品。

本文提出了一种新的基于ganan的图像卡通化方法。我们的方法是拍摄一组照片和一组卡通图像进行训练。为了产生高质量的结果,同时使训练数据易于获取,我们不需要在两组图像之间进行配对或通信。从计算机视觉算法的角度来看,动画风俗化的目标是在保持内容不变的前提下,将照片流形中的图像映射到动画流形中。为了实现这一目标,我们建议使用一个专用的基于gan的体系结构和两个简单但有效的损失函数。本文的主要贡献是:

(1)我们提出了一种基于gan的专用方法,利用未配对的图像集进行训练,有效地学习从真实世界的照片到卡通图像的映射。我们的方法能够生成高质量的程式化动画,这大大优于最先进的方法。当个别艺术家的卡通形象被用于训练时,我们的方法能够再现他们的风格。

(2)在基于gan的体系结构中,我们提出了两个简单而有效的损失函数。在生成网络中,为了处理照片和卡通之间的大量风格变化,我们引入了一个语义损失,定义为在VGG网络[30]的高级特征图中lsquo;1稀疏正则化rsquo;。在鉴别器网络中,我们提出了一种保持清晰边缘的边缘促进对抗损失方法。

(3)进一步引入初始化阶段,提高网络对目标流形的收敛性。我们的方法比现有的方法训练效率高得多。

2. 相关工作

2.1。真实晕染(NPR)

许多NPR算法已经开发出来,自动或半自动,以模仿特定的艺术风格,包括卡通[25]。一些作品用简单的阴影渲染三维形状,这就创建了卡通效果[28]。这种被称为cel着色的技术可以为艺术家节省大量的时间,并已被用于游戏、动画视频和电影[22]的创作。然而,将现有的照片或视频转换成漫画,如本文所研究的问题,则更具挑战性。

已经开发了多种方法来创建具有平阴影的图像,模仿卡通风格。这些方法要么使用图像滤波[33],要么使用优化问题[35]中的公式。然而,用简单的数学公式很难捕捉到丰富的艺术风格。特别是,将过滤或优化统一地应用于整个图像,并不能提供艺术家通常会做的高级抽象,比如明确对象边界。为了提高结果,其他方法依赖于图像/视频[32]的分割,尽管这需要一些用户交互。也有专门的方法用于人像[36,26],其中可以通过检测面部成分自动提取语义分割。然而,这种方法不能处理一般的图像。

2.2。神经网络风格化

卷积神经网络(Convolutional Neural Networks, CNNs)[17,18]在解决许多计算机视觉问题上受到了相当的重视。不同于对每个样式都进行大量工作的特定NPR算法的开发,样式转换已经得到了积极的研究。与传统的样式转换方法[11,12]需要成对的样式/非样式图像不同,最近的研究[19,1,7,8]表明,训练用于对象识别的VGG网络[30]具有良好的提取对象语义特征的能力,这在样式化中非常重要。因此,更强大的风格转移方法已经开发出来,不需要成对的训练图像。

给定一个样式图像和一个内容图像,Gatys等人[6]首先提出了一种基于CNNs的神经样式转移(NST)方法,将样式从样式图像转移到内容图像。他们使用一个预先训练的VGG网络的特征图来表示内容并优化结果图像,这样它就保留了内容图像中的内容,同时匹配了样式图像的纹理信息,其中纹理使用全局Gram matrix[7]来描述。自动转换多种艺术风格,效果良好。但是,它要求内容和样式图像相当相似。此外,当图像包含多个对象时,它可能会将样式转移到语义上不同的区域。动画风格转换的结果是更有问题的,因为它们往往不能重现清晰的边缘或平滑的阴影。

Li和Wand[20]通过对CNN feature map进行局部匹配,并使用Markov Random Field进行融合(CNNMRF),得到了style transfer。然而,局部匹配可能会出错,导致语义上不正确的输出。廖等人提出了一种深度类比法,在传递风格的同时,保持内容与风格图像之间语义意义的密集对应。他们还比较和混合补丁在VGG功能空间。Chen等人[3]提出了一种改进漫画风格转移的方法,通过训练一个专门的CNN来对漫画/非漫画图像进行分类。所有这些方法都对一个内容图像使用一个样式图像,结果在很大程度上取决于所选择的样式图像,因为样式图像中样式与内容的分离不可避免地存在模糊性。相比之下,我们的方法学习卡通风格使用两组图像(即。,现实世界的照片和卡通形象)。

2.3。图像合成与甘斯

另一种很有前景的图像合成方法是使用生成对抗网络(GANs)[9,34],它在许多应用中产生了最先进的结果,如文本到图像翻译[24]、图像inpainting[37]、图像超分辨率[19]等。GAN模型的核心思想是训练两个网络(即一些工作[5,14,16]为像素间图像合成问题提供了GAN解决方案。然而,这些方法在训练过程中需要成对的图像集,由于很难获得相应的图像集,因此无法进行程式化。

为了解决这一基本限制,CycleGAN[38]最近被提出,它是一个能够使用非配对训练数据进行图像翻译的框架。为了实现这一目标,它同时训练了两组GAN模型,分别从A类映射到B类,从B类映射到A类。损失是基于将图像映射到同一个类的组合映射来表示的。然而,同时训练两个GAN模型往往收敛较慢,导致训练过程耗时较长。该方法由于其自身的特点(即、高层抽象和清晰的边缘)的卡通图像。作为比较,我们的方法使用一个GAN模型来学习照片和卡通流形之间的映射使用非配对的训练数据。由于我们的专用损失函数,我们的方法能够合成高质量的卡通图像,并可以更有效地训练。

2.4。网络体系结构

许多研究表明,虽然深度神经网络可以潜在地提高表示复杂函数的能力,但由于臭名昭著的消失梯度问题,它们也很难训练[29,31]。最近引入的残差块[10]概念是简化训练过程的有力选择。它设计了一个“身份快捷连接”,缓解了训练时渐变消失的问题。基于剩余块的模型在生成网络中表现出令人印象深刻的性能[15,19,38]。另一种减轻深度CNNs训练的常见方法为批量归一化[13],其目的是抵消内部协变量的移位,在接近最小值点时减小振荡。此外,Leaky ReLu (LReLU)[23]是深度CNNs中广泛使用的一种有效的梯度传播激活函数,当单元不活动时,允许一个小的非零梯度,从而提高了网络的性能。我们将这些技术集成到我们的卡通化深层架构中。

3.CartoonGAN

一个GAN框架由两个cnn组成。一种是发电机G,它被训练来产生愚弄鉴别器的输出。另一种是鉴别器D,它可以区分图像是来自真实的目标流形还是合成的。针对动画图像的特殊性,设计了相应的生成网络和判别网络;请参见图2了解概述。

我们将学习将真实世界的照片转换成卡通图像的过程作为一个映射函数,将照片流形P映射到卡通流形c。该映射函数使用训练数据Sdata(P) = {pi |i = 1hellip;N}sub;P和Sdata (c) = {ci |我= 1。。。M}sub;c, N和M在哪里照片的数量和训练集的卡通形象,分别。与其他GAN框架一样,训练了一个识别器函数D,通过将卡通流形中的图像与其他图像进行区分,并提供反损失forG,来推动G达到目标。设L为失值函数,G被存为失值函数,D被存为网络的权值。我们的目标是解决min-max问题:

(G轨道,D轨道)= argmin

G

马克斯

D

L (G, D) (1)

我们在3.1节中给出了网络架构的细节,在3.2节中提出了G和D的两个损失函数。为了进一步提高网络的收敛性,我们提出了一个初始化阶段,并将其融合到Car-toonGAN中。

3.1。CartoonGAN架构

参见图2。在卡通生成系统中,利用生成网络将输入图像映射到卡通流形。一旦模型被训练好,就会产生卡通风格。G首先是一个平坦的卷积阶段,然后是两个下卷积块,对图像进行空间压缩和编码。在此阶段提取有用的局部信号进行下游变换。然后,利用8个布局相同的残块构造内容和流形特征。我们采用了[15]中提出的剩余块布局。最后,通过两个上卷积块对输出的卡通图像进行重构,上卷积块包含阶跃为1/2的卷积层和最终卷积层,卷积层的内核为7times;7。

——————————————————————————————————————————————————————————————————————————————发电机网络————————————————————————————————————————————————————————————————————————————————

——————————————————————————————————————————————————————————————————————————————鉴别器网络————————————————————————————————————————————————————————————————————————————

图2。其中k为内核大小,n为特征图的个数,s为各卷积层的步长,“norm”表示归一化层,“ES”表示元素和。

与生成网络互补的是,描述网络D用于判断输入图像是否是真实的卡通图像。由于判断一幅图像是否是卡通是一项不太费力的任务,我们使用了一个简单的patch-level discriminator来代替常规的full-image discriminator。因此,网络D的设计是浅层的。经过平面层的阶段后,网络采用两个跨卷积块来降低分辨率,并编码必要的局部特征进行分类。然后利用特征构造块和3times;3卷积层得到分类响应。漏水的ReLU (LReLU)[23]alpha;= 0.2每次使用归一化层。

3.2。损失函数

式(1)中的损失函数L(G,D)由两部分组成:(1)逆向损失Ladv(G,D) (Section 3.2.1)驱动生成网络实现所需的流形变换;(2)内容损失Lcon(G,D) (Section 3.2.2)在卡通风格化过程中保持图像内容。我们对损失函数使用一个简单的加法形式:

L (G D) = Ladv (G D) omega;Lcon

全文共13530字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[1920]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。