无监督代表学习深卷积的生成对抗网络外文翻译资料

 2021-11-05 09:11

英语原文共 16 页

无监督代表学习

深卷积的

生成对抗网络

Alec Radford amp; Luke Metz

indico Research

Boston, MA

{alec,luke}@indico.io

Soumith Chintala

Facebook AI Research

New York, NY

soumith@fb.c

摘要

近年来,卷积网络的监督学习已经在计算机视觉应用中被广泛采用。相对而言,无监督使用CNN学习受到的关注较少。在这项工作中,我们希望能有所帮助弥合CNN在监督学习和非监督学习中的成功。我们引入一类称为深卷积生成的CNN。具有一定架构限制的对抗性网络(dcgan),以及证明他们是无监督学习的有力候选人。训练在各种图像数据集上,我们展示了令人信服的证据,证明我们的深卷积对手对从对象部分到生成器和鉴别器中的场景。此外,我们还使用新任务的特征-证明其作为一般图像表示的适用性。

1介绍

从大型未标记的数据集中学习可重用的特征表示是一个活跃的领域研究。在计算机视觉的背景下,我们可以利用未标记的图像和视频,以学习良好的中间表示,然后可用于各种有监督的学习任务,如图像分类。我们建议用一种方法来建造良好的形象表现是通过训练生成的对抗性网络(gans)(Goodfellow)等,2014年),然后将生成器和鉴别器网络的部分重新用作特征抽取器用于监督任务。gans为最大似然技术提供了一个有吸引力的替代方案。另外,我们可以认为,他们的学习过程和缺乏启发式成本函数(如由于像素无关均方误差)对表示学习很有吸引力。甘斯已知不稳定的列车,往往导致发电机产生无意义的输出。在试图理解和想象什么是gans学习以及多层gans的中间表示方面,已经发表的研究非常有限。

在本文中,我们做出了以下贡献

bull;我们提出并评估了卷积结构拓扑上的一组约束条件。使他们在大多数环境下训练稳定的GAN。我们将这类架构命名为深卷积对抗式生成网络(dcgan)

bull;我们使用经过培训的鉴别器执行图像分类任务,显示出与其他无监督算法的竞争性能。

bull;我们将Gans学习的过滤器形象化,并通过经验证明特定的过滤器学会了画特定的物体。

bull;我们证明,生成器具有有趣的矢量算术特性,允许对生成的样本的许多语义特征的处理。

2 相关工作

2.1从未标记的数据中参照学习

无监督表示学习以及在图像的背景下是计算机视觉中一个比较好研究的问题。无监督代表的经典方法学习就是对数据进行集群(例如使用k-means),并利用集群提高分类分数。在图像的上下文中,可以对图像块进行分层聚类(Coatesamp;amp;Ng,2012)来学习强大的图像表示。另一种常用的训练自动编码器的方法(卷积、叠加(Vincent等人,2010年),分离代码的“什么”和“在哪里”(Zhao等人,2015年),阶梯结构(Rasmus等人,2015年)),将图像编码为紧凑的代码,并尽可能解码代码以准确地重建图像。这些方法还可以从图像像素学习良好的特征表示。深度信仰网络(Lee等人,2009年)在学习分层表示方面也表现出了良好的效果。

2.2生成自然图像

生成图像模型研究得很好,分为两类:参数模型和非参数模型。

在非参数模型与现有的图像或小块图像的数据库相匹配。已经用于结构合成(efros等人,1999年),超分辨率(Freeman等人,2002年)和绘画(Hays amp;amp; efros,2007)。

用于生成图像的参数化模型已被广泛探索(例如在mnist数字或用于结构合成(Portilla和Simoncelli,2000))。然而,生成自然图像直到最近,现实世界才取得了很大的成功。变分抽样法生成图像(Kingmaamp;amp;Welling,2013年)已经取得了一些成功,但样本往往会变得模糊。另一种方法是使用迭代正扩散过程生成图像。(Sohl Dickstein等人,2015年)。生成对抗性网络(Goodfellow等人,2014年)生成的图像噪音大且难以理解。拉普拉斯金字塔的延伸方法(Denton等人,2015年)显示了更高质量的图像,但由于链接多个模型中引入了噪声,因此它们仍然受到物体看起来不稳定的影响。最近,循环网络方法(Gregor等人,2015)和反褶积网络方法(Dosovitskiy等人,2014)在生成自然图像方面也取得了一些成功。但是他们没有利用生成器执行受监控的任务。

2.3 CNN内部可视化

对使用神经网络的一个不断的批评是,它们是黑盒方法,对网络以简单的人类可消费的算法的形式所做的了解很少。在CNN的背景下,Zeiler等人(Zeileramp;amp;Fergus,2014)表明,通过反褶积和过滤最大激活,可以找到网络中每个卷积滤波器的近似用途。同样,在输入端使用梯度下降可以检查激活某些滤波器子集的理想图像(Mordvintsev等人)。

3 方法与模型体系结构

使用CNN对图片进行建模的历史尝试并未成功。这个激励Lapgan(Denton等人,2015)的作者开发一种替代方法,以迭代的高分辨率低分辨率生成的图像,可以更可靠地建模。我们也遇到了一些困难,试图使用CNN架构来扩展gan,这种架构通常在受监督的文献中使用。然而,在广泛的模型探索之后,我们确定了一系列架构,这些架构在一系列数据集中产生了稳定的训练,并允许训练更高的分辨率和更深层的生成模型。

我们的方法的核心是采用和修改三个最近证实的CNN架构变化。

第一个是全卷积网络(Springenberg等人,2014),它将确定性空间池函数(如maxpooling)替换为跨步卷积,允许网络学习自己的空间降采样。我们在生成器中使用这种方法,允许它学习自己的空间上采样和鉴别器。

第二个趋势是在卷积特征的基础上消除完全连接的层。最有力的例子是在艺术图像分类模型(Mordvintsev等人)。我们发现全局平均池提高了模型的稳定性,但降低了收敛速度。将最高卷积特征分别与发生器和鉴别器的输入和输出直接连接的中间接地工作良好。GAN的第一层以均匀的噪声分布z作为输入,可以称为完全连接,因为它只是一个矩阵乘法,但结果被重新整形为4维张量,并用作卷积堆栈的开始。对于鉴别器,最后一个卷积层被压平,然后送入单个乙状结肠输出。示例模型体系结构的可视化见图1。

第三种是批量标准化(ioffeamp;amp;szegedy,2015年),它通过将每个单元的输入标准化为零平均值和单元方差来稳定学习。这有助于处理由于初始化不佳而产生的培训问题,并有助于在更深的模型中进行梯度流。这对于深入了解发生器开始学习,防止发生器将所有样本压缩到一个单一点至关重要,这是在gans中观察到的常见故障模式。然而直接对所有层应用batchnorm,导致了样品振荡和模型不稳定。避免这种情况的方法是不将batchnorm应用于发生器输出层和鉴别器输入层。

RELU激活(Nairamp;amp;Hinton,2010)用于发生器,但使用tanh函数的输出层除外。我们观察到,使用有界激活可以使模型更快地学习饱和并覆盖训练分布的颜色空间。在鉴别器中,我们发现漏校正激活(Maas等人,2013年)(Xu等人,2015年)工作良好,特别是对于更高分辨率的建模。这与使用Maxout激活的原始GAN纸形成对比(Goodfellow等人,2013)。

稳定深卷积神经网络体系结构指南

bull;用跨步卷积(鉴别器)和分数跨步替换任何池层卷积(发生器)。

bull;在发生器和鉴别器中使用batchnorm。

bull;移除完全连接的隐藏层以实现更深层的架构。

bull;在发生器中对除输出外的所有层使用RELU激活,该输出使用TANH。

bull;在所有层的鉴别器中使用leakyrelu激活。

4对抗训练细节

我们对dcgan进行了三个数据集的培训,即大规模场景理解(lsun)(Yu等人,2015年)、Imagenet-1K和一个新组装的人脸数据集。下面给出了每个数据集使用情况的详细信息。

除了缩放到tanh激活函数的范围之外,没有对训练图像进行预处理。所有模型均采用小批量随机梯度下降(SGD)训练,最小批量为128。所有权重均从零中心正态分布初始化,标准差为0.02。在Leakyrelu中,所有模型的泄漏坡度都设置为0.2。虽然之前的GAN工作使用了动量来加速培训,但我们使用了Adam优化器(Kingmaamp;amp;BA,2014年),并对超参数进行了调整。我们发现建议的学习率0.001太高了,用0.0002代替。此外,我们发现,将动量项beta;1保留在建议值0.9处会导致训练振荡和不稳定,同时将其降低到0.5有助于稳定训练。

图1:用于LSUN场景建模的dcgan生成器。将一个100维均匀分布的Z投影到一个具有许多特征图的小空间范围卷积表示中,然后将一系列四阶阶梯卷积(在最近的一些论文中,这些卷积被错误地称为反卷积)转换成64times;64像素的图像。值得注意的是,没有使用完全连接或池层。

4.1 LSUN

随着来自生成图像模型的样本的视觉质量的提高,对训练样本的过度拟合和记忆的担忧已经增加。为了演示我们的模型如何使用更多数据和更高分辨率生成进行扩展,我们在LSUN卧室数据集上训练模型,其中包含300多万个训练样例。 最近的分析表明,模型学习速度和泛化性能之间存在直接联系(Hardt 等人在2015年的研究)。 我们展示了一个训练时期的样本(图2),模仿在线学习,以及之后的样本收敛(图3)。作为一个机会,通过简单地过度拟合/记忆训练样例来证明我们的模型不会产生高质量的样本。数据增加没有应用于图像。

4.1.1重复数据删除

为了进一步降低生成器存储输入示例的可能性(图2),我们执行了一个简单的图像重复消除过程。我们将3072-128-3072去噪退出归一化RELU自动编码器安装在32x32下采样中心作物的训练示例上。然后,通过对relu激活进行阈值化,从而对产生的代码层激活进行二值化,这已被证明是一种有效的信息保存技术(srivastava等人,2014年),并提供了一种方便的语义散列形式,允许线性时间消除重复。对散列碰撞的目视检查显示出高精度,估计的假阳性率小于1/100。此外,该技术检测到并删除了大约275000个副本,这意味着召回率很高。

4.2 人脸

我们从人脸的随机网络图像查询中获取包含人脸的图像。这些人的名字是从DBpedia获得的,以他们出生在现代为选择标准。这个数据集有来自10000人的3M图像。我们在这些图像上运行一个opencv人脸检测器,保持足够高的分辨率,这给了我们大约350000个人脸盒。我们用这些脸谱盒来训练。没有对图像进行数据扩充。

图2:一次培训后生成的卧室通过数据集。理论上,模型可以学习记忆训练示例,但这在实验上是不太可能的,因为我们训练的学习率很低,并且使用的是小批量SGD。我们不知道以前的经验证据表明记忆与SGD和一个小的学习率。

图3:经过五个培训阶段后生成的卧室。似乎有证据表明,通过在多个样本中重复的噪声纹理,如一些床的基板。

4.3 IMAGENET-1K

我们使用Imagenet-1k(Deng等人,2009年)作为无人监督训练的自然图像源。Wtrain在32times;32分钟调整大小的中心作物。数据增强没有应用于图像。

5对DCGANS能力的经验验证

5.1使用GANS作为特征提取器对CIFAR-10进行分类

评估无监督表示学习算法质量的一种常用技术是将它们作为特征提取器应用于监督数据集,并评估在这些特征之上拟合的线性模型的性能。在CIFAR-10数据集上,基线性能非常强利用K-means作为特征学习算法,利用单层特征提取管道进行了演示。当使用大量特征图(4800)时,该技术的准确率达到80.6%。基于算法的无监督多层扩展达到82.0%的准确率(Coates&Ng,2011)。为了评估DCGAN对监督任务所学习的表示的质量,我们在Imagenet-1k上进行训练,然后使用来自所有层的鉴别器卷积特征来最大化每个层表示以产生4times;4空间网格。然后将这些特征平坦化并连接以形成28672维向量,并且在它们之上训练正则化线性L2-SVM分类器。这表现出所有基于K-means的方法,达到了82.8%的准确度。值得注意的是,与基于K均值的技术相比,鉴别器具有许多较少的特征图(在最高层中为512),但是由于4times;4个空间位置的许多层,确实导致更大的总特征向量大小。 DCGAN的性能仍然低于Exemplar CNN(Dosovitskiy等,2015)的性能,该技术以无人监督的方式训练正常的判别CNN,以区分来自源数据集的特定选择的,积极增强的样本样本。通过微调歧视者的陈述可以进一步改进,但我们将其留待将来工作。此外,由于我们的DCGAN从未接受过CIFAR-10的训练,因此该实验还证明了所述特征的域鲁棒性。

表1:使用我们预训练模型的CIFAR-10分类结果。 我们的DCGAN没有经过CIFAR-10的预训练,但在Imagenet-1k上,这些功能用于对CIFAR-10图像进行分类。

5.2使用GANS作为特征提取器对SVHN数字进行分类

在StreetView House Numbers数据集(SVHN)(Netzer等,2011)中,当标记数据稀缺时,我们使用DCGAN鉴别器的特征进行监督。在CIFAR-10

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。