生成对抗网络外文翻译资料

 2022-06-07 09:06

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


生成对抗网络(译)

摘要

我们提出了一个新的框架用来通过一个对抗的过程估计生成模型,在其中我们同时培养两种模型:一个用来捕捉数据分布的生成模型G和一个用来评估一个样本来自训练数据而不是来自生成数据的概率的判别模型D。G的训练程序是为了最大化D模型出错的概率。这一框架相当于一个极大极小博弈。在任意函数G和D的空间中,存在一个唯一解,在这个解中,G恢复为训练集分布,D输出的值始终为1/2。在G和D被定义为多层感知机的情况下,整个系统可以用反向传播算法进行训练。在训练或者生成样本期间不需要任何马尔科夫链或者展开的近似推理网络。实验通过定性的和定量的评价来证明这一框架的潜力。

1 介绍

深度学习的承诺是发现丰富的分层的模型,用来代表在人工智能应用时遇到的各种数据的概率分布,比如自然图像,包含语音的音频波形和自然语言语料库中的符号。到目前为止,在深度学习领域最引人注目的成功包括判别模型,通常是那些将高维度,丰富的感知器输入映射到类标签的模型。这些引人注目的成功主要基于反向传播算法和丢弃算法,它们使用了拥有特别良好的梯度的分段线性单元。由于在最大似然估计和相关策略中出现的许多难对付的概率计算,以及很难利用在生成上下文中时使用分段线性单元的好处,深度生成模型所产生的影响较小。我们提出了一个新的生成模型估计程序,以避免这些困难。

在建议的对抗网络框架中,生成模型在与一个对手对抗着,一个学会了判断一个样本是来自模型生成的分布还是原数据分布的判别模型。生成模型可以被认为是一个伪造团队,尝试着生产假币并且不加检测的使用它,而判别模型则类似于警察,尝试检测伪造的货币。这场游戏中的竞争驱使两个队伍提升他们的方法直到伪造的数据看起来和真正的数据没有区别。

这个框架可以为许多种模型和优化算法生产特定的训练算法。在这篇文章中,我们会探讨生成模型通过将随机噪声传入一个多层感知机来生成样本的特特例,同时判别模型也是一个多层感知机。我们将这个特例称为对抗网络。在这个情况下,我们可以通过使用非常成功的反向传播算法和丢弃算法来训练两个模型,而生成模型生成样本仅需使用前向传播算法。而且并不需要近似推理和马尔科夫链。

2相关工作

包含隐变量的有向图模型可以被包含隐变量的无向图模型替代,比如受限制波兹曼机(RBM),深度波兹曼机(DBM)和它们很多的变种。这些模型间的相互关系可以被表达为非标准化的势函数的乘积,再通过随机变量的所有状态的全局整合来标准化,这个数量和它的梯度的估算是很棘手的,尽管他们能够使用马尔可夫链和蒙特卡罗(MCMC)算法来估计,同时依靠MCMC算法的混合也会引发一个严重的问题。

深度置信网络(DBN)是一个包含一个无向层和若干有向层的混合模型。当使用快速逐层训练法则时,DBNS会引发无向模型和有向模型相关的计算难题。

已经有人提出不采用似然函数的估计或约数的替代准则,例如分数匹配和噪音压缩评估(NCE)。他们都需要知道先验概率密度知识以分析指定一个规范化的常量。请注意,许多有趣的带有一些隐层变量的生成模型(如DBN和DBM),它们甚至不需要难以处理的非标准化的概率密度先验知识。一些模型如自动编码降噪机和压缩编码的学习准则与分数匹配在RBM上的应用非常相似。在NCE 中,使用一个判别训练准则来拟合一个生成模型。然而,生成模型常常被用来判别从一个固定噪音分布中抽样生成的数据,而不是拟合一个独立的判别模型。由于NCE 使用一个固定的噪音分布,仅仅是从观测变量的一个小子集中学习到一个大致正确的分布后,模型的学习便急剧减慢。

最后,一些技术并没有用来明确定义概率分布,而是用来训练一个生成器来从期望的分布中拟合出样本。这个方法优势在于这些机器学习算法能够设计使用反向传播算法训练。这个领域最近比较突出的工作包含生成随机网络(GSN),它扩展了广义的除噪自动编码器:两者都可以看作是定义了一个参数化的马尔可夫链,即一个通过执行生成马尔科夫链的一个步骤来学习机器参数的算法。同GSNs 相比,对抗网络不需要使用马尔可夫链来采样。由于对抗网络在生成阶段不需要循环反馈信息,它们能够更好的利用分段线性单元,这可以提高反向传播的性能。更多利用反向传播算法来训练生成器的例子包括变分贝叶斯自动编码和随机反向传播。

3对抗网络

当模型都是多层感知器时,对抗模型框架最直接适用。为了学习发生器在数据x上的分布pg,我们定义了一个先验输入噪声变量pz(z),然后将对数据空间的映射表示为G(z;theta;g),其中G是由多层感知器表示的可微函数。我们还定义了第二个多层感知器D(x;theta;d),它输出一个标量。 D(x)表示x来自数据而非pg的概率。 我们对D进行训练,以最大化分配正确的标签的概率,以便从G中分配正确的标签到两个实例和样本。同时训练G最小化log(1-D(G(z))):

换句话说,D和G玩的是以下关于值函数V(G,D)的极大极小博弈:

在下一节中,我们对对抗网络进行理论分析,基本上表明训练准则允许我们恢复数据生成分布,因为G和D被给予足够的性能,即非参数限制。 请参阅图1,以获得一种不太正式,更具教学意义的解释。在实践中,我们必须使用迭代数值方法来实现博弈。在训练内循环中优化D以完成计算是不可行的,并且在有限数据集上将导致过度拟合。相反,我们在优化D的k个步骤和优化G的一个步骤之间交替。这使得D维持在最佳解决方案附近,只要G足够慢地变化。这种策略类似SML/PCD[31,29]中训练从一个学习阶段向下一个阶段维持马尔可夫链样本的方式,以避免在作为内部学习循环的一部分的马尔可夫链中燃烧。 该过程在算法1中正式提出。

在实践中,方程1可能不会为G提供足够的梯度来学习。 在学习初期,当G很差时,D可以高度自信地拒绝样本,因为它们与训练数据明显不同。 在这种情况下,log(1-D(G(z)))饱和。我们可以训练G以最大化logD(G(z)),而不是训练G以最小化log(1-D(G(z)))。 这个目标函数导致了G和D动力学稳定点相同,但在学习初期提供了更强的梯度。

图1:通过同时更新判别分布(D,蓝色,虚线)来训练生成对抗网络,以便分辨样本是来自数据分布(黑色,虚线)px还是生成分布Pg(G)(绿色,实线)。下端的水平线是样本z的区域,在这种情况下是均匀的。上面的水平线是x的域的一部分。向上的箭头显示映射x = G(z)如何在变换的样本上施加非均匀分布Pg。 G在高密度区域收缩并在低密度区域扩张。 (a)考虑接近收敛的对抗配对:Pg与Pdata相似,D是部分准确的分类器。 (b)在算法D的内循环中训练以区分样本是否来自数据,收敛于D*(x)=Pdata(x)/(Pdata(x) Pg(x))。 (c)在对G进行更新后,D的梯度已经引导G(z)流向更可能被分类为数据的区域。 (d)经过几个步骤的训练,如果G和D有足够的容量,他们将达到两个都无法提高的点,因为Pg = Pdata。鉴别器不能区分这两种分布,即D(x)= 1/2。

4理论的结果

生成器G隐式定义了一个概率分布Pg作为获取样本G(Z)的分布。因此,如果给予了足够的容量和训练时间,我们希望算法1能够收敛为一个好的评估量。这一部分的结果基于一个非参数的环境,例如,我们通过研究概率密度函数空间中的收敛来表示具有无限容量的模型。

我们将在4.1部分展示这一极大极小游戏拥有一个全局最优值即Pg=Pdata。我们将在4.2部分使用算法1来优化等式1,以此来获得一个预期的结果。

算法1. 生成对抗网络的minibatch随机梯度下降训练。判别模型的训练步数k是一个超参,我们的实验中选用k=1这个消耗最低的选项。

For number of training iterations do

for k steps do

*在噪声先验分布为Pg(z)的m个样本中选取一个minibatch。

*在数据分布为Pdata(x)的m个训练样本中选取一个minibatch。

*通过随机梯度上升来更新判别模型:

End for

*在噪声先验分布为Pg(z)的m个噪声样本中选取一个minibatch。

*通过随机梯度下降来更新生成器:

End for

4.1 全局最优解 Pg = Pdata

我们首先考虑对于任意给定的生成器G的最优判别器D。

命题1. 对于一个给定的G,最优判别器D为:

证明. 判别器D的训练标准为,给定任意的生成器G,最大化V(G,D)的值:

对于任意(a,b) isin; R2 \{0,0},函数y → alog(y) blog(1minus;y)在区间[0,1]取最大值于a/(a b)。无需在Supp(pdata) cup; Supp(pg)外定义判别器。

注意D的训练戳可以被理解为最大化对数似然来估计条件概率P(Y = y|x),Y可以表示x是来自Pdata(当y=1时)还是Pg(当y=0时)。等式1中的极大极小游戏现在可以被表示为:

定理1. 当且仅当Pg = Pdata时,训练标准C(G)达到全局最小值,在这一位置C(G)的值为-log4.

证明. 对于Pg = Pdata,Dlowast;G(x) = 1/2,因此,通过观察等式4在D*G(x) = 1/2,我们发现C(G)=log(1/2) log(1/2) = -log4。为了观察这是C(G)的最佳值且当且仅当Pg = Pdata时达到,观察:

然后从C(G) = V (Dlowast;G,G)减去上式,可得:

其中KL为Kullback–Leibler散度。我们在表达式中识别出了模型判别和数据生成过程之间的Jensen–Shannon散度:

由于两个分布之间的Jensen–Shannon散度总是非负的,并且当两个分布相等时,值为0。因此为的全局极小值Clowast; = minus;log(4),并且唯一解为pg = pdata,即生成模型能够完美的复制数据的生成过程。

4.2算法1的收敛性

命题提出及证明过程:

命题2. 如果G和D有足够的性能,对于算法1中的每一步,给定G时,判别器能够达到它的最优,并且通过更新Pg来提高这个判别准则

之后Pg收敛为Pdata

证明:如上述准则,考虑V(G,D) = U(Pg,d)为关于Pg的函数。注意到U(Pg,D)为Pg的凸函数,该凸函数上确界的次导数包含达到最大值处该函数的导数。换句话说,f(x) = supalpha;isin;Afalpha;(x)且对于每一个alpha;,falpha;(x)是关于x的凸函数,那么如果beta;=argsupalpha;isin;Afalpha;(x),则part;fbeta;(x)isin;part;f。着等价于给定对应的G和最优的D,计算Pg的梯度更新。如定理1所证明,supDU(Pg,D)是关于Pg的凸函数且有唯一的全局最优解,因此,当Pg的更新足够小时,Pg收敛到Px。

实际上,对抗的网络通过函数G(z; theta;g) 表Pg分布的有限簇,并且我们优化theta;g而不是Pg本身。使用一个多层感知机来定义G在参数空间引入了多个临界点。然而,尽管缺乏理论证明,但在实际中多层感知机的优良性能表明了这是一个合理的模型。

5 实验

我们在一系列数据集上,包括MNIST、多伦多面部数据库(TFD)和CIFAR-10,来训练对抗网络。生成器的激活函数包括修正线性激活(ReLU)和sigmoid 激活,而判别器使用maxout激活。Dropout被用于判别器网络的训练。虽然理论框架可以在生成器的中间层使用Dropout和其他噪声,但是这里仅在生成网络的最底层使用噪声输入。

Table 1:基于Parzen窗口的对数似然估计。MNIST上报告的数字是测试集上的平均对数似然以及在样本上平均计算的标准误差。在TFD上,我们计算数据集的不同折之间的标准误差,在每个折的验证集上选择不同的sigma;进行交叉验证并计算平均对数似然函数。对于MNIST,我们与真实值(而不是二进制)版本的数据集的其他模型进行比较。

我们通过对G生成的样本应用高斯Parzen窗口并计算此分布下的对数似然,来估计测试集数据的概率。高斯的sigma;参数通过对验证集的交叉验证获得。Breuleux 等人引入该过程且用于不同的似然难解的生成模型上。结果报告在表1中。该方法估计似然的方差较大且高维空间中表现不好,但确实目前我们认为最好的方法。生成模型的优点是可采样而不直接估计似然,从而促进了该模型评估的进一步研究。

训练后的生成样本如下图2图3所示。虽然未声明该方法生成的样本优于其它方法生成的样本,但我们相信这些样本至少和文献中较好的生成模型相比依然有竞争力,也突出了对抗框架的潜力。

图像2:来自模型的样本的可视化。最右边的列表示出了最近训练示例,以便证明该模型没有记住训练集。样品是完全随机抽取的,而非精心挑选。与其他大多数深度生成模型的可视化不同,这些图像显示来自模型分布的

全文共6121字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[11217],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。