MASKGAN:更好的文本生成器——填充外文翻译资料

 2022-01-05 20:07:38

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


MASKGAN:更好的文本生成器——填充____

William Fedus, Ian Goodfellow and Andrew M. Dai

Google Brain

liam.fedus@gmail.com, {goodfellow, adai}@google.com

摘要:神经文本生成模型通常是自回归语言模型或seq2seq楷模。 这些模型通过按顺序对每个单词进行抽样来生成文本这个词以前一个词为条件,并且是几台机器的最新技术翻译和摘要基准。通常会定义这些基准通过验证困惑,即使这不是质量的直接衡量标准生成的文本。 此外,这些模型通常通过最大可能性和教师强制进行训练。这些方法非常适合优化困惑但可能导致样本质量差,因为生成文本需要调整可能在训练时从未观察到的单词序列。我们建议使用Generative Adversarial Networks提高样本质量(GANs),明确地训练发电机产生高质量的样品和已经在图像生成方面取得了很大成功。 GAN最初是设计的输出可微分值,因此离散语言生成具有挑战性他们。 我们声称单独验证困惑并不代表质量由模型生成的文本。 我们介绍一个演员评论家条件GAN填写以周围环境为条件的遗失文本。 我们定性和定量地展示了证明这产生了更为现实的条件和条件无条件文本样本与最大似然训练模型进行比较。

1.介绍

递归神经网络(RNNs)(Graves等,2012)是最常见的生成模型序列以及序列标记任务。他们在语言方面取得了令人瞩建模(Mikolov等,2010),机器翻译(Wu et al。,2016)和文本分类(Miyato等人,2017)。通常通过从分布中采样来从这些模型生成文本以前一个词和一个由单词表示组成的隐藏状态为条件到目前为止生成。这些通常在称为的方法中以最大可能性进行训练教师强迫,将真实的话语反馈到模型中以供其使用生成句子的以下部分。在样本生成期间,这会导致问题该模型经常被迫对训练时从未进行过调节的序列进行调节。这导致RNN隐藏状态的不可预测的动态。教授等方法已经提出强迫(Lamb等人,2016)和计划抽样(Bengio等人,2015)解决这个问题。这些方法通过导致隐藏状态动态来间接工作变得可预测(教授强迫)或通过随机调节训练中的采样单词但是,它们并没有直接指定鼓励的RNN输出的成本函数高样品质量。我们提出的方法就是如此。

生成性对抗网络(GAN)(Goodfellow等,2014)是一个培训框架对抗设置中的生成模型,生成器生成的图像试图愚弄经过训练以区分真实和合成图像的鉴别器。 GAN已经有了很多在制作比其他方法更逼真的图像方面取得的成功,但它们只看到了有限的用于文本序列。 这是由于文本的离散性使其传播不可行在标准GAN训练中,从鉴别器回到发生器的梯度。 我们克服了这个通过使用强化学习(RL)来训练发生器,同时仍然训练鉴别器最大似然和随机梯度下降。GAN还经常遇到诸如训练不稳定性和模式丢失之类的问题,这两者在文本环境中都会加剧。 模式当发生器很少产生训练集中的某些模态时,就会发生丢弃 例如,将所有生成的火山图像引导为同一火山的多个变种。 这个由于数据中有许多复杂的模式,因此成为文本生成中的一个重要问题,从bigrams到短语到更长的成语。 训练稳定性也是一个问题,因为不同图像生成,文本是自动回归生成的,因此仅来自鉴别器的损失在生成完整的句子后观察。 生成时会出现此问题更长更长的句子。

我们通过在文本填空或填充中训练我们的模型来减少这些问题的影响任务。 这类似于Bowman等人提出的任务。(2016)但我们使用更强大的设置。 在此任务,删除或编辑文本正文的一部分。 该模型的目标是填充丢失部分文本,使其与原始数据无法区分。 填写文字时,与标准语言一样,该模型对其迄今为止所填充的标记进行自动回归操作建模,同时调节真正已知的背景。 如果整个文本正在编辑,那么这简化为语言建模。

已经注意到,在每个时间步骤中设计错误归属在先前的自然语言GAN中是重要的研究(Yu et al。,2017; Li et al。,2017)。 文本填充任务自然会实现这一考虑因为我们的鉴别器将评估每个令牌,从而提供细粒度的监督信号发电机。 例如,考虑生成器是否生成与数据完全匹配的序列在第一个t - 1个时间步长上分布,但随后产生一个异常值标记yt,(x1:tminus;1yt)。 尽管由于错误的令牌,一个歧视性的模型,整个序列现在显然是合成的对异常值令牌产生高损失信号但对其他令牌产生高损失信号可能会产生更多信息错误信号到发电机。

该研究还开启了对自然语境中条件GAN模型的进一步研究。在以下部分中,

  • 我们介绍了一种在填充中训练的文本生成模型(MaskGAN)。
  • 在非常大的动作空间中考虑演员评论家的架构。
  • 考虑新的评估指标和综合培训数据的生成。

2.相关工作

对可靠地将GAN训练扩展到离散空间和离散序列的研究已经成为一种研究高度活跃的地区。 连续设置的GAN训练允许完全可区分的计算,允许梯度通过鉴别器传递给发生器。 离散元素破裂这种差异性,导致研究人员要么避免问题,要么重新制定问题,努力工作在连续域中或考虑RL方法。

SeqGAN(Yu et al。,2017)通过使用政策梯度来训练发电机来训练语言模型愚弄基于CNN的鉴别器,区分真实和合成文本。 这俩生成器和鉴别器在训练阶段之前预先训练真假数据政策梯度。 在训练期间,他们然后进行蒙特卡洛推出,以获得有用的损失信号每个字。 后续工作然后演示了文本生成而没有预先训练RNN(Press等人,2017)。 另外(Zhang et al。,2017)通过匹配产生了RNN发生器的结果高维潜在表征。

强迫教授(Lamb et al。,2016)是一种替代训练RNN与教师强迫的方法使用鉴别器来区分被调节的发生器RNN的隐藏状态真实和合成样本。 由于鉴别器仅在隐藏状态下操作,因此梯度可以是传递到发生器,以便在推理时间的隐藏状态动态跟随那些训练时间。

GAN已应用于对话生成(Li et al。,2017),显示对抗性的改善与受过最大可能性训练的人类评估相比,评估和良好结果基线。 他们的方法在发电机上应用REINFORCE和Monte Carlo采样。

用有效的梯度逼近器代替不可微分的采样操作(Jang等人,2017年)尚未显示出离散GAN的强劲结果。最近的无偏见和低差异梯度估计技术,如Tucker等。 (2017)可能证明更有效。

WGAN-GP(Gulrajani等,2017)避免了通过离散处理反向传播的问题节点通过使用一维卷积网络以一次性方式生成文本。 Hjelm等。(2017)提出了一种算法解决方案,并使用边界寻求GAN目标生成文本的重要性抽样。在Rajeswar等人。 (2017),鉴别器直接运作关于发电机的连续概率输出。然而,为了实现这一目标,他们重塑了这一点由于对RNN的输入是预定的,因此文本的传统自回归采样。车等。 (2017)改为使用鉴别器的输出来优化低方差目标,而不是标准的GAN目标。 用自然语言成功地探索了强化学习方法。用一个REINFORCE和交叉熵混合,MIXER,(Ranzato等,2015)直接优化BLEU得分并显示出超过基线的改进。最近,演员评论方法自然而然在Bahdanau等人中探讨了语言。 (2017)而不是由一个提供的奖励在对抗设置中的鉴别器,奖励是特定于任务的分数,例如BLEU。 Rajeswar等人已经探索了通过GAN训练生成条件文本。 (2017);李等人。(2017年)。 我们的工作与众不同之处在于,我们在一项旨在提供的任务中采用了演员评论员培训程序每一步都有回报(Li et al。,2017)。我们认为填充可以缓解问题严重模式崩溃。对于降低风险的鉴别器来说,这项任务也更难发电机与近乎完美的鉴别器竞争。我们方法中的批评者帮助生成器通过在极高的范围内减少梯度更新的高方差,可以更快地收敛在自然语言中以字级操作时的动作空间环境。

3.MASKGAN

3.1 表示法

设(xt,yt)表示输入和目标令牌对。 设表示一个蒙面令牌(其中原始令牌被替换为隐藏令牌)并且xt表示填充令牌。 最后,xt是一个填充的令牌传递给鉴别器,可以是真实的或假的。

3.2 架构

输入缺失令牌的任务要求我们的MaskGAN架构条件信息来自过去和未来。 我们选择使用seq2seq(Sutskever等,2014)架构。我们的生成器由编码模块和解码模块组成。 对于离散序列x =(x1,···,xT),生成相同长度的二进制掩码(确定性或随机地)m =(m1,...,mT)其中每个mtisin;{0,1},选择哪个令牌将保留。 时间t的令牌,然后,如果掩码为0,则用特殊掩码标记替换xt,如果掩码为0则保持不变面具是1。

编码器读入掩码序列,我们将其表示为mlt;xgt;,其中应用了掩码逐元素。 编码器在解码期间提供对MaskGAN的未来上下文的访问。

与标准语言建模一样,解码器会自动回归填充缺失的令牌,但是,它现在以屏蔽文本m(x)以及它到目前为止填充的内容为条件。生成器将序列上的分布分解为有序条件序列

鉴别器具有与generator1相同的架构,除了输出是标量每个时间点的概率,而不是词汇量大小的分布。鉴别器被赋予来自生成器的填充序列,但重要的是,它被赋予原始实际上下文m(x)。我们给鉴别器提供真实的上下文,否则,该算法具有严重的故障模式。例如,没有这个上下文,如果给出了填充的鉴别器导演导演指导系列,它将无法可靠地识别导演导演二元组作为假文本,尽管这个二重奏可能永远不会出现在训练语料库中(除了错误的拼写错误)。原因是这两个导演中的哪一个是假的是模棱两可的; * associate * director导演系列或导演*专业*指导系列都是潜在有效的序列。如果没有单词是真实的上下文,则发现鉴别器为两个单词分配相等的概率。当然,结果是对发生器的不准确的学习信号,对于产生这些双字母组合将不会被正确地惩罚。为了防止这种情况,我们的鉴别器Dphi;在给定掩蔽序列m(x)的真实上下文的情况下计算每个令牌x~t的实际概率。

图1:seq2seq生成器架构。 蓝色框代表已知的标记,紫色框代表估算的标记。 我们演示了一个通过虚线进行采样操作。该编码器以掩码序列读取,其中掩码令牌由下划线表示,然后解码器判断丢失使用编码器隐藏状态的令牌。在这个例子中,生成器应该填写字母顺序,(a,b,c,d,e)。

在我们的表述中,鉴别器估计的对数被视为奖励。

我们的第三个网络是评论家网络,它作为鉴别者的额外负责人实施。评论家估计了价值函数,即填写的折扣总回报序列,其中gamma;是序列中每个位置的折扣因子。

3.3 训练

由于对发电机概率的采样操作,我们的模型不是完全可微分的分发以产生下一个令牌。 因此,为了训练发电机,我们估计梯度通过政策梯度来尊重其参数theta;(Sutton等,2000)。 强化学习是第一次在Yu等人的GAN中用于语言建模。(2017年)。 类似地,这里发电机寻求最大化累计总奖励。 我们优化发电机的参数,theta;,通过在上执行梯度上升[R]。 使用REINFORCE系列算法之一,我们可以找到一个无偏的估计量为。 这种差异通过使用学习值函数作为基线,可以减小梯度估计量,这是由评论家制作的。 这导致单个令牌的生成器梯度贡献XT

在RL的命名中,数量(Rt-bt)可以被解释为对优势的估计。这里,是由生成器在atequiv;xeuro;处选择的令牌,而状态st是直到该点生成的当前令牌。 这种方法是一种演员 - 评论家建筑,其中G确定政策pi;(st),而基线bt是评论家(Sutton&Barto,1998; Degris等,2012)。

对于此任务,我们在单个序列的每个时间步骤设计奖励,以帮助获得信贷任务(Li et al。,2017)。 结果,在时间步t产生的令牌将影响奖励在那个时间步骤和随后的时间步骤收到。 我们的发电机梯度将包括 填写每个令牌的贡献,以便最大化折扣总回报。完整的发电机梯度由公式6给出。

直观地说,这表明与生成xt相关的生成器的梯度将取决于由鉴别器分配的所有贴现的未来奖励(sge;t)。 对于非零lambda;折扣因素,发电机将因贪婪地选择一个获得高回报的代币而受到惩罚单独的时间步骤。 然后对于一个完整的序列,我们对t = 1的所有生成的单词xt求和T。 最后,与传统的GAN训练一样,我们的鉴别器将根据梯度进行更新

3.4 长期序列和大量词汇的替代方法

作为我们探讨的其他途径的一小部分,我们强调了这项任务的两个特殊问题似是而非的补救措施。使用长序列和大词汇表,此任务变得更加困难。为了解决扩展序列长度的问题,我们使用动态任务修改核心算法。我们将算法应用到最大序列长

全文共19357字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[2207]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版