包含模仿机制的序列到序列学习外文翻译资料

 2021-11-22 09:11

英语原文共 10 页

包含模仿机制的序列到序列学习

摘要

我们解决了一个涉及模仿的序列到序列学习(Seq2Seq)的重要问题,其在输入序列的确定部分是在输出序列中选择性的复制。一个相似的现象是可察觉的人类语言交流。举例来说,人类倾向于在交流中重复实体名字或长短语。关于在Seq2Seq模仿的挑战是新系统需要去决定何时去执行运算。在本篇论文中,我们包含了基于序列到序列学习的神经网络的模仿并发布一个称为“COPYNET”,拥有编码解码结构的新模型。COPYNET能精确地合并在输入序列中选择后继并将它们放置在输出序列中合适的位置的新模仿机制解码器文字生成的常规方法。我们基于在人造数据和真实世界数据的学习经验来论证COPYNET的功效。举例来说,COPYNET能够在文本摘要测试中超过拥有卓越边界的传统基于RNN模型。

1 序言

近来,基于神经网络的序列到序列学习(Seq2Seq)已经实现了在各种自然语言处理测试中的大成功,包括并不限于机器翻译、句法分析、文本摘要和对话系统。Seq2Seq本质上是一个编码-解码模型,其向一个确定表述编码在输入序列中的第一个变化,并能然后向输出序列变换表述。向Seq2Seq添加注意力机制,首先建议在机器翻译中的自动对正,并使了各种测试的表现得到了显著改进。与经典的编码-解码结构的区别是,在给予注意力机制的Seq2Seq模型重提了在输入序列中的原始形式【raw form】(文字序列的代表)和动态fetchs,是几乎完全基于输出序列产生反馈的信息碎片。

在本篇论文中,我们探索了另一种对于人类语言交流重要的机制,称为“复制机制(copying mechanism)”。基本上,这取决于位于输入序列的一个确切分割并将分割放置入输出序列。举个例子,在下面的两个对话展示了我们观察不同模式在一些回复(R)的后继是被从输入表达中复制的。

标准解码-译码器和它的带有注意机制的变体都十分依赖于表达的“意思”,这可能不是足够不准确除非当系统需要涉及输入的子序列入实体名或数据时。与此相反,复制机制更接近于人类语言处理中的死记硬背,其对应着在神经网络模型的一个不同的模型策略。我们证明这样会加强许多序列到序列学习课题,让它去拥有一个能调节理解和死记硬背的简练统一模型。朝着这个目标,我们打算使用COPY NET,它不仅能胜任词汇的规则生成,也能处理输入序列适当的文段。不管这看上去复制运算很困难,但COPY NET能在端到端模型中训练。我们在合成数据集和真实世界数据集之上的实证研究证实了COPY NET的效用。

2 背景:序列到序列学习的神经模型

Seq2Seq学习可以在概率视图中表示为在给定输入(源)序列的情况下观察输出(目标)序列的可能性(或一些其他评估度量(Shen等人,2015))的最大化。

2.1 RNN编码器-解码器

基于RNN的编码器-解码器成功应用于现实世界的Seq2Seq任务,首先由Cho等人完成(2014)和Sutskever等人(2014),然后由Vinyals和Le(2015年)实现。在编码器-解码器框架中,源序列X = [,...,]被编码器RNN转换成固定长度矢量c,即

其中{}是RNN状态,c是所谓的上下文向量,f是动态函数,并且phi;总结了隐藏状态,例如, 选择最后一个状态. 在实践中,发现门控RNN替代品,例如LSTM(Hochreiter和Schmidhuber,1997)或GRU(Cho等人,2014),其性能比香草更好。

解码器RNN将通过以下动态和预测模型将上下文向量c展开到目标序列中:

其中是时间t的RNN状态,是t处的预测目标符号(通过函数g(·)),表示历史{,...,}。 预测模型通常是词汇表上的分类器,例如30,000个单词。

2.2 注意力机制

注意机制首先被引入Seq2Seq(Bahdanau等,2014),以释放将整个来源概括为固定长度向量作为上下文的负担。 相反,注意力在解码过程中使用动态变化的上下文。 自然选择(或者更确切地说是“软关注”)是将表示为源隐藏状态的加权和,即

其中eta;是显示注意力的对应强度的函数,通常用多层神经网络(DNN)近似。 请注意,在(Bahdanau et al,2014)中,源传感器使用双向RNN进行编码,使每个隐藏状态htau;意识到来自两端的上下文信息。

3 复制网络(COPY NET)

从认知的角度来看,复制机制与死记硬背相关,需要较少的理解,但要确保高字面效率。 从建模的角度来看,复制操作更加严格和象征性,使得其比注意力机制更难以集成到完全可微分的神经模型中。在本节中,我们将介绍COPY NET,一个具有“复制机制”的可分离Seq2Seq模型,其可以通过只有梯度下降的端到端方式进行训练。

3.1 模型梗概

如图1所示,复制网络仍然是编码器-解码器。源序列由编码器转换为表示,然后由解码器读取以生成目标序列。

图1:复制网络的总体图。为简单起见,我们省略了一些预测链接(有关详细信息,请参阅第3.2节)。

编码器:与Bahdanau等人(2014)中的相同,双向RNN用于将源序列变换为具有相等长度的一系列隐藏状态,每个隐藏状态对应于字。 这个源的新表示{,...,}被认为是一个短期记忆(在本文的其余部分称为M),稍后将以多种方式访问 生成目标序列(解码)。

解码器:读取M并预测目标序列的RNN。 它类似于Bahdanau等,(2014)中的标准RNN解码器,但是具有以下重要差异

bull;预测:COPY NET预测基于两种模式的混合概率模型,即生成模式和复制模式, 后者从源序列中选择单词(参见第3.2节);

bull;状态更新:在timet-1预测的单词用于更新t处的状态,但复制网络不仅使用其字嵌入,还使用其在M中的相应位置特定隐藏状态(如果有)(参见第3.3节 更多细节);

bull;读取M:除了对M的细心读取外,COPY NET还具有对M的“选择性读取”,这导致基于内容的寻址和基于位置的寻址的强大混合(参见第3.3节和第3.4节会有更多讨论)。

3.2复制和生成预测

我们假设词汇表V = {,...,},并且对任何词汇表外(OOV)词使用UNK。 另外,对于源序列中的所有唯一字X = {,...,},我们有另一组单词X. 由于X可能包含不在V中的字,因此在X中复制子序列使C OPY-N ET能够输出一些OOV字。 简而言之,源X的特定于实例的词汇表是Vcup;UNKcup;X。

给定时间t处的解码器RNN状态与M一起,产生任何目标字的概率由概率的“混合”给出,如下所示:

其中g代表生成模式,c代表复制模式。 这两种模式的概率分别给出:

其中(·)和(·)分别是生成模式和复制模式的得分函数,Z是两种模式共有的归一化项。由于共享归一化项,这两种模式基本上通过softmax函数竞争(参见图1),使得方程(4)与混合模型的正则定义不同(McLachlan和 Basford,1988)。 这也是图2中的图示。每种模式的得分都是计算得出的:

图2:解码概率p(y t |·)作为4类分类器的图示。

生成模式:使用与通用RNN编码器 - 解码器(Bahdanau等,2014)相同的评分函数,即:

其中和是one-hot的的dicator矢量。

复制模式:“复制”单词的分数计算为:

其中,sigma;是非线性激活函数,考虑到非线性变换等式(8)可以在同一语义空间中支持和。 根据经验,我们还发现使用tanh非线性比线性变换更有效,我们将其用于以下实验。 在计算复制模式得分时,我们使用隐藏状态{,..., }来“表示”源序列{,..., }中的每个单词,因为双向RNN不仅将内容编码,还将位置信息编码为M中的隐藏状态。位置信息对于复制很重要(参见第3.4节的相关讨论)。 注意,我们将等式中所有等于的概率求和。(6)考虑到可能存在多个用于解码的源符号。 当yt没有出现在源序列中时,我们自然地让,并且当仅出现在源中时,设置。

3.3 状态升级

COPY NET用先前状态,先前符号和跟随等式1的上下文向量更新每个解码状态。(2)用于基于通用关注的Seq2Seq模型。 但是,复制机制的路径有一些微小的变化。 更具体地,将表示为,其中是与相关联的单词嵌入,而是M中对应于的隐藏状态的加权和:

其中K是等于Ptau;0的归一化项,考虑到源序列中可能存在的多个位置。 在实践中,rho;ttau;通常集中在多个外观中的一个位置上,表明预测与单词的位置紧密相关。 在某种意义上,执行对M的读取类型,类似于注意力读取(得到),但具有更高的精度。 在本文的其余部分,将被称为选择性读取。 是专门为复制模式设计的:它的精确定位精度与相应的相比,它在隐藏状态下编码的源序列中自然具有的位置。 正如将在3.4节中更多地讨论的那样,这种特殊设计可能有助于复制模式覆盖连续的单词序列。 如果不在源中,我们让= 0。

3.4 M的混合寻址

我们假设COPY NET使用混合策略来获取M中的内容,其结合了基于内容和基于位置的追求。两种寻址策略由解码器RNN协调管理有效读取和选择性读取,以及确定何时进入/退出复制模式。字中的语义及其在X中的位置将由经过适当训练的编码器RNN编码到M中的隐藏状态中。从实验来看,COPY NET的注意力更多地受到语义和语言模型的驱动,因此即使在很远的距离上也能够更自由地在M上旅行。另一方面,一旦C OPY N ET进入复制模式,M的选择性读取通常由位置信息引导。结果,选择性读取通常采取刚性移动并且倾向于覆盖连续的单词,包括UNK。与神经图灵机中混合寻址的显式设计不同(Graves等,2014; Kurach等,2015),COPY NET更为微妙:它提供了可以促进某些特定位置的架构 - 基于寻址并让模型从特定任务的训练数据中找出细节。

基于位置的寻址:使用{}中的位置信息,信息流提供了一种在X上“向右移动一步”的简单方法。更具体地说,假设选择性读取集中于X中的第n个字,则状态更新操作更新→充当“位置larr;位置 1”,使得在预测预测中的X中的第(#39; 1)个字有利 - →复制模式中的。这再次导致选择性读取→表示下一轮的状态更新。

处理词汇外词:虽然很难直接验证上面的确切寻址策略,但我们的实证研究有很强的证据。 最显著的是,经过适当训练的COPY NET可以复制相当长的OOV字段,尽管其M表示缺乏语义信息。 这提供了一种自然的方式来扩展有效词汇以包括源中的所有单词。虽然这种变化很小,但在减轻OOV问题方面似乎非常重要。实际上,对于许多NLP应用(例如,文本摘要或口语对话系统),目标侧上的大部分OOV字,例如专有名词,基本上是原则上的那些OOV字的复制品。

4 学习 (Learning)

虽然复制机制使用“硬”操作从源复制并选择粘贴它们或从词汇中生成符号,但COPY NET完全可以区分,并且可以使用返回端到端方式进行优化传播。给定源序列和目标序列{X} N和{Y} N的批次,目标是最小化负对数似然:

我们使用上标来索引实例的地方。 由于用于观察任何目标字的概率模型是生成模式和复制模式的混合,因此不需要用于模式的任何附加标签。 网络可以学习如何从数据中协调这两种模式。 更具体地说,如果在源序列中找到一个特定单词,则复制模式将对混合模型有贡献,并且梯度将或多或少地鼓励复制模式; 否则,由于共享标准化术语Z的竞争,不鼓励使用复制模式。实际上,在大多数情况下,一种模式占主导地位。

5 实验(Experiments)

我们在以下三个具有不同特征的任务中报告了我们对C OPY N ET的实证研究:

1.一个简单模式的综合数据集;

2.文本摘要的现实任务;

3.简单单圈对话的数据集。

5.1 合成数据集

数据集:我们首先随机生成具有5〜20个符号和变量x和y的变换规则,例如:

{a b c d e f g h m}是来自大小为1,000的词汇表的常规符号。 如下表所示,每个规则可以通过用来自相同词汇表的随机生成的子序列(1~15个符号)替换变量来进一步生成多个实例。 我们创建了五种类型的规则,包括“x→empty;”。 任务是学习从训练实例中进行Seq2Seq转换。 该数据集旨在研究COPY NET在处理简单和刚性模式时的行为。 由于要重复的字符串是随机的,因此它们也可以被视为死记硬背的一些极端情况。

实验设置:我们从数据集中选择200个人工规则,每个规则生成200个实例,这些实例将分为训练(50%)和测试(50%)。 我们将COPY NET和RNN编码器解码器的准确度与(即RNNsearch)或没有注意(表示为Enc-Dec)进行比较。 为了公平比较,我们使用双向GRU作为编码器,使用另一个GRU作为所有Seq2Seq模型的解码器,隐藏层大小= 300,字嵌入维度= 150.我们在波束搜索中使用bin size = 10进行测试。 仅当生成的序列与给定序列完全相同时,才认为预测是正确的。

表1:合成数据的测试准确度(%)。

从表1中可以清楚地看出,除了“x→empty;”之外,COPY N

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。