学习句子相似度的连体递归结构外文翻译资料

 2022-08-11 10:08

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


摘要

我们提出了一种长短期记忆(LSTM)网络的连体适配方法,用于由一对可变长度序列组成的标记数据。我们的模型被应用于评估句子之间的语义相似度,在这方面我们超越了最新的技术,超过了精心制作的特征和最近提出的更复杂的神经网络系统。对于这些应用,我们向LSTMs提供了添加同义信息的单词嵌入向量,LSTMs使用一个固定大小的向量来编码句子中表达的潜在含义(不考虑特定的措辞/语法)。通过限制后续操作依赖于一个简单的曼哈顿度量,我们迫使模型所学习的句子表示形成一个高度结构化的空间,其几何结构反映了复杂的语义关系。我们的结果是一系列发现中的最新发现,这些发现展示了LSTMs强大的语言模型,能够完成需要复杂理解的任务。

1.介绍

文本理解和信息检索是一项重要的任务,通过建立句子/短语之间潜在的语义相似度模型可以大大提高这项工作的效率。特别是,为了表达同一想法,一个好的模型不应该受到措辞/语法变化的影响。因此,学习这样一种语义文本相似度度量方法引起了大量的研究兴趣(Marelli[20] 等人,2014)。然而,这仍然留下了一个难题,即标记数据是稀缺的,句子既有可变长度又有复杂的结构, bag-of-words/tf-IDF模型虽然在自然语言处理(NLP)中占主导地位,但在这一背景下却受到其固有术语特异性的限制(c.f.Mihalcea[21],Corley,和Strapparava 2006)。

为了寻找这些方法的新出路,Mikolov[22](2013)等人和其他人已经证明了神经单词表示法在类比以及其他NLP任务的有效性。最近,人们的兴趣已经转移到这些概念的扩展上,从单个单词层次扩展到更大的文本体,如句子,在这些文本体中,人们学会了将每个句子表示为一个固定长度的向量(Kiros[15]等人,2015;Tai[28], Socher, 和Manning 2015; Le[17]和Mikolov 2014)。

递归神经网络(RNN),特别是Hochreiter[13]和Schmidhuber(1997)的长短期记忆模型,非常适用于句子这类可变长度输入,在文本分类(Graves[10],2012)和语言翻译(Sutskever[27], Vinyals,和Le 2014)等任务中的这一设置也特别成功。RNNs对序列数据(x1,hellip;,xT)采用标准的前馈神经网络,其中在每个tisin;{1,hellip;,T}处,更新为通过执行的隐藏状态向量

(1)

Siegelmann[25]和Sontag(1995)已经证明了基本RNN是图灵完备的,但是权重矩阵的优化是困难的,因为它的反向传播梯度在长序列上变得非常小。实际上,LSTM在学习远程依赖性方面优于基本RNNs,它使用的存储单元可以跨长输入序列存储/访问信息。与RNNs一样,LSTM顺序更新隐藏状态表示,但这些步骤也依赖于包含四个组件(实值向量)的内存单元:内存状态、确定内存状态如何影响其他单元的输出门,以及控制存储在(和)中的内容的输入(和)门(从中省略)基于每个新输入和当前状态的内存。以下是由权重矩阵Wi、Wf、Wc、Wo、Ui、Uf、Uc、Uo和偏置向量bi、bf、bc、bo参数化的LSTM中的每个tisin;{1,hellip;,t}执行的更新:

(2)

(3)

(4)

(5)

(6)

(7)

Graves[10](2012)和Greff[11](2015)等人对LSTM模型及其变体进行了更深入的阐述。尽管LSTM语言模型的成功无法获得当前理论的理解,Sutskever、Vinyals和Le(2014)在经验上验证了一种直觉性的做法,即经过有效训练的网络将每个句子映射到一个固定的长度向量,它对文本中表达的基本含义进行编码。最近的研究提出了许多其他LSTM变体,如Cho[7](2014)等人的简单门控递归单元(GRU)。经过广泛的实证分析,Greff[11](2015)等人对人们提议的任何修改是否可靠且优于基本LSTM模型这一问题提出了质疑。顺序RNN的更广泛的架构修订也被引入到文本建模中,包括双向、多层(Graves[10],2012)和递归树结构(Socher[26],2014)。

  在这项工作中,我们表明,在给定足够的数据的情况下,LSTM的简单改编可以在配对示例中进行训练,以学习捕捉丰富语义的高度结构化的句子表示空间。与Sutskever[27]、Vinyals和Le(2014)的语言翻译实验一样,我们的结果表明,标准LSTMs可以在看似复杂的NLP问题上取得显著的效果。尽管它很简单,但是我们的方法在评估句子之间的相似性方面表现出了比当前技术水平更高的性能。

形式上,我们考虑一个有监督的学习环境,其中每个训练示例包含一对序列、一个固定大小向量序列连同该对的单个标签y。注意,序列可以具有不同的长度Tane;Tb,并且序列长度可以随示例而变化。当我们对称地处理这两个序列时,我们的方法可以很容易将源于一个域的和扩展到源于另一个域的。假设给定值y反映了相似性的基本度量,我们的算法将变长序列的一般空间映射到固定维数的可解释结构度量空间(与多维标度等流形嵌入技术不同,该算法可应用于数据中不存在的新示例)。

我们的激励样本是对句子之间的相似度进行评分,给出语义相似度被人类标记为y的示例对。在这种情况下,每一个表示第一个句子中一个词的向量表示,而表示第二个句子中的词向量。因此,与Sutskever[27]、Vinyals和Le(2014)的工作相比,我们使用LSTMs的明确目标是学习反映语义的度量,在这些工作中,这些属性作为翻译任务的间接影响出现在学习的表示中。

2.相关工作

由于语义相似度在不同应用中的重要性,语义相似度评估被选为2014年SemEval的第一项任务,在SemEval中,许多研究人员将方法应用于一个标记的数据集,该数据集包含涉及合成知识(SICK)的句子对(Marelli[20]等人。2014年)。这些数据的竞争性模型都利用了异构特征(例如单词重叠/相似性、否定建模、句子/短语组合)和外部资源(例如Wordnet(Miller[23],1995)),并且应用了各种各样的学习算法(例如支持向量机、随机森林、k近邻和模型集合)。利用潜在语义分析和许多其他手工制作的特征学习向量空间表示,是Zhao[32],Zhu,and Lan(2014)提交的最优秀的原创作品之一。另一个高性能系统,来自Bjerva[4](2014)等人,他们结合Mikolov[24](2013)等人的word2vec神经语言模型得出的特征,使用形式语义和逻辑推理,而我们也将其词向量作为模型的唯一输入。

最近,三种与我们的方法更相似的神经网络方法在性能上有了显著的改进。He[12]、Gimpel和Lin(2015)提出了一个复杂的卷积网络(ConvNet)变体,该变体通过在不同尺度上整合多个卷积的各种差异来推断句子的相似性。这些作者解释说,由于标记数据的有限可用性,他们的实质性架构工程是必要的,我们在这项工作中通过增加训练集来处理这个问题。

Kiros[15](2015)等人提出了跳跃思维模型,将单词到句子的跳跃语法方法进行了扩展。该模型将每个句子输入一个RNN编码器解码器(带有GRU激活),该解码器尝试重建前一个和后一个句子。为了使他们的方法适应句子相似性任务,Kiros等人首先通过RNN编码器(其权值在初始语料上训练后固定)传递一个句子以获得向量。随后,针对每个训练示例中出现的一对句子,使用跳过思想向量之间的差异以及乘积派生的特征,直接对SICK数据进行单独的分类器训练。与Sutskever[27]、Vinyals和Le(2014)的编码器-解码器框架一样,跳过思想表示中的语义属性表现为间接影响,而不是目标中的明确目标。

Tai[28]、Socher和Manning(2015)提出了Tree-LSTMs,将标准LSTMs的顺序敏感链结构推广到树型网络拓扑。每个句子首先被转换成一个解析树(使用一个单独训练的解析器),然后Tree-LSTM从对应的单词和所有子节点的隐藏状态组成它在给定树节点上的隐藏状态。他们预期的效果是通过反映句子的句法特征,解析树结构网络能够比顺序限制结构更有效地传播必要的信息。该模型适用于句子相似度,正如Kiros等人所说,其中输入句子的表示现在由Tree-LSTMs生成,而不是跳过思想(Tree-LSTM表示与SICK数据集上的最终分类器一起进行联合训练)。

我们提出的模型还使用神经网络来表示句子,它的输入是从一个大的语料库中独立学习的词向量。然而,与Kiros等人的方法不同,我们的表征学习目标直接反映了给定的语义相似性标签。尽管上述神经网络利用复杂的学习器从句子表示中预测语义相似度,但我们提出了更高的要求:即学习语义结构的表示空间,使简单的度量足以捕获句子相似度。这种观点还构成了Chopra[8],Hadsell和LeCun(2005)开发的用于面部验证的暹罗架构,该体系结构在我们使用LSTM的情况下利用对称ConvNets。暹罗神经网络被提出用于许多度量学习任务(Yih[30]等人,2011年;Chen[6]和Salman,2011年),但据我们所知,在这种情况下,普遍性的联系在很大程度上还未被探索。

3.曼哈顿LSTM模型

拟议的曼哈顿LSTM(MaLSTM)模型如图1所示。有两个网络LSTMa和LSTMb,每个网络处理给定对中的一个句子,但是我们只关注具有绑定权重的连体体系结构,使LSTMa=LSTMb即可。尽管如此,该模型的通用联合版本对于具有如信息检索等不对称域的应用程序可能更有用(其中搜索查询在形式上不同于存储的文档)。

图1 曼哈顿LSTM模型图

我们的模型使用LSTM读取表示每个输

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237545],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。