用于中文分词的长短期记忆神经网络外文翻译资料

 2022-04-17 10:04

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


用于中文分词的长短期记忆神经网络

新池,邱希鹏lowast;,朱晨锡,刘鹏飞,黄宣景

复旦大学计算机学院

智能信息处理上海市重点实验室

上海市张衡路825号

{xinchichen13,xpqi,czhu13pfliu14xjhuang}@fudan.edu.cn

摘要

目前,大多数最先进的中文分词方法都是基于监督式学习,其特征主要是从本地语境中提取的。 这些方法不能利用对于分词至关重要的长距离信息。 在本文中,我们提出了一种新的中文分词神经网络模型,采用长短期记忆神经网络(LSTM)将先前的重要信息保存在内存单元中,避免了局部上下文窗口大小的限制。 对PKU,MSRA和CTB6基准数据集的实验表明,我们的模型优于以前的神经网络模型和最先进的方法。

1 介绍

分词是中文处理的基本任务。 近年来,中文分词(CWS)发展迅速。 流行的方法是将分词任务看作序列标签问题(Xue,2003; Peng等,2004)。 序列标记的目标是为一个序列中的所有元素分配标签,这可以用监督学习算法来处理,如最大熵(ME)(Berger等,1996)和条件随机场(CRF)(Lafferty等,2001)。 然而,这些模型的能力受到特征设计的限制,并且特征的数量可能太大以至于结果模型对于实际使用来说太大并且倾向于训练语料库上的过度配合。

最近,神经网络模型越来越多地用于NLP任务,因为它们能够最大限度地减少特征工程中的工作量(Collobert等人,2011; Socher等人,2013; Turian等人,2010; Mikolov等人,2013b; Bengio等人,2003)。 Collobert等人(2011年)开发了SENNA系统,该系统在英语的各种序列标签任务中接近或超过最先进的系统。 郑等人(2013)应用了Collobert等人(2011)对中文分词和词性标注的体系结构,他还提出了一种感知器式算法来加速训练过程,其性能损失可以忽略不计。 Pei等人(2014)基于郑等人(2013年)的模型标签标签交互,标签字符交互和字符字符交互。 陈等人(2015)提出了一种门控递归神经网络(GRNN)来明确建模中文分词任务的字符组合。 GRNN中的每个神经元可以被视为输入字符的不同组合。 因此,整个GRNN有能力模拟传统方法中复杂特征的设计。

尽管他们取得了成功,但他们的局限性在于他们的性能很容易受到上下文窗口大小的影响。 直观地说,许多单词难以根据本地信息进行分割。 例如,以下句子的分割需要长距离搭配的信息。

冬天(winter),能(can)穿(wear)多少(amount)穿(wear)多少(amount);

夏天(summer),能(can)穿(wear)多(more)少(little)穿(wear)多(more)少(little)。

没有“夏天(summer)”或“冬天(winter)”,很难区分“能穿多少穿多少”。 因此,我们通常需要利用非本地信息进行更准确的分词。 但是,它不能通过简单地增加上下文窗口大小来工作。 如(郑等人,2013)所报道的,当窗口大小大于3时,性能平稳地下降。原因是其参数的数量太大以至于训练的网络具有过度训练数据。 因此,有必要在不增加上下文窗口大小的情况下捕获潜在的长距离依赖关系。

为了解决这个问题,我们提出了一个基于长期短期记忆神经网络(LSTM)的神经模型(Hochreiter and Schmidhuber,1997),该模型通过利用输入,输出和忘记门来决定如何利用并更新前面信息的内存。 直观地说,如果LSTM单元在早期阶段从输入序列中检测到一个重要特征,它可以很容易地将这些信息(特征的存在)在远距离上携带,从而捕获潜在的有用的长距离信息。 我们在三个流行的基准数据集(PKU,MSRA和CTB6)上评估我们的模型,实验结果表明我们的模型通过较小的上下文窗口大小(0,2)实现了最先进的性能。

本文的贡献可以总结如下。

我们首先介绍用于中文分词的LSTM神经网络。LSTM可以捕获潜在的长距离依赖关系,并将先前有用的信息保存在内存中,避免了上下文窗口大小的限制。

尽管在LSTM中应用丢弃方法的研究相对较少,但我们研究了几种丢失策略和发现退出也是有效的避免过度配合LSTM。

尽管中文分词是一个特殊情况,我们的模型可以很容易地推广并应用于其他序列标签任务。

2 中文分词的神经模型

中文分词通常被认为是基于字符的序列标签。 每个字符被标记为{B,M,E,S}中的一个以指示分割。{B,M,E}分别表示多字符分割的Begin,Middle,End,S表示单字符分割。

神经模型通常具有三个特殊层:(1)字符嵌入层;(2)一系列经典的神经网络层和(3)标签推理层。 图1显示了一个例子。

最常见的标记方法基于本地窗口。 窗口方法假定字符的标签在很大程度上取决于其相邻字符。 给定输入句子c(1:n),大小为k的窗口从字符c(1)滑动到c(n),其中n是句子的长度。 如图1所示,对于每个字符c(t)(1le;tle;n),在窗口大小k是5的情况下输入文本字符(c(tminus;2),c(tminus;1),c(t),c(t 1),c(t 2))到查找表层。超过句子边界的字符被映射到两个特殊符号之一,即“开始”和“结束”符号。 然后将由查找表层提取的字符嵌入连接成单个向量x(t)isin;RH1,其中H1= k╳d是层1的大小。然后将x(t)馈送到下一层它执行线性变换,之后是元素级激活函数g,如函数sigma;(x)=(1 eminus;xminus;1和双曲正切函数。

le; le;

其中。

H2是指示层2中隐藏单元的数量的超参数。给定一组大小的标签,除了不遵循非线性函数之外,执行类似的线性变换:

其中W2isin; R| T |times;H2, b2isin; R| T |. y(t)isin; R| T | 是每个可能标记的得分向量。在中文分词中,最流行的标签集合是如上所述的{B,M,E,S}。

为了对标签依赖性建模,引入了转换分数Aij来测量从标签iisin;T跳转到标签jisin;T的概率(Collobert等人,2011)。 虽然这种模型适用于中文分词和其他序列标记任务,但它只是利用有限长度窗口的上下文信息。一些有用的长途信息被忽略。

3 中文分词的长短期记忆网络

在本节中,我们介绍用于中文分词的LSTM神经网络。

图1:用于中文分词的神经模型的一般体系结构。

3.1 字符嵌入

使用神经网络处理符号数据的第一步是将它们表示为分布式向量,也称为嵌入(Bengio等人,2003; Collobert and Weston,2008)。

形式上,在中文分词任务中,我们有一个大小为C的字符字典|C|。 除非另有说明,否则将从训练集中提取字符字典,并将未知字符映射到其他地方未使用的特殊符号。 每个字符cisin;C被表示为实值向量(字符嵌入)visin;Rd,其中d是向量空间的维数。 然后是字符嵌入堆叠成嵌入矩阵Misin;Rdtimes;| C |。对于一个字符cisin;C,查找表检索相应的字符嵌入vcisin;Rd。并且查找表层可以被看作是简单的投影层,其中通过根据其索引的表查找操作来实现用于每个上下文字符的字符嵌入。

3.2 LSTM

长期短期记忆神经网络(LSTM)(Hochreiter and Schmidhuber,1997)是递归神经网络(RNN)的延伸。

RNN具有经常性隐藏状态,其每次输出都取决于前一次的输出。更正式地,给出一个序列,RNN更新它的经常隐藏状态h(t),

h(t)= g(Uh(tminus;1) Wx(t) b), (3)

其中g是如上所述的非线性函数。

尽管RNN在诸如语音识别(Vinallys等人,2012),语言模拟(Mikolov等人,2010)和文本生成(Sutskever等人,2011)等许多任务中被证明是成功的,但它可能很难训练他们学习长期的动力,可能部分归因于消失和爆炸的梯度问题(Hochreiter和Schmidhuber,1997)。

LSTM提供了一个解决方案,通过整合内存单元,使网络能够学习何时忘记先前的信息,以及何时更新存储器单元给出新信息。 因此,将LSTM神经网络应用于分词任务是一种自然的选择,因为LSTM神经网络可以从具有长距离时间依赖性(存储器)的数据中学习,因为输入与其相应输出之间存在相当大的时间延迟。此外,LSTM已成功应用于许多NLP任务,如文本分类(Liu等人,2015)和机器翻译(Sutskever等人,2014)。

LSTM模型的核心是一个存储器单元,它在每一步骤都对内存进行编码,直到这一步已经观察到什么输入(见图2)。单元的行为由三个“门”控制,即输入门i,忘记门f和输出门o。门上的操作被定义为元素方式的乘法,因此门可以缩放如果门是非零矢量的输入值或如果门是零矢量则省略输入。输出门的输出将作为前一个隐藏状态反馈到下一个时间步t 1,并在当前时间步t输入神经网络的上层。门的定义,单元更新和输出如下:

图2:LSTM存储单元。

存储器单元包含由三个门控制的单元c。绿色链接在时间t-1显示信号,而黑色链接显示当前信号。虚线表示从头到尾的权重矩阵是对角线。此外,实心指针意味着连接上有权重矩阵,空心指针表示没有。当前的输出信号h(t)将通过三个门反馈到下一个时间t 1,并且也是神经网络较高层的输入。

其中sigma;和phi;分别是逻辑斯谛函数和双曲正切函数;i(t),f(t),o(t)和c(t)分别是时间步t处的输入门,忘记门,输出门和存储单元激活矢量,它们全部具有与隐藏载体h(t)isin;RH2; 具有不同下标的参数矩阵Ws都是正方形的矩阵;⊙表示向量的元素方向乘积。请注意,Wic,WFC和WOC是对角矩阵。

isin;

3.3 用于中文分词的LSTM体系结构

为了充分利用LSTM,我们提出了四种不同的神经网络结构来通过记忆单元选择有效特征。 图3说明了我们提出的架构。

LSTM-1 LSTM-1只是取代了式(1)中隐藏的神经元。(1)与LSTM单元(见图3a)。

LSTM单元的输入来自一个上下文字符窗口。对于每个字符,c(t),(1le;tle;n),LSTM单元x的输入,

从字符嵌入连接起来c(T-K1):( T K2),其中k1和k2代表num-分别来自左侧和右侧上下文的字符串。线性变换后,LSTM单元的输出用于最终推理函数(式(11))。

LSTM-2 LSTM-2可以通过将多个LSTM隐藏层堆叠在一起形成,一层的输出序列形成下一层的输入序列(参见图3b)。这里我们使用两个LSTM层。具体而言,上部LSTM层的输入在不进行任何转换的情况下从下部LSTM层取得h(t)。第一层的输入与LSTM-1相同,第二层的输出与LSTM-1的操作相同。

LSTM-3 LSTM-3是LSTM-1的扩展,它采用LSTM层的本地环境作为最后一层的输入(见图3c)。对于每个时间步t,我们连接一个双赢的输出,将LSTM层转变成矢量hcirc;(t),

其中m1和m2表示当前时间步长之前和之后的时间滞后长度。最后,hcirc;(t)为用于线性变换后的最终推理函数(式(11))。

LSTM-4 LSTM-4(见图3d)是LSTM-2和LSTM-3的混合体,由两个LSTM层组成。 较低的LSTM层的输出序列形成较高的LSTM层的输入序列。 最后一层采用上层LSTM层的本地上下文作为输入。

3.4 句子层面的推论

为了对标签依赖性进行建模,先前的神经网络模型(Collobert等人,2011; Zheng等人,2013; Pei等人,2014)引入了用于测量从标签iisin;T跳跃的概率的转换分数Aij标记jisin;T。 对于具有标签序列y(1:n)的输入句子c(1:n),则通过标签转换分数和网络标签分数之和

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[466751],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。