调查长短期记忆网络联合提取意见实体和关系外文翻译资料

 2022-04-17 10:04

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


调查长短期记忆网络联合提取意见实体和关系

Arzoo Katiyar和Claire Cardie

康乃尔大学计算机科学系

Ithaca, NY, 14853, USA

arzoo, cardie@cs.cornell.edu

摘要

我们调查了深度双向LSTM用于联合提取意见实体以及将它们连接起来的IS-FROM和ISABOUT关系 - 这是第一次使用深度学习方法的尝试。也许令人惊讶的是,我们发现标准的LSTM与意见实体提取的最先进的CRF ILP联合推断方法(YangandCardie,2013)相比不具竞争力,后者甚至能在独立序列标签CRF下执行。然而,将句子级别和新颖的关系级别优化结合起来,这使LSTM能够识别意见关系,并在针对意见实体和IS-FROM关系的现有技术联合模型的1-3%内执行; 并且也能执行IS-ABOUT关系的最新技术 - 所有这些都没有用到功能丰富的CRF ILP方法所需的意见词典,解析器和其他预处理组件。

介绍

近年来,在细分意见分析领域进行了大量研究,其目标是确定文本中的主观表达以及相关的来源和目标。 更具体地说,细分意见分析旨在确定三种意见实体:

意见表达,O,是直接的主观表达(即,私人状态的明确表述或表达私人状态的言语事件(Wiebe and Cardie,2005));

意见目标,T,这是意见的实体或主题;

意见持有者,H,这是表达意见的实体。

此外,该任务还包括分别识别意见表达与其持有者和目标之间的ISFROM和IS-ABOUT关系。 在例句中,数字下标表示IS-FROM或IS-ABOUT关系。

例句1: [The sale]T1 [infuriated]O1 [Beijing]H1,2 which [regards]O2 [Taiwan]T2 an integral part of its territory awaiting reunification, by force if necessary.

例句2:“[Our agency]T1,H2 [seriously needs]O2 [equipment for detecting drugs]T2,” [he]H1 [said]O1.

例如,在例句1中,“愤怒”这个词表明有来自“北京”的关于“销售”的(负面)意见。(本文不试图确定意见的情绪,即正面或负面的极性。)

传统上,提取意见实体和意见关系的任务是以流水线方式处理的,即先提取意见表达,然后根据意见表达的句法和语义关联来提取意见目标和意见持有者(Kim和Hovy,2006年 ; Kobayashi等,2007)。 最近,已经引入了共同推断意见实体和关系提取任务(例如,使用整数线性规划(ILP))的方法(Choi等,2006; Yang和Cardie,2013),并且显示存在的关系提供了关于如何识别 意见实体,反之亦然,从而导致比流水线方法更好的性能。 然而,这些方法的成功主要取决于意见词典,依赖解析器,命名实体标记器等的可用性。

或者,已经采用了基于神经网络的方法。 在这些方法中,所需的潜在特征自动学习为隐藏层的密集向量。 刘等人。 (2015),例如,比较几种经常性神经网络方法的变化,发现长期短期记忆网络(LSTMs)在产品/服务评论的特定情况下,能够最好地识别意见表达和意见目标。

受到最近LSTM在NLP中这个问题和其他问题上的成功的启发,我们在这里研究了用于联合提取意见表达,持有者,目标以及它们之间关系的深层方向LSTMs。 这是使用深度学习方法处理完整意见实体和关系提取任务的第一次尝试。

在针对意见实体的MPQA数据集的实验中(Wiebe和Cardie,2005; Wilson,2008),我们发现标准LSTMs与Yang和Cardie(2013年的最先进的CRF ILP联合推断方法 ),甚至在独立的序列标签CRF下执行。 启发黄等人。 (2015年),我们表明,纳入句级和我们新提出的关系级优化,允许LSTM在所有三种意见实体类型的1-3%的ILP联合模型中执行,并且在没有意见的情况下执行 词典,解析器或其他预处理组件。

对于识别意见实体以及它们的IS-FROM和IS-ABOUT关系的主要任务,我们表明,具有句子和关系级优化的LSTM优于不使用联合推理的LSTM基线。 与基于CRF ILP的联合推断方法相比,优化后的LSTM在IS-ABOUT(目标和IS-ABOUT关系识别是意见分析的一个重要方面,在以前的工作中没有得到很好的解决,并且已被证明对现有方法很困难。)关系中表现稍好,在IS-FROM关系中表现略好于3%。

在接下来的部分中,我们描述:相关工作(第2节)和多层双向LSTM(第3节); LSTM扩展(第4节); 关于MPQA语料库的实验(第5节和第6节)和错误分析(第7节)。

相关工作

LSTM-RNNs(Hochreiter and Schmidhuber,1997)最近已被应用于许多顺序建模和预测任务,如机器翻译(Bahdanau等,2014; Sutskever等,2014),语音识别(Graves等, 2013年),NER(Hammerton,2003年)。 RNN的双向变体已被发现性能更好,因为它包含了未来信息(Schuster和Paliwal,1997; Graves等,2013)。深层RNNs(堆叠RNNs)(Schmidhuber,1992; Hihi和Bengio,1996)在不同层次和优势序列建模任务中捕获更抽象和更高层次的表示(˙Irsoy和Cardie,2014)。 Collobert等人(2011)发现,在输出层中的标签之间添加依赖关系可以提高语义角色标签任务的性能。后来,黄等人。 (2015)还发现,在双向LSTM之上添加CRF层来捕获这些依赖关系可以在词性(POS),分块和NER方面产生最先进的性能。

对于细粒度的意见提取,早期的工作(Wilsonetal。,2005; Brecketal。,2007; Yang and Cardie,2012)使用基于CRF的方法从opendomain文本(如新闻文章)集中提取主观短语。 Choi等人 (2005)扩大了共同提取意见持有者和主观表达的任务。 Yang和Cardie(2013)提出了一种基于ILP的联合推理模型来共同提取意见实体和意见关系,这比管道化方法表现得更好(Kim和Hovy,2006)。

在神经网络领域,Irsoy和Cardie(2014)提出了一个深度双向递归神经网络来识别主观表达,优于先前的基于CRF的模型。 Irsoy和Cardie(2013)另外提出了一个二元分析树上的双向递归神经网络来共同识别观点实体,但是执行情况明显比Yang和Cardie(2013)的特征丰富的CRF ILP方法差。 刘等人。 (2015)使用了多种回归神经网络变体,用于联合意见表达和面向饭店和笔记本电脑的客户评论的方面/目标识别,性能优于基于特征的CRF基线。 然而,在产品综述的视域中,持有者通常是评论者,而且任务不涉及确定意见实体之间的关系。 因此,标准LSTMs适用于该领域。 上述神经网络模型都不能共同为意见实体和意见关系建模。

在关系提取领域,已经提出了几种神经网络用于关系分类,如基于RNN的模型(Socher et al。,2012)和基于LSTM的模型(Xu et al。,2015)。 这些模型依赖于成分或依赖树结构进行关系分类,也没有共同建模实体。 最近,MiwaandBansal(2016)提出的模型共同表示具有共同参数的关系和关系,但它不是一个联合推理框架。

研究方法

对于我们的任务,我们提出使用多层双向LSTMs,这是一种递归神经网络。 递归神经网络最近被用于建模顺序任务。 它们能够通过沿序列中的标记重复使用循环单元来建模任意长度的序列。 然而,已知递归神经网络具有几个缺点,例如消失和爆炸梯度的问题。 由于这些问题,已经发现递归神经网络具有足够的建模长期依赖性。 Hochreiter和Schmidhuber(1997)提出了长期短期记忆(LSTMs),这是一种循环神经网络的变体。

3.1、长短期记忆网络(LSTM)

长期的短期记忆网络能够学习长期的依赖关系。 经常性的单位被内存块取代。 内存块包含两个单元状态 - 内存单元Ct和隐藏状态Ht; 和三个乘法门 - 输入门it,忘记门ft和输出门ot。 这些门控制信息的去除或去除,从而克服消失和爆炸的梯度。

上面的忘记门ft和输入门决定了我们将要从单元状态中抛弃哪些部分信息以及我们将要在单元状态中存储哪些新信息。 sigmoid输出0到1之间的数字,其中0表示信息完全丢失,1表示信息完全保留。

因此,使用中间单元状态e Ct和先前单元状态Ct-1来更新新单元状态Ct。

接下来,我们基于输出门ot和单元状态Ct更新隐藏状态ht。 我们将细胞状态Ct和隐藏状态ht传递给下一个时间步。

3.2、多层双向LSTM

在顺序标记问题中,已经发现只使用过去的信息来计算隐藏状态ht可能并不足够。 因此,以前的作品(Gravesetal。,2013;˙IoyoyandCardie,2014)分别提出了使用双向递归神经网络进行语音和NLP任务。 这个想法也是在向后处理序列。 因此,我们可以计算每个标记的隐藏状态ht正向和ht向后。

此外,在更传统的前馈网络中,深层网络被发现可以学习不同层次输入的抽象层次表示(Bengio,2009)。 已经提出了多层LSTM(Hermans和Schrauwen,2013)以捕获输入序列在不同层中的长期依赖性。

对于第一个隐藏层,计算过程与第3.1节中描述的相似。 然而,对于更高的隐藏层i,存储器块的输入是来自前一层i-1的隐藏状态和存储器单元,而不是输入矢量表示。

最后,我们从最后一层L处隐藏状态来计算输出状态yt。

网络训练

对于我们的问题,我们希望从句子中的每个单词的离散集合Y中预测标签y。 按照常规,我们通过最大化对数似然来训练网络

在训练数据T上,关于参数theta;,其中x是输入句子,y是相应的标签序列。 我们为对数似然计算提出了三种备选方案。

4.1、字级对数似然(WLL)

我们首先制定一个词级对数似然(WLL)(改编自Collobert et al。(2011)),它独立地考虑句子中的所有单词。 我们通过应用softmax操作将与第i个标签[zt] i对应的分数zt解释为条件标签概率logp(i | x,theta;)。

对于给定输入句子x的标签序列y,对数似然为:

4.2、句级对数似然(SLL)

在上面的单词级方法中,我们放弃了标签序列中标签之间的依赖关系。 在我们的句子级对数似然(SLL)公式(也改编自Collobert et al。(2011))中,我们引入了这些相关性:我们引入一个转换分数[A] i,j用于从标签i跳转到相邻标签j 将标签序列中的词语与参数集合theta;进行比较。 这些转换分数将被训练。

我们使用转换分数[A]和输出分数z来计算句子分数

我们将标记序列y的所有可能路径上的句子分数标准化以获得对数条件概率,如下所示:

尽管标签序列的数量随句子的长度呈指数增长,但我们可以在线性时间内计算标准化因子(Collobert et al。,2011)。

在推论的时候,我们找到了最好的标签序列

对于使用维特比解码的输入句子x。 在这种情况下,除了CRF是线性模型之外,我们基本上最大化与CRF中相同的可能性。

上述句子级别的对数似然性对于顺序标记是有用的,但它不能直接用于建模句子中不相邻单词之间的关系。 在下一小节中,我们将上述思想扩展到对非相邻单词之间的关系进行建模。

4.3、关系级对数似然(RLL)

对于句子x中的每个单词xt,我们输出标签yt和距离dt。 如果位置t处的单词与位置k处的单词相关并且k lt;t,则dt =(t-k)。 如果单词t与其左侧的任何其他单词不相关,则dt = 0。假设DLeft是我们为这种左关系(在本节的后面,我们还将为正确关系的目标函数增加类似的可能性,即相关词语在其正确的上下文中。)建模的最大距离。

我们让(其中dh是隐式单位的维数)使得输出状态与ztisin;R(1) times;Y在句子级对数似然的情况下。

为了增加标签和关系之间的依赖关系,我们引入了标签序列中从标签i和关联距离d0跳转到标签j和关联距离d“的转换得分[A] i,j,d0,d” ,到参数集theta;0。 这些转换分数也将接受类似于句子级对数似然中的转换分数的训练。

句子分数是:

我们将标记y和关系序列d的所有可能路径上的句子分数标准化以获得对数条件概率,如下所示:

我们仍然可以在类似于句子级对数似然的线性时间内计算归一化因子。

在推理时,我们使用维特比解码为输入句子x联合找到最佳标签和关系序列。

对于我们联合提取意见实体和关系的任务,我们通过使用Adadelta(Zeiler,2012)最大化对数似然(SLL RLL)来训练我们的模型以预测句子中每个词的标签y和关系距离d。

实验

5.1、数据

我们使用MPQA 2.0语料库(Wiebe and Cardie,2005; Wilson,2008)。 它包含新闻文章和新闻来源的广泛多样性。 我们

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[466757],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。