英语原文共 11 页，剩余内容已隐藏，支付完成后下载完整资料

调查长短期记忆网络联合提取意见实体和关系

Arzoo Katiyar和Claire Cardie

康乃尔大学计算机科学系

Ithaca, NY, 14853, USA

摘要

我们调查了深度双向LSTM用于联合提取意见实体以及将它们连接起来的IS-FROM和ISABOUT关系 - 这是第一次使用深度学习方法的尝试。也许令人惊讶的是，我们发现标准的LSTM与意见实体提取的最先进的CRF ILP联合推断方法（YangandCardie，2013）相比不具竞争力，后者甚至能在独立序列标签CRF下执行。然而，将句子级别和新颖的关系级别优化结合起来，这使LSTM能够识别意见关系，并在针对意见实体和IS-FROM关系的现有技术联合模型的1-3％内执行; 并且也能执行IS-ABOUT关系的最新技术 - 所有这些都没有用到功能丰富的CRF ILP方法所需的意见词典，解析器和其他预处理组件。

介绍

近年来，在细分意见分析领域进行了大量研究，其目标是确定文本中的主观表达以及相关的来源和目标。更具体地说，细分意见分析旨在确定三种意见实体：

意见表达，O，是直接的主观表达（即，私人状态的明确表述或表达私人状态的言语事件（Wiebe and Cardie，2005））;

意见目标，T，这是意见的实体或主题;

意见持有者，H，这是表达意见的实体。

此外，该任务还包括分别识别意见表达与其持有者和目标之间的ISFROM和IS-ABOUT关系。在例句中，数字下标表示IS-FROM或IS-ABOUT关系。

例句1： [The sale]T1 [infuriated]O1 [Beijing]H1,2 which [regards]O2 [Taiwan]T2 an integral part of its territory awaiting reuniﬁcation, by force if necessary.

例句2：“[Our agency]T1,H2 [seriously needs]O2 [equipment for detecting drugs]T2,” [he]H1 [said]O1.

例如，在例句1中，“愤怒”这个词表明有来自“北京”的关于“销售”的（负面）意见。（本文不试图确定意见的情绪，即正面或负面的极性。）

传统上，提取意见实体和意见关系的任务是以流水线方式处理的，即先提取意见表达，然后根据意见表达的句法和语义关联来提取意见目标和意见持有者（Kim和Hovy，2006年 ; Kobayashi等，2007）。最近，已经引入了共同推断意见实体和关系提取任务（例如，使用整数线性规划（ILP））的方法（Choi等，2006; Yang和Cardie，2013），并且显示存在的关系提供了关于如何识别意见实体，反之亦然，从而导致比流水线方法更好的性能。然而，这些方法的成功主要取决于意见词典，依赖解析器，命名实体标记器等的可用性。

或者，已经采用了基于神经网络的方法。在这些方法中，所需的潜在特征自动学习为隐藏层的密集向量。刘等人。（2015），例如，比较几种经常性神经网络方法的变化，发现长期短期记忆网络（LSTMs）在产品/服务评论的特定情况下，能够最好地识别意见表达和意见目标。

受到最近LSTM在NLP中这个问题和其他问题上的成功的启发，我们在这里研究了用于联合提取意见表达，持有者，目标以及它们之间关系的深层方向LSTMs。这是使用深度学习方法处理完整意见实体和关系提取任务的第一次尝试。

在针对意见实体的MPQA数据集的实验中（Wiebe和Cardie，2005; Wilson，2008），我们发现标准LSTMs与Yang和Cardie（2013年的最先进的CRF ILP联合推断方法），甚至在独立的序列标签CRF下执行。启发黄等人。（2015年），我们表明，纳入句级和我们新提出的关系级优化，允许LSTM在所有三种意见实体类型的1-3％的ILP联合模型中执行，并且在没有意见的情况下执行词典，解析器或其他预处理组件。

对于识别意见实体以及它们的IS-FROM和IS-ABOUT关系的主要任务，我们表明，具有句子和关系级优化的LSTM优于不使用联合推理的LSTM基线。与基于CRF ILP的联合推断方法相比，优化后的LSTM在IS-ABOUT（目标和IS-ABOUT关系识别是意见分析的一个重要方面，在以前的工作中没有得到很好的解决，并且已被证明对现有方法很困难。）关系中表现稍好，在IS-FROM关系中表现略好于3％。

在接下来的部分中，我们描述：相关工作（第2节）和多层双向LSTM（第3节）; LSTM扩展（第4节）; 关于MPQA语料库的实验（第5节和第6节）和错误分析（第7节）。

研究方法

对于我们的任务，我们提出使用多层双向LSTMs，这是一种递归神经网络。递归神经网络最近被用于建模顺序任务。它们能够通过沿序列中的标记重复使用循环单元来建模任意长度的序列。然而，已知递归神经网络具有几个缺点，例如消失和爆炸梯度的问题。由于这些问题，已经发现递归神经网络具有足够的建模长期依赖性。 Hochreiter和Schmidhuber（1997）提出了长期短期记忆（LSTMs），这是一种循环神经网络的变体。

3.1、长短期记忆网络（LSTM）

长期的短期记忆网络能够学习长期的依赖关系。经常性的单位被内存块取代。内存块包含两个单元状态 - 内存单元Ct和隐藏状态Ht; 和三个乘法门 - 输入门it，忘记门ft和输出门ot。这些门控制信息的去除或去除，从而克服消失和爆炸的梯度。

上面的忘记门ft和输入门决定了我们将要从单元状态中抛弃哪些部分信息以及我们将要在单元状态中存储哪些新信息。 sigmoid输出0到1之间的数字，其中0表示信息完全丢失，1表示信息完全保留。

因此，使用中间单元状态e Ct和先前单元状态Ct-1来更新新单元状态Ct。

接下来，我们基于输出门ot和单元状态Ct更新隐藏状态ht。我们将细胞状态Ct和隐藏状态ht传递给下一个时间步。

3.2、多层双向LSTM

在顺序标记问题中，已经发现只使用过去的信息来计算隐藏状态ht可能并不足够。因此，以前的作品（Gravesetal。，2013;˙IoyoyandCardie，2014）分别提出了使用双向递归神经网络进行语音和NLP任务。这个想法也是在向后处理序列。因此，我们可以计算每个标记的隐藏状态ht正向和ht向后。

此外，在更传统的前馈网络中，深层网络被发现可以学习不同层次输入的抽象层次表示（Bengio，2009）。已经提出了多层LSTM（Hermans和Schrauwen，2013）以捕获输入序列在不同层中的长期依赖性。

对于第一个隐藏层，计算过程与第3.1节中描述的相似。然而，对于更高的隐藏层i，存储器块的输入是来自前一层i-1的隐藏状态和存储器单元，而不是输入矢量表示。

最后，我们从最后一层L处隐藏状态来计算输出状态yt。

网络训练

对于我们的问题，我们希望从句子中的每个单词的离散集合Y中预测标签y。按照常规，我们通过最大化对数似然来训练网络

在训练数据T上，关于参数theta;，其中x是输入句子，y是相应的标签序列。我们为对数似然计算提出了三种备选方案。

4.1、字级对数似然（WLL）

我们首先制定一个词级对数似然（WLL）（改编自Collobert et al。（2011）），它独立地考虑句子中的所有单词。我们通过应用softmax操作将与第i个标签[zt] i对应的分数zt解释为条件标签概率logp（i | x，theta;）。

对于给定输入句子x的标签序列y，对数似然为：

4.2、句级对数似然（SLL）

在上面的单词级方法中，我们放弃了标签序列中标签之间的依赖关系。在我们的句子级对数似然（SLL）公式（也改编自Collobert et al。（2011））中，我们引入了这些相关性：我们引入一个转换分数[A] i，j用于从标签i跳转到相邻标签j 将标签序列中的词语与参数集合theta;进行比较。这些转换分数将被训练。

我们使用转换分数[A]和输出分数z来计算句子分数

我们将标记序列y的所有可能路径上的句子分数标准化以获得对数条件概率，如下所示：

尽管标签序列的数量随句子的长度呈指数增长，但我们可以在线性时间内计算标准化因子（Collobert et al。，2011）。

在推论的时候，我们找到了最好的标签序列

对于使用维特比解码的输入句子x。在这种情况下，除了CRF是线性模型之外，我们基本上最大化与CRF中相同的可能性。

上述句子级别的对数似然性对于顺序标记是有用的，但它不能直接用于建模句子中不相邻单词之间的关系。在下一小节中，我们将上述思想扩展到对非相邻单词之间的关系进行建模。

4.3、关系级对数似然（RLL）

对于句子x中的每个单词xt，我们输出标签yt和距离dt。如果位置t处的单词与位置k处的单词相关并且k lt;t，则dt =（t-k）。如果单词t与其左侧的任何其他单词不相关，则dt = 0。假设DLeft是我们为这种左关系(在本节的后面，我们还将为正确关系的目标函数增加类似的可能性，即相关词语在其正确的上下文中。)建模的最大距离。

我们让（其中dh是隐式单位的维数）使得输出状态与ztisin;R（1） times;Y在句子级对数似然的情况下。

为了增加标签和关系之间的依赖关系，我们引入了标签序列中从标签i和关联距离d0跳转到标签j和关联距离d“的转换得分[A] i，j，d0，d” ，到参数集theta;0。这些转换分数也将接受类似于句子级对数似然中的转换分数的训练。

句子分数是：

我们将标记y和关系序列d的所有可能路径上的句子分数标准化以获得对数条件概率，如下所示：

我们仍然可以在类似于句子级对数似然的线性时间内计算归一化因子。

在推理时，我们使用维特比解码为输入句子x联合找到最佳标签和关系序列。

对于我们联合提取意见实体和关系的任务，我们通过使用Adadelta（Zeiler，2012）最大化对数似然（SLL RLL）来训练我们的模型以预测句子中每个词的标签y和关系距离d。

实验

5.1、数据

我们使用MPQA 2.0语料库（Wiebe and Cardie，2005; Wilson，2008）。它包含新闻文章和新闻来源的广泛多样性。我们

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[466757]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

调查长短期记忆网络联合提取意见实体和关系外文翻译资料

调查长短期记忆网络联合提取意见实体和关系

介绍

相关工作

研究方法

3.1、长短期记忆网络（LSTM）

3.2、多层双向LSTM

网络训练

4.1、字级对数似然（WLL）

4.2、句级对数似然（SLL）

4.3、关系级对数似然（RLL）

实验

5.1、数据

您可能感兴趣的文章

登录

注册

找回密码

调查长短期记忆网络联合提取意见实体和关系

介绍

相关工作

研究方法

3.1、长短期记忆网络（LSTM）

3.2、多层双向LSTM

网络训练

4.1、字级对数似然（WLL）

4.2、句级对数似然（SLL）

4.3、关系级对数似然（RLL）

实验

5.1、数据

您可能感兴趣的文章