用卷积神经网络进行事件检测和领域适应外文翻译资料

 2022-01-26 10:01


Event Detection and Domain Adaptation with Convolutional Neural Networks

Abstract

We study the event detection problem using convolutional neural networks (CNNs) that overcome the two fundamental limitations of the traditional feature-based approaches to this task: complicated feature engineering for rich feature sets and error propagation from the preceding stages which generate these features. The experimental results show that the CNNs outperform the best reported feature-based systems in the general setting as well as the domain adaptation setting without resorting to extensive external resources.

1 Introduction

We address the problem of event detection (ED): identifying instances of specified types of events in text. Associated with each event mention is a phrase, the event trigger (most often a single verb or nominalization), which evokes that event. Our task, more precisely stated, involves identifying event triggers and classifying them into specific types. For instance, according to the ACE 2005 annotation guideline1, in the sentence “A police officer was killed in New Jersey today”, an event detection system should be able to recognize the word “killed” as a trigger for the event “Die”. This task is quite challenging, as the same event might appear in the form of various trigger expressions and an expression might represent different events in different contexts. ED is a crucial component in the overall task of event extraction, which also involves event argument discovery. Recent systems for event extraction have employed either a pipeline architecture with separate classifiers for trigger and argument labeling (Ji and Grishman, 2008; Gupta and Ji, 2009; Patwardhan and Rilof, 2009; Liao and Grishman, 2011; McClosky et al., 2011; Huang and Riloff, 2012; Li et al., 2013a) or a joint inference architecture that performs the two subtasks at the same time to benefit from their inter-dependencies (Riedel and McCallum, 2011a; Riedel and McCallum, 2011b; Li et al., 2013b; Venugopal et al., 2014). Both approaches have coped with the ED task by elaborately hand-designing a large set of features (feature engineering) and utilizing the existing super- vised natural language processing (NLP) toolkits and resources (i.e. name tagger, parsers, gazetteers etc.) to extract these features to be fed into statistical classifiers. Although this approach has achieved the top performance (Hong et al., 2011; Li et al., 2013b), it suffers from at least two issues:

(i) The choice of features is a manual process and requires linguistic intuition as well as domain expertise, implying additional studies for new application domains and limiting the capacity to quickly adapt to these new domains.

(ii) The supervised NLP toolkits and resources for feature extraction might involve errors (either due to the imperfect nature or the performance loss of the toolkits on new domains (Blitzer et al., 2006; Daumacute;e III, 2007; McClosky et al., 2010)), probably propagated to the final event detector.

This paper presents a convolutional neural network (LeCun et al., 1988; Kalchbrenner et al., 2014) for the ED task that automatically learns features from sentences, and minimizes the dependence on supervised toolkits and resources for features, thus alleviating the error propagation and improving the performance for this task. Due to the emerging interest of the NLP community in deep learning recently, CNNs have been studied extensively and applied effectively in various tasks: semantic parsing (Yih et al., 2014), search query retrieval (Shen et al., 2014), semantic matching (Hu et al., 2014), sentence modeling and classification (Kalchbrenner et al., 2014; Kim, 2014), name tagging and semantic role labeling (Collobert et al., 2011), relation classification and extraction (Zeng et al., 2014; Nguyen and Grishman, 2015). However, to the best of our knowledge, this is the first work on event detection via CNNs so far. First, we evaluate CNNs for ED in the general setting and show that CNNs, though not requiring complicated feature engineering, can still out- perform the state-of-the-art feature-based methods extensively relying on the other supervised modules and manual resources for features. Second, we investigate CNNs in a domain adaptation (DA) setting for ED. We demonstrate that CNNs significantly outperform the traditional feature- based methods with respect to generalization performance across domains due to: (i) their capacity to mitigate the error propagation from the pre- processing modules for features, and (ii) the use of word embeddings to induce a more general representation for trigger candidates. We believe that this is also the first research on domain adaptation using CNNs.

2 Model

We formalize the event detection problem as a multi-class classification problem. Given a sentence, for every token in that sentence, we want to predict if the current token is an event trigger: i.e., does it express some event in the pre-defined event set or not (Li et al., 2013b). The current token along with its context in the sentence constitute an event trigger candidate or an example in multi- class classification terms. In order to prepare for the CNNs, we limit the context to a fixed window size by trimming longer sentences and padding shorter sentences with a special token when necessary. Let 2w 1 be the fixed window size, and x = [xminus;w, xminus;w 1, . . ., x

全文共19476字,剩余内容已隐藏,支付完成后下载完整资料


用卷积神经网络进行事件检测和领域适应

摘要

本文使用卷积神经网络对事件检测进行了研究,主要克服了传统基于特征方法的两个限制:构建大规模特征工程的复杂性和特征产生时的误差传播问题。从已有经验来看,不考虑大量外部资源的情况下,卷积神经网络的性能超过了当前最优的基于特征的系统,无论是在正常数据集还是在领域适应数据集上。

1 介绍

我们对事件检测这个问题作出描述:识别文本中指定事件类型的实例。每个事件提及都会和一个短语相关联,被称为事件触发词(通常是一个动词或被归一化的词),这个词引起了事件。因此更具体的说,事件检测任务包括识别识别事件触发词并将他们划分为特定的类型。例如,根据ACE2005的标注指导,对句子“A police officer was killed in New Jersey today”,一个事件检测系统应该检测出单词“killed”是事件“Die”的触发词。这个任务非常有挑战性,因为相同的事件会用不同的事件触发词来表述,同时一个事件触发词也可能表达不同的事件。事件检测是整个事件抽取任务的一个重要部分,其他部分还有事件论文识别。

目前的事件抽取系统要么应用了独立分类触发词和事件论元的流水线系统(Ji and Grishman, 2008; Gupta and Ji, 2009; Patwardhan and Rilof, 2009; Liao and Grishman, 2011; McClosky et al., 2011; Huang and Riloff, 2012; Li et al., 2013a),要么应用了联合推断框架区,同时执行两个任务的来利用它们间的联系(Riedel and Mc- Callum, 2011a; Riedel and McCallum, 2011b; Li et al., 2013b; Venugopal et al., 2014)。两个方法都使用了精心设计的特征集(特征工程),使用有监督的自然语言处理工具、资源(如词性标注器、分析器、地名词典)来提取特征并输入到静态分类器中。即使这类方法已经达到了很好的效果(Hong et al., 2011; Li et al., 2013b),它仍至少有两方面的问题:

(1)特征选择是一个手工过程并需要语言学直觉以及领域经验,这意味着要应用到新的领域需要额外的研究,限制了快速适应新领域的能力。

(2)用来提取特征的有监督NLP工具和资源可能包含错误(既因为工具本身的不完善,也因为其应用于新领域的性能损失(Blitzer et al., 2006; Daumacute;e III, 2007; McClosky et al., 2010)),这种错误可能会传导到最终的事件分类器中。

本文提出了一种针对事件检测卷积神经网络(LeCun et al., 1988; Kalchbrenner et al., 2014),其可以自动从句子中学习特征,最小化对提取特征的有监督工具和资源的依赖,因此也减少了错误传播,提升了在任务上的表现。因为在NLP领域显现出的对卷积神经网络的兴趣,卷积神经网络已经经过了广泛的研究并有效地应用到了多种类型的任务中如:语义解析(Yih et al., 2014)、搜索查询检索(Shen et al., 2014)、语义匹配(Hu et al., 2014)、句子模型及分类(Kalchbrenner et al., 2014; Kim, 2014),命名和语义角色标注(Collobert et al., 2011)、关系分类和抽取(Zeng et al., 2014; Nguyen and Grishman, 2015)。然而,根据我们知识,本文是首篇应用在事件抽取方面的工作。

首先,我们分析了卷积神经网络在普通设置下对事件抽取任务的表现,显示了尽管没用应用复杂的特征工程,卷积神经网络仍显著比当下最好的基于特征的、大量应用其他有监督模型和资源的方法表现要好。第二,我们研究了卷积神经网络在领域适应方面的设置。我们展示了卷积神经网络在泛化性方面显著比传统的基于特征的方法表现要好。原因在于:(1)卷积神经网络能够减少来自特征处理模块的误差传递;(2)词嵌入技术的应用可以为触发候选词产生更通用的表征。我们相信我们这是第一个用卷积神经网络做领域适应的工作。

2 模型

我们把事件检测任务看作一个多分类任务。给定一个句子,对于句子中的每一个分词,我们希望预测当前的分词是否是一个事件触发词,也就是说它是否能表达某个预定义集合中的事件。当前分词和它在句子中的上下文组成了事件触发词候选,也可以说是一个多分类项的实例。为了为卷积神经网络准备,我们将上下文限制到了一个固定的窗口大小,在必要时用特定的分词将长句截断或将短句补齐。假设窗口的固定大小为2w 1,触发词候选x = [xminus;w, xminus;w 1, . . . , x0, . . . , xwminus;1, xw],当前分词在窗口x的中心,也就是x0。在输入卷积神经网络之前,每个分词都会经过词嵌入表被转换成一个实值向量,以更好地捕捉分词的特点,相关词嵌入表如下:

(1)词汇嵌入表(由预训练好的词嵌入表来初始化):为了捕获分词潜在的语义和语法特征。

(2)位置嵌入表:为了嵌入分词xi相对当前分词x0的相对位置。实际上,我们随机初始化了这个表。

(3)实体类型嵌入表:如果我们还知道实体提及以及他们的实体类型,我们用实体类型嵌入表来为每个分词捕获这个信息。我们应用了BIO标记法为每个触发词候选中的分词分配实体类型。

对于每个分词xi,通过三个查询表获取的向量被连接成了一个单一的向量x去代表分词。作为结果,原始的事件触发词x被转换成了矩阵x = [xminus;w, xminus;w 1, . . . , x0, . . . , xwminus;1, xw],矩阵的大小是mt times;(2w 1),mt是连接向量的维度。

之后矩阵x被传入神经网络中,经过一个卷积层,一个最大池化层和一个在最后用来分类的softmax层,和(Kim, 2014; Kalchbrenner et al., 2014)的类似。在卷积层中,我们针对卷积操作构造了一套特征滤波器{f1, f2, . . . , fn}。每个特征滤波器和某个窗口大小对应,可以被看作大小为mt*k的权重矩阵。

我们使用反向传播来计算梯度,通过dropout来实现正则化(Kim, 2014; Hinton et al., 2012),通过带打乱mini-batch和AdaDelta更新规则的随机梯度下降来训练模型(Zeiler, 2012; Kim, 2014)。在训练过程中我们也同时优化了三个嵌入表的权重(Kim, 2014)。

3 实验

3.1数据集、超参数和资源

因为在卷积神经网络中应用多种窗口大小的好处已经在之前的句子模型相关工作中被阐明了(Kalchbrenner et al., 2014; Kim, 2014),在下面的实验中,我们使用窗口大小为{2, 3, 4, 5}来产生特征滤波器。对每个窗口大小我们使用了150个特征滤波器。对触发词的窗口大小为31,同时位置嵌入表和实体类型嵌入表的维度是50的三次方。我们其他参数的值使用的是Kim(2014),i.e中的,丢弃率为0.5,mini-batch大小为50,l2正则化的超参数为3。最后,我们使用了预训练好的300维的word2vec词向量(Mikolov et al. 2013)来初始化。

我们在ACE2005语料库上分析了提出的卷积神经网络。为了比较,我们使用了和之前研究相同的数据集:测试集为40篇无线新闻文章(672句话),开发集为30篇其他文档(836句话),训练集为剩下的529篇文档(14849句话)。ACE2005语料库有33种事件类型,此外,对于非触发词的分词,其类型为None,总共构成了34种事件类型。

为了分析位置嵌入表和实体类型嵌入表的有效性,表1报告了卷积神经网络模型在包含和不包含这些嵌入表时的在开发集上的性能。通过性能上的巨大差额,我们可以清楚地看出对于用于事件检测的卷积神经网络来说,位置嵌入表是非常重要的,实体类型嵌入表也非常有用。

关于下面的实验,我们在不包含实体类型嵌入表和包含实体类型嵌入表者两种情况下调研了卷积神经网络。我们总是使用位置嵌入表。

3.2 性能比较

当前在ACE 2005上性能最好的事件检测系统采用了基于特征的方法,并精心设计了特征集,使用了静态分类器(如最大熵分类器)或针对联合模型的结构化预测感知元(Hong et al., 2011; Li et al., 2013b)。在这一节中,我们在未知测试集上将卷积神经网络与这些性能最好的系统进行了比较。表2展示了采用黄金标准的实体提及和类型信息系统的表现。

我们可以在表中看到,针对仅仅使用句子级信息的系统,CNN1显著地比MaxEnt分类器表现好,也比在2013年提出的仅使用局部特征的联合束搜索模型表现好,并与同时使用局部特征和全局特征的联合束搜索模型表现相当。这点非常值得关注,因为CNN1并没有使用任务外部特征,对比于其他系统表现好的系统广泛地依靠了外部特征。更有趣的是,当实体类型信息被融合到CNN1中后,我们所得到的CNN2同样只需要句子级别的信息但是达到了当前任务的最好性能(与2013年提出的只依赖于句子级信息的最好系统相比提升了1.5%)。

除了CNN1,所有在表2中提到的系统都运用了来自手工标注的黄金标准的实体提及和种类,在实际中并不可行。表3在更实际的设置下比较了CNN1和其他基于特征的系统,实体提及和类型是从自动高性能命名标注器和信息抽取系统上获得的(Li et al., 2013b)。需要注意的CNN1是符合上述条件的,因为它并没有应用任务外部特征,因此避免了使用命名标注器和信息抽取系统来识别实体识别和类型。

3.3领域适应实验

在这一节中,我们希望能在事件检测的领域适应设置下更深入地比较我们提出的卷积神经网络和基于特征系统。领域适应研究的整体目标是开发出能在源领域采集数据、训练模型,并能在目标领域良好运行的技术。目标领域应该与源领域非常不同,以至于学习技术应该会有一个很大的性能损失当在源领域上训练,在目标领域上应用。为了更清楚地说明这一点,我们在这一届提出了无监督的领域适应问题,即目标领域没有训练数据(Blitzer et al., 2006; Plank and Moschitti, 2013)。造成基于特征的方法应用到目标领域会有性能损失的基本原因有一下两个方面:

(1)特征跨领域所造成的表现差异:因为领域的不同,一些在源领域包含丰富信息的特征在目标领域可能会变得不太相关,反之亦然。

(2)预训练工具对低层次任务提取特征的误差传播(如词性标注,命名标注,词法分析等):这些预处理工具的性能也被证明会随着领域转移而下降(Blitzer et al., 2006; Daumacute;e III, 2007; McClosky et al., 2010),会在目标领域的高层次任务上引入噪声特征,最终影响到这些高层次系统在目标领域上的性能。

对于事件检测,我们假定卷积神经网络相比于基于特征的方法更加适合与DA问题,有两点原因。第一,相比于传统方法依赖于符号的离散的形式(如词汇,类型等)来构建特征(Ji and Grishman, 2008; Li et al., 2013b) ,卷积神经网络可以自动将特征白噢汗到词嵌入中,词汇的通用分布式表征是跨领域的。这帮助卷积神经网络减少了词汇稀疏性,学习到了更通用的更有效的特征表述方式,因此会减少领域间的区别。第二,因为卷积神经网络最小化了对于有监督特征预处理工具的以来,因此可以减少误差传递并增加领域转换的健壮性。

3.3.1数据集

在这一节中,我们对ACE2005数据集进行了实验,但更多地关注在领域间的差异上。ACE2005语料库有6个不同的领域:广播对话、广播新闻、电话对话、无线新闻、用户网络和网络博文。根据常规的领域转换实验(Plank and Moschitti, 2013; Nguyen and Grishman, 2014),我们使用广播新闻和无线新闻来作为源领域,广播对话、电话对话和网络博文作文目标领域。我们使用一半的广播对话数据作为开发集,使用剩余的数据做测试。我们注意到源领域和目标领域事件类型分布和词汇分布非常不一样(Plank and Moschitti, 2013)。

3.3.2 领域适应结

全文共6528字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[439]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。