基于深度学习模型的命名实体识别研究进展外文翻译资料

 2021-11-24 09:11

英语原文共 14 页

基于深度学习模型的命名实体识别研究进展

Vikas Yadav 史蒂文贝特哈德

亚利桑那大学 亚利桑那大学

bethard@email.arizona.edu vikasy@email.arizona.edu

摘要

命名实体识别(NER)是NLP系统中用于问答,信息检索,关系提取等的关键组件.NER系统已被广泛研究和开发数十年,但使用深度神经网络(NN)的精确系统仅在过去几年里演出。 我们对NER的深度神经网络架构进行了全面的调查,并将其与基于特征工程和其他有监督或半监督学习算法的NER的先前方法进行了对比。我们的结果突出了神经网络所实现的改进,并展示了如何将过去基于特征的NER系统的一些经验教训纳入进一步改进。

1介绍

命名实体识别是在文本中识别诸如人,位置,组织,药物,时间,临床程序,生物蛋白等命名实体的任务。 NER系统通常被用作问题回答,信息检索,共同参考分辨率,主题建模等的第一步。因此,重要的是突出命名实体识别的最新进展,特别是最近已经实现状态的神经NER架构。 艺术表现与最小的特征工程。

第一个NER任务由Grishman和Sundheim(1996)在第六次消息理解会议上组织。 从那以后,出现了许多NER任务(Tjong Kim Sang和De Meulder,2003; Tjong Kim Sang,2002; Piskorski等,2017; Segura Bedmar等,2013; Bossy等,2013; Uzuner 等人,2011)。 早期的NER系统基于手工制作的规则,词典,正交特征和本体。 这些系统之后是基于特征工程和机器学习的NER系统(Nadeau和Sekine,2007)。 从Collobert等人开始(2011),具有最小特征工程的神经网络NER系统已经变得流行。 这些模型很有吸引力,因为它们通常不需要域特定资源,如词典或本体,因此可以更加独立于域。 已经提出了各种神经架构,主要基于对字符,半词和/或词嵌入的某种形式的递归神经网络(RNN)。

我们对命名实体识别的最新进展进行了全面的调查。我们描述了基于知识和特征设计的NER系统,它们将领域内知识,地名录,正字法和其他特征与监督或半监督学习相结合。我们将这些系统与基于最小特征工程的NER的神经网络架构进行对比,并在具有不同表示的单词和子单词单元的神经模型之间进行比较。我们在表1和表2中显示,并在第7节中讨论神经NER系统如何比过去的工作(包括监督,半监督和基于知识的NER系统)提高了性能。例如,新闻语料库中的NN模型在西班牙语中提高了先前的最新技术水平1.59%,德语为2.34%,英语为0.36%,荷兰语为0.14%,没有任何外部资源或特征工程。我们提供资源,包括NER上共享任务的链接,以及每个NER系统类别代码的链接。据我们所知,这是第一个专注于NER神经架构的调查,并与之前基于特征的系统进行比较。

我们首先在第2节讨论关于NER的先前的总结研究。然后我们在第3节中解释我们选择哪些系统的选择标准和方法。我们在第4节中重点介绍标准,过去和最近的NER数据集(来自共享任务和其他研究) 然后在第6节中描述NER系统,分为基于知识(第6.1节),自举(第6.2节),特征设计(第6.3节)和神经网络(第6.4节)。

2 以前的研究

第一次全面的NER调查是Nadeau和Sekine(2007年),其中涵盖了各种监督,半监督和无监督的NER系统,突出了NER系统在此期间使用的常见特征,并解释了当今仍然仍在使用的NER评估指标。 Sharnagat(2014)提出了一项更新的NER调查,该调查还包括监督,半监督和非监督的NER系统,并包括一些入门神经网络NER系统。 还有针对特定领域和语言的NER系统的调查,包括生物医学NER(Leaman和Gonzalez,2008),中国临床NER(Lei等,2013),阿拉伯语NER(Shaalan,2014; Etaiwi等,2017)和印度语言的NER(Patil等,2016)。

现有的调查主要涵盖特征设计的机器学习模型(包括监督,半监督和无监督系统),主要集中在单一语言或单一领域。 据我们所知,尚未对现代神经网络NER系统进行全面调查,也没有一项调查比较多语言(CoNLL 2002和CoNLL 2003)和多域(例如新闻和医疗等)设置中的特征工程和神经网络系统。

3 方法

为了识别此调查的文章,我们搜索了Google,Google学术搜索和语义学者。我们的查询术语包括命名实体识别,命名实体识别的神经架构,基于神经网络的命名实体识别模型,命名实体识别的深度学习模型等。我们通过引用计数对每个查询返回的论文进行排序,并至少读取考虑到我们调查的一篇论文,如果它引入了一个用于命名实体识别的神经架构,或者代表了一个在NER数据集上表现最佳的模型,那么前三个问题就是前三个问题。我们收录了一篇介绍神经结构的文章,仅当它是第一篇介绍该结构的文章;否则,我们追溯引用,直到找到建筑的原始来源。我们对特征工程NER系统采用了相同的方法。我们还包括为不同语言或域实现这些系统的文章。共审查了154篇文章,选择了83篇文章进行调查。

4 NER数据集

自从第一个关于NER的共同任务(Grishman和Sundheim,1996)以来,已经创建了许多NER的共享任务和数据集。 CoNLL 2002(Tjong Kim Sang,2002)和CoNLL 2003(Tjong Kim Sang和De Meulder,2003)是由四种不同语言(西班牙语,荷兰语,英语和德语)的新闻专线文章创建的,专注于4个实体 - PER (人),LOC(地点),ORG(组织)和MISC(杂项包括所有其他类型的实体)。

还为各种其他语言组织了NER共享任务,包括印度语言(Rajeev Sangal和Singh,2008),阿拉伯语(Shaalan,2014),德语(Benikova等,2014)和斯拉夫语(Piskorski)。 等人,2017)。命名的实体类型因数据集和语言的来源而异。 例如,Rajeev Sangal和Singh(2008)的东南亚语言数据已经将人类,名称,时间表达,缩写,对象编号,品牌等命名为实体类型.Benikova等(2014)的数据基于德国维基百科和在线新闻,已经命名了类似于CoNLL 2002和2003的实体类型:PERson,ORGanization,LOCation和OTHer。由Piskorski等人组织的共享任务4。 (2017年)涵盖7种斯拉夫语(克罗地亚语,捷克语,波兰语,俄语,斯洛伐克语,斯洛文尼亚语,乌克兰语)也有人,地点,组织和杂项作为命名实体类型。

在生物医学领域,Kim等人(2004)在MedLine摘要上组织了BioNER任务,重点关注protien,DNA,RNA和细胞属性实体类型。 Uzuner等人(2007)提出了临床记录去识别任务,该任务要求NER定位要匿名的个人患者数据短语。考虑临床数据的2010 I2B2 NER 任务5(Uzuner等人,2011)专注于临床问题,测试和治疗实体类型。 Segura Bedmar等人(2013)组织了一个药物NER共享任务6,作为SemEval 2013任务9的一部分,其重点是药物,品牌,群体和药物n(未批准或新药)实体类型。 (Krallinger等,2015)介绍了类似的CHEMDNER任务7,重点关注化学和药物实体,如琐碎,系统,缩写,公式,家族,标识符等。生物学和微生物学NER数据集(Hirschman等,2005; Bossy等人,2013;Dele˙ger等人,2016)已从PubMed和生物学网站收集,主要关注细菌,栖息地和地理位置实体。在生物医学NER系统中,由于命名实体的复杂正交结构,临床和药物实体的分割被认为是一项艰巨的任务(Liu et al。,2015)。

还在社交媒体数据(例如,Twitter)上组织了NER任务,其中经典NER系统的性能由于诸如拼写法的可变性和语法上不完整的句子的存在之类的问题而降级(Baldwin等人,2015)。 Twitter上的实体类型也更加多变(人,公司,设施,乐队,体育团体,电影,电视节目等),因为它们基于Twitter上的用户行为。

虽然大多数命名的实体注释都是扁平的,但有些数据集包含更复杂的结构。 Ohta等人(2002)构建了嵌套命名实体的数据集,其中一个命名实体可以包含另一个。 Strassel等人(2003)强调了实体和实体头短语。 不连续的实体在化学和临床NER数据集中很常见(Krallinger等人,2015)。 Eltyeb和Salim(2014)提出了针对此类NER数据集开发的各种NER系统的调查,重点是化学NER.88 。

5 NER评估指标

Grishman和Sundheim(1996)根据类型评估了NER表现,无论实体边界如何,预测标签是否正确,以及文本,无论标签如何,预测实体边界是否正确。 对于每个分数类别,精度定义为系统正确预测的实体数量除以系统预测的数量,召回定义为系统正确预测的实体数量除以人类注释器识别的数量, 和(微)F分数被定义为精度的调和平均值和从类型和文本中回忆。

CoNLL (Tjong Kim Sang and De Meulder, 2003;Tjong Kim Sang(2002)认为只有当整个实体的预测标签与该实体的金标签完全匹配时,预测才正确。 CoNLL还使用(微)F分数,取精确匹配精度和召回的调和平均值。

不严格的F1和严格的F1指标已经用于许多NER共享任务中(Segura Bedmar等人,2013; Krallinger等人,2015; Bossy等人,2013;Dele˙ger等人,2016)。 只要正确识别出部分命名实体,不严格的F1就会认为预测是正确的。严格的F1要求预测的字符偏移和人类注释完全匹配。 在这些数据中,与CoNLL不同,没有给出字偏移,因此不严格的F1旨在允许进行比较,尽管由于不同的分割技术,不同的系统具有不同的字边界(Liu等,2015)。

6 NER系统

6.1基于知识的系统

基于知识的NER系统不需要带注释的训练数据,因为它们依赖于词典资源和领域特定知识。 当词典详尽无遗时,这些方法很有效,但在例如DrugNER数据集(Segura Bedmar等人,2013)中药物类的每个例子都失败了,因为药物n被定义为未经批准或新药,根据定义不在DrugBank词典中(Knox et al等人,2010)。 由于词汇的原因,基于知识的NER系统的精度通常较高,但由于域和语言特定的规则以及不完整的词典,召回通常较低。基于知识的NER系统的另一个缺点是领域专家需要构建和维护知识资源。

6.2无监督和引导系统

一些最早的系统需要非常少的训练数据。 Collins和Singer(1999)仅使用标记的种子,并且7个特征包括正字法(例如,大写),实体的上下文,命名实体中包含的单词等,用于分类和提取命名实体。 Etzioni等人(2005)提出了一个无监督系统,以改进NER系统的召回,应用8个通用模式提取器来打开网络文本,例如,NP是lt;class1gt;,NP1,如NPList2。Nadeau等人(2006)提出了一个无监督的地名录建筑系统和基于Etzioni等人(2005)和Collins和Singer(1999)的命名实体模糊度解析,该系统将提取的地名词典与常用的地名录相结合,在MUC-7(Chinchor和Robinson,1997)所在地,人员获得88%,61%和59%的F分数 和组织实体。

Zhang和Elhadad(2013)分别对生物学(Kim et等人,2004)和医学(Uzuner 等人,2011)数据的无监督NER系统使用浅层句法知识和逆文档频率(IDF),达到53.8%和69.5% 准确性。 他们的模型使用种子来发现具有潜在命名实体的文本,检测名词短语并过滤任何具有低IDF值的文本,并将过滤后的列表提供给分类器(Alfonseca和Manandhar,2002)以预测命名实体标签。

6.3特征工程监督系统

监督机器学习模型学习通过对示例输入及其预期输出的训练来进行预测,并且可以用于替换人类策划的规则。 隐马尔可夫模型(HMM),支持向量机(SVM),条件随机场(CRF)和决策树是NER的常用机器学习系统。

Zhou和Su(2002)使用HMM(Rabiner和Juang,1986; Bikel等,1997)在MUC-6和MUC-7数据的NER系统,分别达到96.6%和94.1%F得分。 它们包括11个正交特征(1个数字,2个数字,4个数字,所有大写字母,数字和字母,包含下划线或不包括下划线等)命名实体的触发词列表(例如,36个触发词和词缀,喜欢河流,位置实体类),以及各种地名录中的单词列表(人类实体类10000)。、

Malouf(2002)通过添加多个特征将HMM与最大熵(ME)进行了比较。 他们最好的模型包括大写,一个单词是否是句子中的第一个单词,一个单词是否曾出现过已知的姓氏,以及从各种词典中收集的13281个名字。该模型在西班牙和荷兰CoNLL 2002数据集上分别达到73.66%,68.08%Fscore。

2002年CoNLL的获胜者(Carreras等人,2002年)使用了二元AdaB

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。