社交媒体中的跨域和半监督命名实体识别的研究外文翻译资料

 2021-11-17 10:11

英语原文共 11 页

社交媒体中的跨域和半监督命名实体识别的研究

Jingjing Xu , Hangfeng He , Xuancheng Ren , Sujian Li, and Xu Sun

摘要

中文社交媒体中的命名实体识别(NER)是一项重要而又富有挑战性的任务,因为中国的社交媒体语言是一种非正式的、嘈杂的语言。关于NER大多数以前的方法都侧重于域内监督学习,这种学习方式受社交媒体中缺乏注释数据的限制。在本文中,我们提出了正式域中的足够语料库和大量未加注释的文本可以结合起来提高社交媒体中的NER性能。我们提出了一个统一的模型,可以从域外的语料库和在域内未注释的文本中学习。统一模型由两部分组成,一个用于跨域学习,另一种用于半监督学习。跨域学习可以基于领域相似性来学习领域外信息。半监督学习可以在通过自我训练学习无注释的领域信息。实验结果表明,该统一模型比强基线提高了9.57%,达到了最先进的性能。

索引术语 命名实体识别,中文社交媒体,跨领域学习,半监督学习

一.介绍

命名实体是包含个人、组织和地点名称的短语。识别文本中的这些实体是自然语言处理(NLP)的基本任务之一。任务通常称为命名实体识别(NER)。NER对许多高级任务非常有用,例如信息提取和实体链接。

长篇工作[1]、[2]侧重于正式文本,例如新闻。近年来,随着社会媒体的飞速发展,许多研究者开始在社交媒体中探索NER[3]-[5]。社会纳由于社交媒体文本采用更多的社交媒体文本,因此媒体具有挑战性灵活和非正式的语言使用比传统的正式文本。尽管最近在缩小英文正式和社交媒体域之间的性能差距方面取得了进展[5],但对中国社交媒体中解决NER的挑战仍然存在。

以前的工作主要是使用条件随机场(CRF)或结构感知器(SP)[6]-[10]来处理英语或汉语中的NER。例如,Lin和Wu[8]使用了线性链CRF,从Web数据中提取拼写特征和短语聚类特征。LING和Weld[11]表明,基于CRF的模型中依赖结构的句法级别特性提高了性能。近年来,神经网络取得了良好的性能。例如,Colobert等人。[12]在一个字嵌入序列上使用了一个CNN,在CNN输出上使用了一个CRF层。黄等人[13]提出了类似的模型,但使用了LSTM和手工拼写功能。然而,这些方法依赖于受稀缺标注数据限制的监督学习。。

本文提出了一种从跨域注释数据集和域内无注释文本中学习知识的统一模型,以提高中文社交媒体的NER能力。我们将正式域中的带注释数据集作为领域外的语料库,而社交媒体中的大量原始文本作为领域内的无注释文本。一般情况下,该模型由两部分组成,一是跨域学习,二是半监督学习模块。

跨领域学习模块基于领域相似度学习知识。其核心思想是计算域外训练数据与社交媒体数据之间的相似性。这些相似之处用于调整域外句子的学习速率。具有高相似性的域外句子将比具有低相似性的句子更多地影响训练。此外,为了避免域外语料库和域内语料库之间的分布偏差,我们将一种新的相似性衰减机制引入到我们的跨域学习模块中,而不是使用固定的相似度权重,以便在训练期间调整学习率。随着训练时间的增加,衰减机制将自适应地减少用于外域语句的相似性权重。

半监督学习模块通过自我训练学习领域内知识。以前的工作主要集中在从未加注释的语料库[14],[15]中学习单词表示法。例如,Peng和Dredze[15]联合训练了关于NER和分词任务的模型,学习分词表示法。与以前的工作不同,我们提出了一个基于置信度的学习方法,通过自我训练探索域内无注释文本。为了建立训练对,在每个时期之前由受过训练的模型作出的预测被认为是未注释文本的gold标记。我们使用置信度来评估训练对的正确性,并在未注释的语料库中调整每个训练对的学习率。置信度由置信度函数信计算。为了降低大量未注释数据的置信度计算成本,我们引入了一种基于每个未注释的句子与域内语料库之间的相似性来选择前k个未注释句子,每个未加注释的句子和一个领域内的语料库之间的一致性。

我们的主要贡献如下:

我们提出了一个统一的模型,它利用了域外注释的数据集和域内未注释的文本,以改善中国社交媒体中的NER。

我们提出一种具有衰减机制的跨域学习模块,该模块根据领域相似性从领域外数据集中学习知识。

我们设计了一个半监督的句子级学习模块,通过自我训练从领域内无注释文本中学习知识的机制。

二.方案的提出

在这一部分中,我们将描述基本的模型结构,跨域学习模块,半监督学习模块,以及统一模型。

2.1 BiLSTM-MMNN

在以往的工作中,我们使用双向LSTM作为我们的基本模型。要构建结构化输出,我们还添加了过渡概率和最大边界网络[16]。我们将此模型称为BiLSTM-MMNN。我们在基本模型中使用了字符和位置嵌入。

根据[16]的工作,结构化裕量损失定义为:

(1)

其中k是折扣率。当输入为True时,1{*}输出1,否则输出0。是预测的标记序列。n是gold标记序列y的长度。损失与n成正比。带有不正确标签的字符数。对于输入x,我们搜索得分最高的序列,如:

(2)

其中代表的得分。Y(x)是包含所有标记序列的集合。GOLD序列的分数应大于其他序列的裕度:

(3)

为了构造结构化输出,我们还考虑了网络中的转移概率。标记序列的得分是:

(4)

其中n是标签序列y的长度。表示从标签到的转换概率。表示标签的概率。Lambda;表示t中的参数集基本模型

字符和位置嵌入:彭和德雷兹[17]探讨了在中文社交媒体中可用于NER的不同类型的嵌入:单词、字符和字符位置嵌入。它首先分段NER数据,然后学习单词嵌入。对于字符嵌入,直接在训练语料库中学习嵌入。对于字符位置嵌入,它基于字符版本还考虑了字符在单词中的位置。实验结果表明,该算法的特征位置嵌入效果最好。在他们的工作之后,我们在中添加了分段。形成于我们的模型中,它将特征和它在一个词中的位置结合在一起。

2.2基于相似的衰减机制的跨域学习

我们的跨域模块的动机是基于这样一个事实:如果我们直接使用领域外的训练语句,由于域内a之间的分布偏差,其性能通常会下降。非领域语料库。因此,我们首先计算领域外句子和社交媒体句子之间的相似点,然后利用这些相似点来控制学习速度。高句子相似度权重对训练的影响远大于低相似度的句子。

我们还发现,在整个训练过程中确定相似权值会导致几个问题。首先,模型很难学习域内数据分布,因为有太多的d外分布。在训练的后期阶段,预测句仍然涉及到训练中。第二,在没有衰减机制的情况下,保持相似权值不变会影响模型的收敛性。解决问题提出了一种新的相似性衰减机制,在训练过程中动态地降低相似权值。

其核心思想是对不同的训练句子使用不同的学习率。对于领域外句子,学习速率受相似度权重的控制.在时代,学习速度对于域外句子x,计算如下:

(5)

其中是一个领域外句子x和域内语料库I在t轮次之间的相似权重。alpha;表示社交媒体语料库的初始学习速度。输出一个领域外句子x和一个社交媒体语料库之间的相似性。决定了在t时代外句子x的相似性衰减速度。

相似函数:设计了三种不同的相似函数。

交叉熵函数:如文[18]所述,我们使用了域外句子与域内语言模型之间的交叉熵。此函数反映输入句子在多大程度上与目标数据分布。如果后面有句话目标数据的分布,语言模型将低熵分配给它,反之亦然。

详细的计算过程是:

(6)

其中C是用于调整相似性大小的超参数。n是句子x的长度。是由域内语料库I中训练的语言模型产生的输出概率。

高斯RBF核函数:详细计算如下:

(7)

其中C是用于调整相似性大小的超参数。它是一个超参数,用于调整方差。是句子X的向量表示,而是表示的向量。社交媒体数据集I。句子向量是字符位置嵌入的平均值。语料库矢量是句子向量的平均值。字符位置嵌入向量由word2wec训练 [19]。

多项式内核函数:多项式内核函数的详细计算为:

(8)

其中C是超参数并且用于调整相似性的大小。是句子x的向量表示,是社交媒体数据集I的向量表示。和的计算与高斯RBF核函数相同。如果d=1时,多项式核函数可以写成costheta;,其中theta;表示欧氏空间中和之间的夹角。

相似衰减函数:衰减函数进一步调整训练过程中所有域外数据的权重。一般来说,随着培训的进行,这些数据应该不那么重要,而一些特定的句子则会起作用。UD对训练还是有用的。因此,我们在相似衰变函数中设计了两个衰变项。一个是全局衰变项,它决定了所有非域语句的全局衰减速度。另一个是局部衰变项,它负责维持某些句子的重要性。对于t时的句子x,计算了相似衰变函数:

(9)

其中,是一个逐渐减小句子权重的全局衰变项,是最近m个周期中关于w的不同预测数。

当训练进行时,全局衰减项负责降低失域数据的权重。动机来自于,如果所有域外数据的权重在整个培训过程中保持不变,那么模型将很难适合目标数据分布,因为域外数据集的分布与目标数据集的分布不同。因此,提出全局衰减项通过逐渐减低相似度权重作为训练来解决该问题。

收益。在训练的早期阶段,所有域外数据都用于学习小目标数据集之外的知识。在训练的后期阶段,模型从目标域数据中学习更多,以确保它适合目标数据分配。

我们引入局部衰减项,以分配不同衰减速度的不同域外句子。主要的想法是,我们增加“无用”句子的衰变速度,同时减少衰减。“有用”句子的速度。如果模型给出的预测在最近的m次迭代中总是发生变化,则表示模型对预测没有信心。因此,对于模型而言,学习准确识别此句中的图元的知识变得非常有用,我们会降低其衰减速度。相反,如果预测在最近的m个时期没有变化,我们认为模型很有信心,黄金注解很难改变模型的预测。为了加快收敛速度,我们增加了数值。这类判决的局部衰变项。由于对所有域外数据共享相同的全局衰变项过于简化,局部衰变项使衰变函数更加灵活。

2.3 基于信心的半监督学习句子排序

由于注释数据需要大量的努力,如何利用未标注的文本来学习社交媒体知识越来越引起研究者的注意。传统的半监督方法在未加注释的文本上构建训练对,然后选择最自信的训练对。在此框架下,我们设计了一个半监督学习模块,该模块由两部分组成:置信度学习和无注释的句子排名。

信心学习功能:置信度学习函数是基于决策边界的。模型一般采用得分最高的标记序列作为预测结果。我们考虑的是标签之间的距离。具有最高分数和具有第二最高分数的标记序列作为判决边界的序列。置信度定义为:

(10)

其中置信度由与之间的判定边界决定。是得分最高的标记序列,是得分第二高的标记序列。

对于未注释的句子x,置信度学习函数首先考虑具有最高分数的标记序列:

(11)

其中Y(X)是所有候选预测的集合。是得分最高的标记序列,是带参数theta;的句子的输出分数。

置信度学习函数还考虑得分第二高的标记序列为:

(12)

其中Y(X)是所有候选预测的集合。是得分最高的标记序列,是带参数theta;的句子的输出分数。

我们计算每个时代之前的置信权。由于该模型是在训练过程中进行预测的,因此在不同的时期,该模型的权重会发生自适应的变化。

无注释句排序:首先,对于一个模型来说,很难给出域外无注释数据的准确预测,过多的低质量对(未注释的句子预测标签)给模型带来了负面影响。其次,在每个epoch之前,对大量未标注的句子的预测花费太多的时间。在这些因素的激励下,我们提出了一种首先选择的句子排序方法。首先基于未标注数据和域内语料库之间的相似性来选择前K个语句。未标注句子X和域内语料库I的相似性是根据语言模型的输出概率的句子x的交叉熵的倒数。此函数反映输入匹配目标数据分布的可能性。如果句子遵循目标数据分布,则语言模型将给出低熵。详细的选择过程如下所示。我们首先基于域内文本训练基本语言模型,并计算不注释的置信度权重:

(13)

其中n是句子x的长度。是由在域内语料库中训练的语言模型产生的输出概率,Z是归一化项,并被计算为:

(14)

其中X是所有未加注释的句子的集合。

然后,根据对所有未加注释的句子进行排序,并选择顶部k个未加注释的句子。只有选定的句子可以用来训练模型的置信度。我们选择的最多类似的句子,而不是最多样的句子,因为对目标数据进行训练的模型很难为所有未加注释的句子提供准确的预测。未注释的数据集本文是从互联网上抽取的,包含了许多领域外的句子,造成了预测精度低的问题。生成的低质量预测对(未加注释的句子预测)(标签)给训练带来许多噪音,导致低性能。为了避免低质量配对的负面影响,我们选择了最类似的无注释句子,这些句子更容易得到。精确的预测来增加训练集。

对于未加注释的句子x,计算了t时的学习速率:

(15)

其中针对所有域内句子的初始学习速率。在时期t评估句子x的置信度。

2.4 统一模式

对于训练句x,学习速率t定义为:

(16)

其中是计算相对权重的函数,并且是初始学习速率。的详细计算是

(17)

其中表示所有域内注释的语句的集合,表示所有外域注释语句的集合,表示域中所有未带注释的句子的集合,在t时代输出领域外x与社交媒体语料库i之间的相似性权重,输出未注释的x的可信度对于每个社交媒体句子,默认权重设置为1。

给定与权重函数关联的训练语句x,模型参数theta;更新为:

(18)

其中,是关于损失函数的操作的梯度。

三.实验

为了验证该模型的有效性,我们在一

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。