用图卷积总结中医答案 网络和以问题为中心的双重关注外文翻译资料

 2022-08-27 10:08

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


用图卷积总结中医答案

网络和以问题为中心的双重关注

摘要

在线搜索引擎是用户受欢迎的医学信息来源,用户可以在其中输入问题并获得相关答案。

期望为在线搜索引擎生成答案摘要,尤其是可以揭示问题的直接答案的摘要。此外,答案摘要有望显示出与问题最相关的信息;因此,应该以问题为重点来生成摘要,这是一项具有挑战性的以主题为中心的摘要任务。在本文中,我们提出了一种利用图卷积网络和针对问题的双重关注的方法

中医答案总结。我们首先将原始的长答案文本组织到带有图卷积网络的医学概念图中,以更好地理解文本的内部结构以及医学概念之间的相关性。然后,我们引入了一个针对问题的双重关注机制,以生成与问题相关的摘要。实验结果表明,与基线模型相比,所提出的模型可以生成更连贯和信息丰富的摘要。

介绍

在线搜索引擎(例如Google,Bing)拥有大量与健康相关的新鲜信息,这对有医疗问题的用户有吸引力。用户可以输入问题以获得相关的答案。

但是,领域专家生成的大多数答案都非常长,有些甚至超过512个单词。生成答案摘要非常直观,这将使用户和搜索引擎受益。这样的抽象资源对于吸引用户的注意力并鼓励点击和阅读非常有价值。此外,答案摘要有望显示出与问题最相关的信息;因此,摘要应该集中在问题上,这是一个具有挑战性的,以主题为中心的摘要任务,如表1所示。

(Zhou et al。,2006)首先介绍了答案摘要作为提取摘要的一种应用。 (Deng等人,2019)设计了一个问题增强的指针生成器网络,该网络利用问题答案对之间的相关信息来生成答案摘要时专注于基本信息。但是,这些方法主要是在通用领域数据集上进行训练和测试的,不能直接应用于医疗场景。此外,在医学领域中,对于答案汇总仍存在一些不平凡的挑战,如下所示:

bull;原始答案可能会非常长,这使得它对于香草序列到序列模型非常棘手。

bull;答案中最重要的部分不仅取决于答案的关键字,而且还应与问题相关。例如,对于表1中列出的问题,

请注意,“治疗”比“心脏”(心脏)更重要,尽管后者在答案中出现的次数更多。

bull;答案集中在同一个问题的不同概念上,这使得总结很不相同。例如,摘要可以包含多个图表,例如“轻度患者”(轻度患者)和“严重患者”(严重患者)。

尽管答案总结任务并不新鲜,但中医领域的研究和语料仍然很有限。 为此,我们提出了一个以问题为中心的双关注(Q-GCN)模型的图卷积网络来生成摘要。 我们的动机是,基于图的结构可以更好地表示答案中各种概念之间的相关性,并捕获整个文本的情节。 具体来说,我们将长答案文本分解为几个以实体/关键字为中心的文本簇,并用医学概念图表示答案。 图的每个顶点都由与实体/关键字有关的概念簇形成。 我们通过顶点之间的语义关系来计算顶点之间的边缘。 此外,为了增强问题摘要的相关性,我们提出了一个针对问题的双重关注机制,以从答案中提取主要信息。 我们强调我们的贡献如下:

bull;我们用医学概念图来表示冗长的医学答案,该概念图将文本明确组织为以概念为中心的顶点。

bull;我们提出了一种新颖的图卷积网络,它以问题为中心双重关注

根据医学概念图生成摘要。

bull;在我们收集的大型中文问答式语料库(ChMedQA)和WikiHowQA上的实验结果证明了该方法的有效性。

相关工作

文字摘要。文本摘要技术可以分为两类:提取摘要和抽象摘要。提取方法将摘要视为句子分类(Nallapati等人,2017)或序列标记任务(Cheng和Lapata,2016)

从文章中选择句子以形成摘要,而抽象方法通常采用基于注意力的编码器/解码器模型(Nallapati等人,2016; See等人,2017; Ye等人,2020)来生成抽象摘要。我们的方法是一种抽象方法,可以生成更加流畅和连贯的摘要。答案总结是

(Zhou et al。,2006)首先介绍了摘要的应用。随后,关于答案总结的研究仍被视为质量保证流程中的一个单独的总结模块(Song等人,2017)。此外,基于查询的摘要方法(Singh等人,2018)也可以作为此任务的良好解决方案。 (邓等人,2019)

设计一个问题增强的指针生成器网络以生成答案摘要。

以前的研究很少(Kogilavani和Balasubramanie,2009)对医学答案的总结。由于领域知识有助于生成连贯且信息丰富的摘要,因此以前的方法通常会利用本体论(Kogilavani和Balasubramanie,2009),概念

(Morales et al。,2008; Schulze and Neves,2016)总结答案。

图卷积网络。最近,图卷积网络(GCN)模型越来越受到关注(Zhang等人,2019),这对图数据建模很有好处(Yin等人,2019)。现有的一些文献,例如SQLto-Text(Xu等人,2018),AMR-to-Text(Beck等人,2018; Song等,2018; Zhao et al。,2018)使用GCN用于生成文本。但是,这些方法利用了已经存在的图形,并且输入文本非常短。我们面临着极其冗长的文字。

最近,(Li et al。,2019)建议使用主题图对新闻文章进行建模,并利用GCN自动生成评论。 (Wang et al。,2020)提出了一种基于异构图的神经网络,用于提取摘要。与他们的方法不同,我们专注于医学领域,并且生成的摘要应与输入问题相关。据我们所知,我们是第一个将GCN应用于医学答案汇总任务的人。

方法

问题定义

设A表示包含多个句子的答案[s1,s2,s3,s4,...,sm],其中si是答案中的第i个句子,而Q表示输入的问题。 我们的任务是生成与输入问题Q最相关的A的抽象摘要。

框架

我们的方法在图1中显示为编码器/解码器框架。 具体来说,我们的编码器旨在将原始答案文本转换为医学概念图。 我们提出了以问题为中心的双重关注,以基于图和编码后的问题生成摘要序列

医学概念图的构建

我们用医学答案构建医学概念图,如算法1所示。在本文中,我们将医学概念定义为医学实体的短语/单词或文本的重要组成部分。 请注意,来自在线平台的答案会产生很大的噪音。 答案中的某些句子甚至与主要问题无关,例如“感谢邀请”(谢谢邀请)。 因此,给定输入问题Q和答案A,我们首先使用预训练的BERT-CRF(Devlin等人,2018)模型对文本进行分词,然后对文本进行医学命名的实体识别(NER)。 然后,我们使用TextRank(Mihalcea和Tarau,2004)应用关键字提取来获取关键字。之后,我们获得答案的概念,并将答案中的每个句子与相应的概念相关联。 具体来说,如果在句子中出现omega;,则将句子分配给概念omega;。 因此,单个句子将与一个以上的概念相关联,这可能隐含地指示概念之间的相关性。 分配不包含带有“空”顶点的任何概念的实体。 句子和概念omega;isin;Omega;由医学概念图中的顶点vk组成。我们通过答案中概念和句子词的级联来表示每个顶点。可以通过多种方法构造在算法1中表示为的顶点之间的边缘。 然而,越多的句子在一起提到两个概念,则这两个概念越接近。 为此,本文采用了一种基于结构的方法。 具体来说,如果顶点vi和vj至少共享一个句子,则在它们之间添加一个edgeei,j,其权重由共享句子的数量获得。 利用基于内容的方法(例如TF-IDF)来计算相似度也很方便。

节点初始化

我们使用向量ui在医学概念图中编码顶点。 首先,我们利用基于多头自注意力的顶点编码器。 该顶点编码器由两个模块组成,即嵌入模块和自我关注模块。 我们通过共享嵌入查找表来采用单词和概念的常规单词嵌入来表示单词信息。 常规词指的是概念词以外的词。 我们还添加了绝对位置和相对位置嵌入p absolutei,p relativeito表示位置信息。 p absoluteiaim旨在对答案中单词和概念的绝对位置进行编码。 为了更好地学习相对位置嵌入,我们将概念omega;放在单词序列的前面。 这样,该概念的相对位置嵌入具有相同的嵌入p0。 我们将词wi嵌入单词并位置嵌入p absolutei,p relativeito正式获得最终的嵌入之后,我们将ui输入到自我注意模块中,以获得每个单词的隐藏表示ai。 自我注意可以显式地建模单词之间的交互以捕获顶点的上下文。 我们使用等式2至等式4计算自我注意层的隐藏表示,其中Q,K和V分别表示查询,键和值向量尽管概念omega;是顶点的重要信息,但我们采用概念a0的表示来表示整个顶点。

图卷积网络

在获取隐藏向量后,我们将顶点输入到图编码器中,从而对构建的医学概念图的图结构进行显式建模。 我们使用以下GCNmodel的实现(Kipf和Welling,2016年)。 具体来说,我们将交互图的邻接矩阵表示为Aisin;RNtimes;N,其中Aij = wij(在第3.3节中定义),D是对角矩阵。

其中,IN是单位矩阵,D〜-1/2 A〜D〜是归一化的邻接矩阵,Wlis是可学习的权重矩阵。 我们还在各层之间添加了剩余连接,以避免过度平滑。

gK是GCN的最后一层的输出。 我们在GCN的最终输出中添加前馈层。

专注于问题的双重注意力

由于问题是至关重要的信号,因此我们提出了一种以问题为中心的双重关注机制,以强调那些重要的顶点和去强调无关的顶点。 我们利用变压器生成问题q的隐藏输出,并计算出第一注意权重为

其中delta;是注意力函数,q是问题的隐藏表示,giis是顶点i的最终表示。 我们会特别注意利用递归神经网络。 给定GCN hv0,v1,...,vni的输出和初始状态t0,解码器能够生成一系列夏季令牌y1,y2,...,ym。 我们计算第二注意权重为

其中delta;是注意力函数,ti是状态i的隐藏表示,gi是顶点i的最终表示。 我们将alpha;i和beta;i与以下公式结合起来,以获得每个状态的最终注意力权重:

此处,psi;i表示朝向图顶点i的最终注意权重,而gamma;isin;[0,1]是用于调整两个注意权重alpha;i和beta;i的重要性的软开关。 有多种方法可以

设置参数gamma;。 最简单的方法是将gamma;视为超参数,并手动对其进行调整以获得最佳性能。 或者,也可以通过神经网络自动学习gamma;。我们选择后一种方法,因为它在不同情况下为gamma;自适应地分配了不同的值,并获得了更好的实验结果。 我们使用以下公式计算gamma;:

其中向量w和标量b是可学习的参数,而sigma;是S型函数。 最终,使用最终注意力权重来计算状态向量的加权和,从而得到表示上下文的语义向量

由于概念v可能会出现在摘要中,这对于长答案是至关重要的信息,因此我们通过将预测的单词令牌概率分布与注意力分布相加来使用以下复制机制(Gu et al。,2016)。 使用上下文向量ci并解码隐藏状态ti来动态计算概率pcopy。

其中Wo,W,Wcopy和b都是可学习的参数。

实验

我们进行三种实验:1)用于消融研究的自动和手动评估,用于中医答案总结; 2)在WikiHowQA上的进一步实验; 3)关于问题长度,关注问题的双重注意和错误分析的模型分析

数据集和设置

我们从一个流行的中文搜索引擎中收集问题和答案对,并将它们按8:1:1的比例分为训练/开发/测试集。我们通过预先训练的句子排名模型1注释了70%的训练集,而其余部分(训练,开发,测试)通过众包注释。我们观察到医学答案的长度过长,这对序列到序列模型提出了挑战。为了进一步分析我们的方法的概括,我们对具有极长答案的WikiHowQA2数据集进行实验.WikiHowQA是基于(Denget等人,2019)的WikiHow数据集构建的,方法是过滤掉那些没有答案或摘要的问题以及那些仅带有标点符号的问题。我们在表2中详细说明了有关答案的平均长度和两个数据集中的样本数量。

我们利用100维预训练的GloVeembeddings。 medicalNER和关键字提取的性能(F1)分别为0.91和0.89。我们将Stanford CoreNLP3和TextRank(Mihalcea和Tarau,2004年)用于WikiHowQA数据集。我们仅使用一层GCN来缓解过度平滑的问题。我们使用0.2的辍学率。我们利用Adam优化器来训练初始学习率为0.0005的参数。我们用四个纪元来训练我们的方法。

基准和指标

我们将提出的方法与以下基线进行比较,包括四种提取方法(Lead3,TextRank(Mihalcea和Tarau,2004),NeuralSum(Cheng和Lapata,2016)和NeuSum(Zhou等人,2018));两种抽象方法(Seq2Seq(Nallapati等人,2016)和PGN(请参见等人,2017));以及五种基于查询的方法(BERT(Devlin等人,2018),XLNet(Yang等人,2019),PGN(请参阅人,2017),SD2(Nema等人,2017)),biASBLSTM( Singh等人,2018)和ASAS(Deng等人,2019)。对于BERT / XLNet4,由于编码器部分已被BERT / XLNetencoder(问题和答案)所取代,并且解码器是从头开始进行训练的,因此我们利用了抽象的摘要模式。我们还比较了我们方法的变化:无位置是没有位置嵌入的方法;没有位置嵌入是没有位置嵌入的方法。没有问题是没有针对问题的双重关注的方法;不使用GCNis是不使用GCN的方法。我们将每个实验运行五次,然后计算平均效果。我们使用ROUGE F1分数来评估总结方法。

主要评价结果

主要结果。汇总结果列在表3中。我们注意到XLNet的ROUGE得分高于BERT,这可能是因为XLNet是一种自回归方法,而BERT是一种不适合该代的去噪自动编码器方法。 PGN优于XLNet,这可能是因为在医学领

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[405855],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。