结合符号推理与统计推理的混合推理法在知识图谱中的应用外文翻译资料

 2022-08-11 10:08

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


结合符号推理与统计推理的混合推理法在知识图谱中的应用

摘要

知识图谱能表达世界上丰富繁多的知识资源。知识图谱所运用到的推理技术主要有两种:符号推理和统计推理。然而,两者都有其优点和局限性。因此,将两者结合起来在知识图谱中提供混合推理是值得尝试的。在本文中,我们对知识图谱中的混合推理方法首次进行了调查和综述。我们在推理技术的应用的基础上,对现有方法进行了分类,并介绍了它们的关键创新点。最后,我们重新审视了尚待解决的研究问题,并展望了知识图谱中混合推理法的未来发展方向。

1 引言

随着互联网技术和网上应用程序的飞速发展,大量线上公布的数据,成为大规模知识提取的重要来源。如何对这些知识进行组织、表示和分析一直是人们关注的问题。知识图谱能表达世界上丰富繁多的知识资源。大多数知识图谱是由实体(节点)和各种关系(边线的不同语义标签)组成的有向标记图谱[1]。大多数知识图谱通常表示为由头节点、关系、尾节点三部分组成的形式,表示两个实体通过一个特定的关系连接起来,例如巴拉克·奥巴马、波宁和夏威夷。近年来,开放式知识图谱得到了迅速发展,例如DBpedia[2]、YAGO[3]、NELL[4]和Probase[5]等,这些知识图谱被广泛用于支持语义网络的实际应用。

知识图谱的质量对于完成问答等知识图谱的应用至关重要。影响知识图谱、质量的两个重要因素是知识图谱的完备性和逻辑一致性。知识推理在知识图谱使用中起着重要作用,其目的在于推理隐含知识,填充不完备的知识图谱,提高其逻辑正确性。目前存在两种主流的知识推理方法:一种是基于符号推理,通过语义框架将问题框架化,根据预定义的规则推导出隐含知识;另一种是基于统计推理,这种推理方法通过找到合适的统计模型来拟合样本,并预先判定实体间推断关系的期望概率。

然而,在知识图谱的应用中,无论是符号推理还是标准推理都存在一定的缺陷。符号推理往往基于规则或图式知识,这些知识的或获取难度较大。相比之下,统计推理得出的结论准确性难以保障,推理的结果可能难以得到充足的逻辑和解释。因此,许多研究者试图将他们的优势结合起来,并在相关任务中取得了一些令人鼓舞的成绩,如知识填充[6,7]、图式知识归纳[8,9]、知识校准[10,11]、问答[13]等。例如,我们可以将符号信息(如路径、上下文或逻辑规则)合并到统计框架中,以限制目标函数的条件或精确化预测结果。

到目前为止,还没有系统和深入地研究知识图谱中的混合推理方法及其各种推理目标。本文综述了知识图谱方法的最新研究进展,并展望了未来的发展方向和前景。首先简要介绍了知识图谱,分析了符号推理和统计推理的优缺点,提出了混合推理的必要性。其次,我们提供了一个彻底的审查目前的各种目标的推理方法在知识图谱。最后,我们重新审视了尚未完成的研究挑战,并展望未来有关知识图谱混合推理技术的发展方向。

2 知识图谱中的混合推理

在这一部分中,我们简要介绍了知识图谱并且在知识图谱中运用混合推理的方法。到目前为止,有人尝试给知识图谱下一个正式的定义[14,15]。然而,由于“知识图谱”这个术语存在不同视角的描述,所以目前为止知识图谱尚未存在一个标准的定义。在本文中,我们不打算给出这样的定义,而是考虑文献[16,17]中给出的知识图谱的特征:

-主要描述现实世界的节点及其相互关系,并以图表的形式组织归纳。

-用图形来定义节点的类别和属性。

-允许任意节点之间进行可能的相互关联。

-涵盖多个专题范畴。

如图1所示,节点代表现实世界中的个体(例如“姚明”和他的妻子“叶莉”)。一个概念代表一组具有相同特征的个体,如“姚明”、“科比”、“乔丹”等,组成一个与“篮球运动员”概念相对应的概念。文字是指表示某些关系的特定值的字符串,如“2.29m”,实体“姚明”的“高度”。这些节点之间的边缘代表了实体、概念和文字之间的不同关系,如“姚明”是“篮球运动员”,“姚明”的妻子是“叶莉”。所有这些关系及其相关的实体、概念或文本都以三元组的形式存储,三元组是知识图谱的基本存储单元。三元组以主语、谓语、宾语的形式组织知识,如“姚明、is-a、篮球运动员”和“姚明、身高、2.29米”。

知识图谱中存在两类知识,一类称为图式知识,另一类称为事实知识。图式知识包括关于概念和性质的陈述,事实知识包括关于实例的陈述。例如,三元组的(亚洲国家,类属于,国家)是一个图式知识,而图1中给出的三元组都是实际知识。现有的知识图谱大多由大量的事实知识和少量的图式知识组成。比如说, 著名的知识图谱DBpedia包含660多万个节点和130多亿个三元组。然而,它只包含了685个概念,这些概念被2795个不同的属性所描述,这些概念形成了一个包含关系子类的包含层次结构。还有一些知识图谱由大量的图式知识构成,如SNOMED CT.

知识图谱有其基于本体语言的逻辑基础,如资源描述框架(RDF)和本体Web语言(OWL)。RDF是一个图形数据模型,用于描述网上的资料来源,使数据交换和共享成为可能;它最初用于表示网页的元数据,例如用于创建网页的工具和网页的作者。知识图谱中的事实知识可以用RDF来描述。OWL是一个本体语言群组,它可以表示丰富而复杂的关于节点、属性和关系的知识。OWL 能同时描述事实知识和图式知识,并且能够支持逻辑推理。因为本体语言,如RDF和OWL,通常是基于一阶逻辑的,所以知识图谱中其中一种推理就是演绎推理。基于逻辑的推理,即符号推理,对于保证知识图谱的质量和从给定的知识图谱中推断隐含知识具有重要意义。知识图谱的另一种推理方法是基于统计的机器学习,这种推理方法被称为统计推理。符号推理和统计推理各有优缺点。符号推理可以推导出精确的结论,但它往往基于知识图谱式或规则,难以获得。相比之下,统计推理得出的结论并不精确,而且往往是数据驱动的,因此更容易在没有人工干预或很少人工干预的情况下扩展到大型知识图谱。因此,将符号推理和统计推理相结合,在知识图谱中提供混合推理使很有价值的研究尝试。在接下来的部分,我们将回顾已有的关于知识图谱中混合推理的研究,并提出一些对未来研究具有挑战性的问题。

3 方法论

在这一部分,我们将基于知识图谱推理目标的混合推理技术大致分为四组:知识填充、原理图式知识归纳、知识对齐整合校准、问答系统的多跳推理。本文还介绍了其他一些难以归类的混合推理方法。

3.1 知识填充

为了解决知识图谱的不完备性问题,人们对用于推断知识图谱中两个节点之间隐含关系的统计关系学习(SRL)模型[18]进行了大量研究。路径排序算法(PRA)[19]和知识图谱嵌入 (KGE)[1]是SRL中的两种典型方法,在知识填充中得到了广泛的应用。在本节中,我们首先介绍了路径排序算法。然后介绍了知识图谱嵌入模型的三种方法。

3.1.1.路径排序算法(PRA)及其扩展

路径排序算法是在随机漫步技术的基础上研发而来,其目的是寻找关联数据[19]的复杂路径特征,提出一种新的数据挖掘算法。PRA的核心思想是利用连接两个节点的路径作为特征来预测它们之间的潜在关系。例如,“出生于,hellip;hellip;的首都”是一条连接“路德维希·范·贝多芬”和“德国”的路径,通过一个中间节点“波恩”。这种路径可以用作特征来预测特定关系的存在,例如国籍。现如今已有各种各样的扩展被开发了,如合并文本语料库,使用子图特征抽取等。一些著名的知识图谱如NELL[4]就采用PRA进行知识填充。

3.1.2.知识图谱嵌入(KGE)中的融合关联路径

知识图谱嵌入(KGE)能够通过连续向量空间的形式来编码一个知识图谱中的实体节点信息和相关关系等内容。知识图谱嵌入模型主要有三种类型。第一种是平移距离模型,例如TransE,它利用基于距离的评价函数,以两个实体节点之间的距离来衡量一个事实结论的合理性。第二种是语义匹配模型,如RESCAL[7],它通过匹配实体节点的潜在语义和向量空间中所包含的关系来度量事实的合理性。知识图谱嵌入模型的另一种类型是基于语言模型的方法,采用从词语序列组中进行无监督特征提取的方法。Rdf2vec[22]使用两种不同的方法(即图谱漫步和Weisfeiler-Lehman子树RDF图谱内核)来处理生成一组实体序列。然后作者利用这些序列来训练Word2vec,用于预测出现在图谱中的实体序列的可能性。Cochez等人[23]采用了全局模式而不是由RDF2Vec生成的节点的局部序列。作者将全局向量(GloVe)与书签着色算法相结合,更有效地学习了实体的嵌入。

由于知识图谱中的三元组不是独立的,所以不能忽略三元组间的相互影响,这可以为改进现有知识图谱嵌入模型提供语境信息。Ptranse[24]通过对基于路径的表示来建模扩展TransE。作者采用了实体对之间的关联事实,而不是仅仅考虑两个实体之间的关系。由于并非所有关系路径都是可靠的,他们设计了路径约束资源分配算法来衡量关系路径的可靠性,并通过关系层次的语义组合来表示这些路径。Gake[25]定义了三种包含不同知识图谱结构信息的图形文本,用于表征学习。因此,GAKE的评分函数考虑了目标实体(或关系)与其语境之间的联系。此外,作者还设计了一个注意机制来学习不同顶点或边的权重。Gao等人[26]提出了一种基于三元组语境的嵌入方法TCE用于知识图谱填充。TCE考虑了每个三元组的两种结构化信息。一种是一组相邻实体及其相互之间的输出关系,另一种是一组包含一对目标实体的关系路径。

3.1.3.在KGE中使用逻辑规则

逻辑规则可以提高知识图谱嵌入模型的知识填充能力。Wang等人[27]利用这些规则来改进嵌入模型。在他们的工作中,知识图谱填充被认为是一个受规则约束的整数线性规划问题。因此,推断出的事实信息将最倾向于嵌入模型,并遵守所有的规则。类似地,Wei等人[28]通过马尔可夫逻辑网络将规则和嵌入模型结合起来,他们在其中纳入了由嵌入模型生成的相似先验性,并设计了地面网络抽样策略,用于提高推理精度。另一方面,逻辑规则可以用喇叭状分句来表示,例如: forall; x,y(x,hellip;hellip;的首都,y)→(x,坐落于hellip;hellip;,y),表示两个由“hellip;hellip;的首都”的关系连接的实体,也应该满足“坐落于”的关系。Guo等人[29]提出了一个将事实知识和逻辑规则嵌入统一框架的联合模型,其中逻辑规则是由基本要素和逻辑连接词(例如and;和→)组合而成的复杂公式,并用t-norm算子的模糊逻辑来度量。之后,他们进一步改进了这个模型[30],这个模型可以同时以迭代的方式从标记的三元组、未标记的三元组和软规则中学习。Zhang等人[31]提出了一种新的框架,称为IterE,以减少知识图谱中的稀疏联系实体节点的存在。IterE可以迭代学习嵌入和逻辑规则,其中通过适当的剪枝策略从嵌入中学习规则,通过规则从现有的三元组和新的三元组中学习嵌入。另外 ,Gutirrez-basulto和Schockaert[32]认为现有的组合模型可能不能充分表达规则的表达式,并提出了一种基于凸域的方法。通过定义凸域,在大多数情况下可以准确地对受限制于准链式存在规则的知识图谱进行编码。

3.1.4.保留KGE中的逻辑属性

另一种类型的知识图谱嵌入方法是为保持语义关系的逻辑性质而提出的。On2vec[33]使用基于翻译的嵌入模型来填充本体论,它集成了对头部和尾部实体进行变换的矩阵,以刻画某些关系的传递性。为了在同一语义空间中表示不同的概念、实例和关系,TransC[34]将实例编码为向量,将概念编码为球面,以保持isA关系的可传递性。Sun等人[35]提出了一个基于复杂空间的模型,称为RotateE。它利用复实数和非常数的特性,有效地刻画了关系的对称性、反对称性和复合性。

3.2.有关原理图式知识的简介

现有的知识图谱包含大量的三元组,但缺乏原理图式知识,例如子集公理和分离公理。它给隐含信息推理、本体映射的异构性处理、对象协调和矛盾解决带来了困难。因此,通过图式知识的学习来丰富知识图谱的知识就成为一项重要而有意义的任务。

一种主流的原理图式知识生成方法主要结合了规则挖掘算法和符号推理。文献[36,39]中的研究中定义了关联规则模式来生成各种公理,并通过逐渐丰富原始原理图库来实现本体构造的不一致性处理。考虑到知识图谱所采用的开放世界假设,Galrraga等[8]采用局部填充假设根据规则生成几个反例,重新定义了支持度和置信度的标准准则。它的扩展AMIE 通过在学习基本群集规则时使用类型层次结构和联合推理的方法,进一步提高了精确度。受这些方法的启发,Gao等[41]开发了一种类型推理算法,定义一个带有概率类型声明的挖掘模型来处理带有噪波的消极数据,并产生高质量的子集公理和分离公理。为了提高基于规则方法的可扩展性,Omran等人[42]引入了一种新的抽样算法和参数的嵌入表示方法。两者都可以指导规则的提取。类似地,[43]中的研究工作采用嵌入模型,通过对缺失数据的概率表示和来自预先建模的嵌入模型的反馈,迭代地提取规则。

另一个主要类别是将机器学习技术与逻辑推理相结合。文献[9]采用归纳逻辑编程方法,将机器学习与逻辑编程相结合,定义了一种ALC下行修正运算符,用于学习概念的描述。文献[44]中对这个运算符进行了扩展,它可以学习更具表达性的原理图式知识,比如基数约束。与之类似地,在文献[38]中提出了一种提取属性的区域和范围的统计方法。首先用于信息检索中的向量空间模型被用于提取非关联信息。提取完成后,根据预定义的非一致模式并行执行匹配检查。文献[45]中将贝叶斯网络的概率推理能力与逻辑形式主义结合起来,学习子集公理和分离公理。它使用逻辑规则生成更复杂的公理,并处理在知识图谱的图形建构过程中出现的不匹配的情况。

3.3.知识的对齐整合校准

在过去的几十年里,越来越多的知识图谱在网上出现,但是知识图谱的异质性和多语言性差距仍然阻碍着它们在语义网络上的共享和

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237711],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。