

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
基于知识图谱的子图匹配回答自然语言问题
,
1中国北京大学; 2中国香港中文大学; 3Facebook,美国
1 {husen,zoulei,zhaody} @ pku.edu.cn,2 yu@se.cuhk.edu.hk,3 haixun@google.com
【摘要】-RDF问题/ 回答(Q / A)允许用户在RDF表示的知识库中用自然语言提问。为了回答一个自然语言问题,现有的工作采取两个阶段的方法:问题理解和查询评估。他们的焦点在于理解处理自然语言短语歧义的问题。最常用的技术是具有指数搜索空间的联合消歧。在本文中,我们提出了一个系统框架,以图形数据驱动的视角来回答RDF知识库(RDF Q / A)上的自然语言问题。我们提出了一种语义查询图,以结构化方式对自然语言问题中的查询意图进行建模,在此基础上,将RDF Q / A简化为子图匹配问题。更重要的是,我们解决了查询匹配时自然语言问题的模糊性。如果找不到匹配,则会保存消除歧义的成本。更具体地说,我们提出了两个不同的框架来构建语义查询图,一个是关系(边)优先,另一个是节点优先。我们将我们的方法与基准数据集中的一些最先进的RDF Q / A系统进行比较。大量实验证实,我们的方法不仅提高了精度,而且大大提高了查询性能。
【关键词】- RDF,图数据库,问答。
1引言
随着越来越多的结构化数据在网络上出现,最终用户如何访问这一知识体系的问题变得至关重要。作为知识库的事实标准,RDF(资源描述框架)库是三元组的集合,表示为“主体,谓词,对象”,可以表示为图形,其中主体和对象是顶点,谓词是边缘标签。虽然SPARQL是访问RDF数据的标准方式,但由于SPARQL语法和RDF模式的复杂性,对最终用户来说,它仍然是单调乏味和困难的。一个理想的系统应该允许最终用户从语义Web标准(如RDF和SPARQL)的表达能力中获益,同时将其复杂性隐藏在直观且易于使用的界面之后[1]。因此,RDF问题/回答(Q / A)系统在NLP(自然语言处理)[2],[3]和数据库领域[4]中受到广泛关注。
一般来说,RDF Q / A系统有两个阶段:问题理解和查询评估。第一阶段的现有系统将自然语言问题N翻译为SPARQL [1],并在第二阶段对第一阶段翻译的所有SPARQL进行评估。现有解决方案的重点在于对问题的理解。让我们考虑图1中的一个运行示例。RDF数据集在图1(a)中给出。给定一个自然语言问题N1 =“Paul Anderson指导的电影的预算是什么?”,它首先被解释为一个SPARQL查询,被评估得到答案(如图1(b)所示)。
1.1动机
RDF Q / A的固有硬度在于非结构化自然语言问句的含糊性。一般来说,有两个主要挑战。
短语链接。一个自然语言短语wsi可能有几个含义,即wsi对应于RDF图G中的几个语义项。如图1(b)所示,实体短语“Paul Anderson”可以映射到三个人:Paul Anderson(演员),lang;Paul S.Andersonrang;和lang;PaulWSAndersonrang;。对于一个关系短语来说,“由......指导”也指两种可能的谓词:“导演”和“作者”。有时需要将一个短语映射到知识图中的非原子结构。例如,“叔叔”是指谓词路径(见表4)。在RDF Q / A系统中,我们应该消除“短语链接的不明确性”。
组成。组合的任务是通过组装识别的短语来构造相应的查询或查询图。在运行的例子中,我们知道谓语lang;导演rang; 是连接主体lang;电影rang;和客体lang;PaulW.S.Andersonrang;;因此,我们生成三元组,导演lang;?film, director, Paul W. S. Andersonrang;。然而,在某些情况下,很难确定给定谓词的正确主语和宾语,或者对于给定问句可能存在多种可能的查询图结构。我们称之为“查询图结构的模糊性”。
在本文中,我们着重讨论如何解决这两个挑战。 与现有解决方案试图解决问题理解阶段的歧义问题不同,我们建议将消除歧义(用于词组链接和查询图构造)和查询评估结合在一起。 具体来说,我们解决了查询匹配时自然语言问题的模糊性。 如果找不到匹配,则会保存消除歧义的成本。 我们称之为RDF Q / A的图数据驱动方法。 我们通过一个例子来说明我们方法的直观性。
图1.通过RDF数据集回答问题
例1考虑图1(a)中的图G的子图由顶点u1,u2,u3和c1组成的子图)。边 代表“生化危机:惩罚是一部电影”。 边表示:“生化危机:惩罚的预算是65百万美元。 边 表示“保罗.安德森导演了电影生化危机:惩罚”。自然语言问题N1是“保罗 . 安德森-导演的电影的预算是多少”。显然,由边, 组成的子图是N1的匹配项。 “6.5E7”是一个正确的答案。另一方面,我们找不到包含“保罗·安德森(演员)”的G匹配(N1),即保罗·安德森(N1)中的短语不能映射到“保罗·安德森(演员)”。因此,当找到匹配时,我们解决短语链接的歧义问题。我们也可以根据相同的想法来解决查询图结构的歧义。更多细节将在第5节讨论。
上面的例子说明了我们图形数据驱动方法的直观性。 我们方法的一个基本问题是如何定义G的子图与自然语言问题N之间的“匹配”。由于N是非结构化数据,G是图结构数据,所以我们应该填充它们之间的差距。 因此,我们提出了一个语义查询图(在定义1中定义)来表示N的问题语义。 图1(c)给出了的一个例子,它代表了问题N的语义。回答自然语言问题等于找到在基础RDF图G上的匹配。为了构建,我们提出了两个不同的框架:关系 (边)优先和节点优先。
1.2我们的方法
虽然我们的方法中仍然存在两个阶段“问题理解”和“查询评估”,但我们并不像现有解决方案那样在问题理解步骤中生成SPARQL。 正如我们所知,SPARQL查询也可以表示为查询图,它不包含任何歧义。 相反,我们的方法构建了一个表示用户查询意图的查询图,但它允许在问题理解阶段存在歧义,例如短语链接和查询图结构的模糊性。 我们解决了在查询评估中找到匹配项时的不明确性。
在第一个框架中,我们首先基于问题句子的句法分析树提取语义关系来构建语义查询图。 一个语义关系是一组三元组lang;rel,arg1,arg2rang;,其中rel是关系短语,arg1和arg2是其关联的节点短语。 例如,“由...指挥”,“电影”,“保罗·安德森”是一种语义关系。 在中,如果两个对应关系共享一个公共节点短语,则两条边共享一个公共端点。 中的每个节点(实体/类别提示)和边(关系提示)可能有多个候选。 当找到的匹配(见定义2)时,第一个框架解决了短语链接的模糊性问题。 请注意,第一个框架没有解决查询图结构的不明确性,并假定查询图可以在问题理解步骤中唯一固定。
第二个框架采取另一个角度。当N中存在一些隐含或不确定的关系时,关系优先框架常常不能提取这种关系。因此,第二个框架从提取问题句子N中的节点开始,并连接这些节点以形成查询图。此外,与关系优先框架不同,节点优先框架在开始时允许查询图结构的模糊性。它不打算在问题理解步骤中构建。相反,它会建立一个包含不确定边缘的超级图形。为了在底层RDF图G上匹配,我们允许中的一些边不匹配,即模糊匹配(定义5)。当找到模糊匹配时,我们解决短语链接和查询图结构的歧义。实际上,近似匹配位置(在RDF图G中)定义了我们打算构建的语义查询图。换句话说,我们将结构的模糊性降低到查询评估阶段。
表1 符号
|
符号 |
描述和定义 |
|
G(V,E) |
RDF图和顶点和边集 |
|
N |
一个自然语言问题 |
|
Q |
SPARQL查询(N个) |
|
语义查询图(N个) |
|
|
超级语义查询图(N个) |
|
|
Y |
依赖关系树(N个) |
|
/ |
实体/关系字典 |
|
/ |
查询图/ RDF图中的顶点 |
|
/ |
顶点vi /边的候选映射 |
简而言之,我们做出以下贡献。
1)我们提出了两种RDF Q / A任务的图形数据驱动框架,与现有的解决方案不同,消除歧义和查询评估结合在一起。在第一个框架中,我们解决了查询评估中短语链接的歧义问题;而在第二个框架中,短语链接和查询图结构的模糊性都解决了。图数据驱动框架不仅提高了精度,而且大大加快了查询处理时间。
2)在离线处理中,我们提出了一种图挖掘算法来构建一个关系字典,即将自然语言短语映射到可能的谓词,用于RDF Q / A中的问题理解。
3)在线处理中,为了加快查询评估,我们提出了在RDF图上匹配和的高效top-k(近似)图匹配算法。
4)我们对几个真正的RDF数据集(包括QALD基准和WebQuestions基准)进行了广泛的实验,并将我们的系统与一些最先进的系统进行比较。我们的方法表现在QALD基准测试中击败了其他系统,同时接近WebQuestions基准测试的最佳水平。
2概述
本文的问题是通过RDF图G找到自然语言问题N的答案。表1列出了贯穿本文的符号。
RDF Q / A问题中有两个关键问题。 第一个问题是如何以结构化的方式来表达自然语言问题N的查询意图。 第二个问题是如何解决自然语言N的歧义问题。本文中,我们关注第1.1节中提到的短语链接和查询图结构(组合)的歧义。
2.1语义查询图
我们定义了一个语义查询图(定义1)以图结构化的方式表示问题N的查询意图。
定义1(语义查询图)。 语义查询图(表示为)是一个图,其中每个顶点vi与问题句子N中的实体短语,类短语或通配符相关联; 并且每个边与问句N中的关系短语关联,1le;i,jle;| V()|。
给定问题句N1,相应的语义查询图在图2(b)中给出。在中,节点v1,v2和v3分别与“什么”(通配符),“电影”(类别短语)和“Paul Anderson”(实体短语)相关联。关系短语“(be)budget of”表示v1和v2之间的关系,以及v2和v3之间的关系短语“由...导演”。
正如引言中提到的,我们希望找到语义查询图在RDF图G上的“匹配”。当找到匹配时,我们解决自然语言问题句子的歧义性;同时我们找到了问题的答案。通常,“匹配”是基于子图同构定义的。给定语义查询图中的节点vi,如果vi是一个实体短语或类短语,我们可以使用实体链接算法[5]来检索所有可能对应于vi的实体/类(在RDF图G中),标记为C(vi);如果vi是一个通配符(如wh-word),我们假设C(vi)包含RDF图G中的所有顶点。同样,中的每个边也映射到候选预测列表,表示为。考虑图2(b)中的语义查询图。我们还可以看到图2(c)中中每个顶点和边的候选。例如,v3(“Paul Anderson”)对应于“保罗·安德森(演员)”,“保罗·安德森”和“保罗·W·安德森”。和边缘“v2v3”映射到lang;directorrang;,lang;writerrang;和lang;producerrang;。形式上,我们定义如下匹配。
定义2(匹配)考虑具有n个节点{v1,...,vn}的语义查询图。 每个节点vi都有一个候选列表Cvi,i = 1,...,n。 每个边也有一个候选列表,其中1le;i jle;n。 在RDF图G中包含n个顶点{u1,...,un}的子图M是的匹配当且仅当以下条件成立时:
1)如果vi映射到一个实体ui,i = 1,...,n,则ui必须在列表Cvi中;
2)如果vi映射到一个类ci,i = 1,...,n,则ui是一个实体
其类型为ci(即,在RDF图中存在三元组lang;ui rdf:type cirang;并且ci必须在中;
3)forall;isin; isin;isin;.此外,与或)有关的谓词在中,1le;i,jle;n。
让我们看图2.由顶点c1,u1,u2和u3(在RDF图G中)包含的子图表示图2(b)中的语义查询图的匹配。当找到匹配的时候,我们解决模糊问题,例如,“保罗安德森”应该指的是“保罗 W.S·安德森”而不是其他人,同时我们找到了问题的答案,即“6.5E7”是电影预算。
我们的图数据驱动解决方案的核心在于两个方面:一个是如何精确构建语义查询图,另一个是如何有效地找到匹配。为了解决上述问题,我们提出了两个不同的框架。第一个被称为“关系(边)优先”。这意味着我们总是从自然语言问句N中提取关系,并将它们表示为边。然后,我们组装这些边形成一个语义查询图。第二个框架采用了另一个角度,称为“节点优先”。它从查找节点(实体/类短语和通配符)开始,尝试引入边来连接它们以形成语义查询图。此外,两个框架之间的另一个主要区别是,当问题句子中存在一些隐含或不确定的关系时,节点优先框架定义了的超级图(称为)。换句话说,节点优先框架并不是像关系优
全文共30072字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[11016],资料为PDF文档或Word文档,PDF文档可免费转换为Word
