信息与通信技术智能问答系统外文翻译资料

 2022-08-09 09:08

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


信息与通信技术智能问答系统

毛里求斯大学计算机科学与工程系的

Sameerchand Pudaruth, Kajal Boodhoo和Lushika Goolbudun

摘要:

由于问答系统能够提供简短、精确和指定的问题答案,因此对于它的需求日益增长。从互联网不相关文件中会获取大量冗余资料,促进一种供中学生使用的信息技术(IT)问答系统的产生。开发这样一个系统的主要目的是让学生不必搜索成千上万的文档或网站,并且在短时间内获得关于IT学科的简明又相关的信息。因此,一个允许使用者提出问题,系统显示最相关的答案的交互平台应运而生。使用文本挖掘技术在web上选择包含IT问题答案的文档,并用这些文档构成结构化的知识库。利用已有的算法从问题和答案中提取基本内容,并与知识库内容进行匹配比较,最后显示最相关的答案。

关键词:智能问答;自然语言处理;信息检索;查询增强;

I.引言:

在现代,信息是最关键的资源之一,找到精确、正确的信息被认为是一个福音。由于网站和信息资源的多样性,在短时间内找到合适的信息变得越来越困难。这就要求建立一个简短、恰当、定义良好的答疑系统。

自动问答系统( AQAS )是一个平台,它允许用户输入自己的问题,并利用信息检索技术和自然语言处理技术进行计算并向用户提供最佳答案[10][12]。这个系统应该给用户他正在与机器交谈的印象,为了使这个问题成为可能应该用自然语言提出问题。

这是专为希望获得更多电脑知识的中学生而设的自动问答系统。为了向学生提供一个完美的结果,围绕IT世界建立了一个由数据池组成的知识库。例如,如果一个学生输入问题“谁发明了第一台笔记本电脑”,结果会非常简单和简洁,不像常见的搜索引擎,它会显示一长串指向所需信息的链接。因此,这个自动答疑系统的目的是为学生提供快速检索计算机领域的相关信息,以及帮助他们更好地理解他们的学校手册,增加他们在IT领域的知识。

论文的其余部分结构如下。第二节介绍了问答系统的概况。第三节让我们了解了以往有关的智能问答和他们面对不同类型的问题的表现。第四节主要介绍了问答系统的构建,包括系统如何处理用户输入的问题以输出答案、知识库的创建以及构建系统的步骤。第五节对不同的工具及其局限性进行了说明,第六节对本文进行了总结。

II.问答系统:

问答系统是一种计算机程序,被用来回答用户提出的问题。它通过查询结构化的信息数据库又称知识库,来做到这一点。为了返回最佳可能的答案,系统可能会结合从本地数据库获取的信息和从web获取的文档来制定结果[ 1 ]。问答正快速发展成为基于信息检索、信息提取和自然语言处理(NLP)[2][14]的基础研究领域。一个AQAS由问题处理、文档处理和答案抽取[3][13][17]三个重要阶段组成。

图1 问答系统概述

问题处理旨在理解在自然语言中提出的问题[3]。它是负责处理来自用户的请求的检索引擎[4]。文档检索对自然语言问题进行查询,信息检索引擎根据问题从知识库或通过web页面搜索包含可能答案的文档[3][4]。答案提取利用多种NLP技术来获得正确答案,例如准备一组候选答案,计算它们的权重,并对答案进行排序[2][5]。

III.相关工作:

通过一个简单和一个复杂的问题对现有的一些问答系统进行了评估,其结果总结如下:

表1 不同系统回答简单问题的方式

简单问题:毛里求斯在哪里?它的首都是哪里?

AnswerBus [6]

我们得到了几个链接,其中只包含问题的第一部分的答案。

START [11]

回答了问题的第二部分,但是没有回答第一部分。

Ask.com [7][8]

搜索引擎Ask.com在第一个答案中就完美地回答了这两个问题

MySearch.com [9]

输出与这两个问题相关的几个链接。

表2 不同系统回答复杂问题的方式

复杂的问题:第一次世界大战是何时发生的,哪些国家参与了战争,战争持续了多少天?

AnswerBus [6]

回答一般都是关于世界大战的

START [11]

找不到答案

Ask.com [7][8]

能够找到这个问题的完整答案。

MySearch.com [9]

显示了来自其他网站的相关链接。

AnswerBus接受任何语言的问题,如果输入的问题不是英语,那么它使用BabelFish工具将问题翻译成英语。在选择3个搜索引擎来获取信息并对用户输入问题进行建模之后查询,它将连接到门户并获取相关文档。然后AnswerBus选择相关的句子来形成用户所提出问题的答案。最后,AnswerBus根据相关顺序显示句子及其链接[6]。

表3 AQAS的优点和局限性

优点

局限性

AnswerBus

用户可以自由地用他们喜欢的语言输入问题。

返回句子作为答案。

AnswerBus根据在问题中找到的关键字返回答案。

Ask.com

Ask.com允许输入关键字作为问题。

Ask.com可以正确回答简单的问题

询问工具栏在浏览器上看起来像一个额外的功能。Ask.com无法找到一个复杂问题的完整答案。

START

START可以处理任何类型的输入(文本、图片甚至视频)。

START对于简单的问题非常有效,但是对于复杂的问题,它会返回“我不知道答案”

IV.构建一个信息技术的自动问答系统

  1. 查询逻辑

开始

读取问题

将问题转换为小写

关键词=问题-停顿词

运行 RitaWordNet 寻找动词-gt;动词转喻

关键词=关键词 动词转喻

运行RitaWordNet 寻找名词-gt;关键名词

如果(问题包含lsquo;谁rsquo;或者lsquo;何时rsquo;或lsquo;哪里rsquo;)

输出=搜寻“name.txt”或者“date.txt”或“location.txt”

如果(输出是空的)

输出=搜索所有文件

结束如果

打印输出

其他

输出=搜索所有文件

如果(输出文件大于一个)

检验哪个文件关键名词出现频率更高

从相关度更高(频率更高)的文件输出答案

结束如果

结束如果

结束

图2 查询逻辑

  1. 构建知识库的步骤

开始

进入URL

如果(URL是有效的)

输入要保存的文件名

从URL提取文件并进行保存

如果(文件与计算机相关)

保存在数据库

结束如果

结束如果

结束

图3构建知识库的步骤

  1. QA系统的步骤

从web检索文本是获取构建知识库所需信息的第一步。系统将验证输入的URL是否有效,并将所有提取的内容保存在文本文件中。对文本文件进行分类,分别对计算机相关文件和非计算机相关文件进行分组。这是通过计算每个文本文件中的单词总数并检查每个单词是否属于计算机术语来实现的。在每个文本文件中生成计算机术语的总数,如果这个总数大于或等于一个阈值,则将该文件保存在知识库中,作为与计算机相关的文件进行进一步处理。

在识别相关文档之后,使用StanfordNLP自然语言处理工具[21]提取重要的实体,例如名称、日期和位置,然后将它们保存在三个不同的文件中。大多数疑问句都包含一个疑问句后面跟一个疑问句。我们的分类器识别了四种类型的问题:基于“谁”、“何时”、“何处”的问题,以及任何其他问题,如包含单词“什么”、“描述”、“名称”或“解释”的问题,并根据这些特殊的单词对这些问题进行分类。这样做是为了最大化搜索性能和输出一个精确的答案。

在识别相关文档之后,使用StanfordNLP自然语言处理工具提取重要的实体[21],例如名称、日期和位置,然后将它们保存在三个不同的文件中。大多数疑问句都包含一个疑问词后面跟其他的词。我们的分类器识别了四种类型的问题:基于“谁”、“何时”、“何处”的问题,以及任何其他问题,如包含单词“什么”、“描述”、“名称”或“解释”的问题,并根据这些特殊的单词对这些问题进行分类。这样做是为了使搜索性能最大化和输出一个精确的答案。

查询公式函数将查询转换为小写形式,将其分解为单个单词并删除常用单词[15][18]。从关键字集合中,WordNet[19]用于识别名词和动词。名词是获得正确答案所需的主要对象,通过把动词同义词添加到关键字列表中,增强搜索过程[14][15]。WordNet是一个基于英语的字典,它用于为查询提供额外的语义[19]。它有助于识别动词和名词的同义词。然而,在这项工作中,因为名词的同义词往往会破坏结果。所以没有被使用,

如果问题中包含“谁”、“何时”或“何处”等词,则应搜索该关键字集和分别包含该名词,名称、日期和位置的文件。如果在问题中没有找到这些疑问词,那么所有的文件都会被搜索。在匹配查询检索到的所有答案中,应将最相关的答案返回给用户。但是怎样才能得到最好的答案呢?将根据名词在其中出现的频率对包含答案的文档进行排序,并且考虑把此文档中包含大部分关键词的句子做为最相关的答案。

V.评估

因为处理一个包含“who”、“where”、“when”等疑问词的查询平均需要0.121秒,自动答疑系统的性能非常好。但是,如果知识库丰富,搜索时间会增加。在开发这个系统的过程中,OpenNLP工具[20]被用来识别名字,但是这个工具只能识别英语和法语的名字,而不能识别亚洲人的名字。之后使用StanfordNLP表现良好。它能更准确地确定人名、地点和日期。

为了获得特定文档中每个标记的频率,我们必须找到每个单词的根,然后将其与字典中的单词进行比较。“雪球茎杆”用于此目的[16]。注意到这种茎不适合在所有情况下工作,而且它并没有始终给出正确的频率。例如,如果一个文档包含单词“virus”,并且它必须与单词“virus”再次匹配,那么“雪球茎杆”将“virus”转换为“viru”。解决这个问题的办法是创建我们自己的并且由保存为单数和复数形式的计算机术语组成词干列表。

VI. 结论

这个系统是为中学生设计的,目的是回答任何与之相关的问题。此AQAS不仅返回它在知识库中找到的所有答案,而且还向用户显示最佳和最相关的答案。大约将300个文本文件存储在一个目录中充当系统的知识库。每个文本文件只包含一个主题。我们的知识库还包含特定内容的文本文件,例如,文本文件包含人名的所有句子。同样,还有用于日期和位置的文本文件。当用户输入一个问题时,系统会处理该问题,并进入相关文件寻找答案。系统从不同的文件中检索答案,然后进行比较,最后选择最相关的答案输出给用户。该系统的性能与预期一致,但将来可能被改进,因为它将进一步减少返回答案所需的时间。语音识别和语音合成功能可以帮助残疾学生使用这个系统。此外,还可以通过添加更多的文件来增强系统的知识库,这一过程也可以自动化。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239887],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。