LETOR:对服务于信息检索的排序学习的基准收集研究外文翻译资料

 2022-07-14 04:07

英语原文共 29 页,剩余内容已隐藏,支付完成后下载完整资料


LETOR:对服务于信息检索的排序学习的基准收集研究

陶琴·刘铁燕·徐军·李航

收到:日期/接受:日期

摘要

LETOR是微软亚洲研究院发布的用于信息检索学习排序研究的基准集合。在本文中,我们描述LETOR集合的细节,并展示它如何用于不同类型的研究。具体而言,我们描述了如何选择LETOR中的文档语料库和查询集,如何抽取文档,如何提取学习特征和元信息,以及如何对数据集进行分区以进行全面评估。然后,我们比较几种最先进的学习方法,在LETOR上排列算法,报告他们的排序表现,并对结果进行讨论。之后,我们将讨论可能由LETOR支持的新研究课题。除了算法比较。我们希望这篇论文能够帮助人们更深入地了解LETOR,并且使排序学习和相关主题更多有趣的研究项目成为可能。

关键词:排序学习、信息检索、基准数据集、特征提取。

1简介

排序是许多信息检索(IR)应用的核心问题。 这些包括文档检索[5],协作过滤[16],关键词提取[9],定义发现[46],重要邮件路由[8],情感分析[29],产品评级[12][15]。 在排序的任务中,给定一组对象,我们利用排序模型(函数)来创建对象的排序列表。列表中对象的相对顺序可以表示它们的相关程度,偏好或重要性,具体取决于应用程序。在上述申请中,文件检索无论如何都是最重要的,因此我们将在本文中进行讨论时以此为例。

学习排序,在应用于文档检索时,是一项如下任务。 假设有一个文件语料库。 在培训中,提供了一些查询; 每个查询与一组具有相关性判断的文档相关联; 然后使用训练数据创建排序函数,使得该模型可以精确地预测训练数据中的排序列表。 在检索(即测试)中,给定新的查询,排序功能被用来为与查询相关联的文档创建排序列表。由于排序技术的学习可以成功地利用多个特征进行排序,并且可以自动学习结合这些特征的最佳方式,所以近年来它越来越受到关注。已经提出许多排序学习方法,并将其应用于不同的信息检索应用。

为了促进学习排序研究,我们迫切需要一个实验平台,其中包含索引文档语料库,选定的训练和测试查询,为每个文档提取的特征向量,基础算法的实现以及标准的易失性工具。但是,没有这样的环境,很大程度上阻碍了相关研究的发展。研究人员必须使用他们自己的数据集(即不同的文档语料库,不同的查询集,不同的特征和/或不同的评估工具),因此不可能在不同的方法之间进行有意义的比较。这与其他几个领域形成了鲜明的对比,其中研究由于基准集合的可用性而显着增强,例如用于文本分类的Reuters 21578(注释1)和RCV1 [23]以及用于一般分类的UCI [1]。为了加速排序学习的研究,我们决定建立基准收集LETOR。然而,这样一个集合的构建并不容易,因为它需要丰富的领域知识和大量工程上的努力。在这里我们感谢许多人的贡献,以至于我们能够发布LETOR并多次升级它。

LETOR是基于多个数据语料库和查询集而构建的,已在信息检索中广泛使用。根据仔细设计的策略对语料库中的文档进行采样,然后为每个查询 - 文档对提取特征和元数据。其他信息包括超链接图,相似关系和网站地图也包括在内。数据被分为五个交叉验证,并提供标准的评估工具。此外,还提供了几种最先进的排序方法的排序表现,这些排序方法可以作为新开发方法的基础。

LETOR自发布以来已广泛用于研究领域。 LETOR的第一个版本于2007年4月发布,并在SIGIR 2007研讨会上用于信息检索排序(http://research.microsoft.com/users/LR4IR-2007/)。在2007年底,第二个版本的LETOR发布了,后来在SIGIR 2008学习研讨会上用于IR的排序(http://research.microsoft.com/users/LR4IR-2008/)。根据我们收集的宝贵意见和建议,第三版(注释2)LETOR于2008年12月发布。本文的重点是第三版LETOR 3.0。

LETOR对研究界的贡献在于以下几个方面。

(1)简化了排序算法的开发。研究人员可以专注于算法开发,并且不需要担心实验设置(例如,创建数据集和提取特征)。从这个意义上说,LETOR极大地减少了排序学习研究的障碍。

(2)它使得比较不同的排序算法成为可能。 LETOR中的标准文档语料库,查询集,特征和分区使研究人员能够进行比较实验。在LETOR中加入基础也大大节省了研究人员的实验工作。

(3)为排序学习提供了新的研究课题。除了算法比较之外,LETOR还可用于研究排序模型构建,特征创建,特征选择,依赖排序以及转移/多任务排序等问题。

本文的其余部分组织如下。我们在第2节中介绍排序学习的信息检索问题。第3节给出了关于LETOR的详细描述。第4部分报告了几种最先进的学习在LETOR上排序算法的性能。然后,我们将展示LETOR如何用于研究第5节中算法比较之外的其他研究课题。最后,第6节讨论LETOR的局限性,第7节给出结束语。

2 信息检索中的排序学习

有两种主要方法可以解决信息检索中的排序问题:学习排序方法和传统的非学习方法,如BM25 [38]和语言模型[51]。

这两种方法的主要区别在于前者可以使用训练数据自动排序学习函数的参数,而后者通常会启发式地确定参数。如果排序模型只有几个参数,则启发式调整是可能的。但是,如果参数很多,则会变得非常困难。随着越来越多的证据被证明对排序有用,传统的非学习方法在有效使用这些证据方面将面临挑战。

相比之下,排序学习方法可以很好地利用多种证据。因此,在机器学习和信息检索学术界中排序学习已经引起广泛的关注,并且近来已经提出了许多学习排序算法。粗略地说,主要有三种算法,即逐点法[25,24],成对法[17,13,4,42,36,26]和列表法[6,35,45, 20,47,40,50,33,34,43,31。

逐点方法将单个文档作为其学习输入,并基于单个文档定义其损失函数。根据排序函数的不同输出空间,逐点方法可以进一步分为基于回归的算法[25],基于分类的算法[25]和基于序列回归的算法[24]。

成对方法将文档对作为学习的实例,并将学习问题形式化为成对分类的问题。具体而言,在学习中,它从训练数据中收集或生成文档对,每个文档对分配有表示两个文档的相对顺序的标签。然后使用分类技术来训练排序模型。支持向量机(SVM),Boosting和神经网络作为分类模型的使用导致了排序SVM [17],RankBoost [13]和RankNet [4]的方法。还提出了许多其他算法,如FRank [42],多个超平面排序器[36]和嵌套排序器[26]。

列表方法将文档列表作为学习中的实例,并在此基础上定义丢失函数。代表性的工作包括ListNet [6],RankCosine [35],关系排序[34],全球排序[33]和StructRank [20]。列表方法的子分支通常被称为IR测量的直接优化。例子算法包括AdaRank [47],SoftRank [40],SVM-MAP [50],PermuRank [48],ApproxRank [31]和BoltzRank [43]。

3创建LETOR集合

在本节中,我们将介绍创建LETOR集合的过程,包括四个主要步骤:选择文档语料库(连同查询集),抽样文档,提取学习特征和元信息,以及完成数据集。

3.1选择文档语料库

在LETOR集合中,我们选择了两个文档语料库:“Gov”语料库和OHUMED语料库。 选择这两个语料库是因为(1)它们是公开可用的[44];(2)它们已被以前在IR中的排序[5,11,10,38]中的排序所广泛使用。

3.1.1“Gov”语料库和六个查询集

在2003年和2004年的TREC中,基于网络的信息检索中有一个特殊的轨道,称为网络轨道[11,10]。这些曲目使用了“Gov”语料库,该语料库基于2002年1月对“Gov”域的抓取。这个语料库中大约有一百万个html文档。

Web轨道中定义了三项搜索任务:主题提炼(TD),主页查找(HP)和指定页面查找(NP)。主题精选旨在找到主要针对该主题的优秀网站的入口点列表。重点是返回优质网站页面,而不是包含相关信息的网页,因为入口页面提供了更好的网站概览。主页查找目标返回查询的主页。命名页面查找是关于查找名称与查询完全相同的页面。原则上,网页查找和命名页面查找只有一个答案。许多论文[36,47,32,49]已经以“Gov”语料库的三项任务为评估基础发布。

以下例子说明了这三个任务之间的差异[41]。考虑USGS,这是美国地质调查局的缩写。

表1 TREC网络跟踪中的查询数量:

任务

TREC2003

TREC2004

主题提取

50

75

网页查询

150

75

指定页面查找

150

75

对于主题提取,查询意味着“为我找到描述美国地质调查局的网站的主页”。 可能的答案包括http://www.usgs.gov,http://water.usgs.gov,http://geography.usgs.gov,http://earthquake.usgs.gov。

对于网页查询,查询意味着“为我查找USGS主页的URL(http://www.usgs.gov)。 我忘了或不知道该URL,或Iprefer输入“usgs”输入完整的URL“。 正确的答案正是http://www.usgs.gov。

对于指定页面查找,查询可能意味着找到非主页的网址。 搜索http://www.usgs.gov/aboutusgs.html查询#39;介绍给usgs#39;。 该查询是所讨论的页面的名称(而不是例如描述其主题的单词)。

表中显示了这三个任务中查询的数量。 为了简单起见,我们在以下部分中使用首字母缩略词:在TREC2003中设置主题提取查询的TD2003,在TREC2004中设置主题提取查询的TD2004,在TREC2003中设置命名页面查找集的NP2003,在TREC2004中命名页查找集的NP2004 ,TR2003中用于寻找网页查询的HP2003,以及TREC2004中用于寻找网页查询的HP2004。

3.1.2 OHSUMED语料库

OHSUMED语料库[18]是医学出版物数据库MEDLINE的子集。 它包含了1987-1991年期间来自270种医学期刊的约30万条记录(超过700万条记录)。 记录的字段包括标题,摘要,主题词索引术语,作者,来源和出版物类型。

在OHSUMED语料库上设有106个查询的查询已被广泛用于以前的工作[36,47],其中每个查询描述医疗搜索需求(与患者信息和主题信息相关联)。 文件对查询的相关程度由人类注释者在三个层面上进行判断:明确相关,部分相关,无关紧要。 总共有16,140个查询 - 文档对与相关性判断。

3.2抽样文件

由于语料库的规模较大,因此判断所有文档与给定查询的相关性是不可行的。作为投资者关系管理的惯例,在给出查询的情况下,只选择一些“可能”相关文件进行判断。由于类似的原因,不需要从语料库中的所有文档中提取特征向量。合理的方法是对一些“可能”相关的文档进行采样,然后从相应的查询 - 文档对中提取特征向量。在本节中,我们将介绍在LETOR建设中使用的抽样策略。

对于“Gov”语料库,在给出查询的情况下,由TREC委员会组织的注释者标注了一些相关文档。对于剩余的无标签文件,TREC委员会将其视为与评估过程无关[11]。按照这种做法,在LETOR中,我们还将查询的未标记文档视为无关紧要。具体来说,按照[30]和[27]的建议,我们按照以下方式进行了文档抽样。我们首先使用BM25模型针对每个查询对所有文档进行排序,然后为每个查询选择前1000个文档进行特征提取。请注意,对于一些罕见的查询,可以检索少于1000个文档。因此,有些查询在LETOR中的关联文档少于1000个。

与“Gov”语料库不同,在这种语句中,将不合格文件视为无关,在OHSUMED中,判断明确包含“不相关”类别,评估中忽略了未判断文件[18]。按照这种做法,我们只对取样的判断文件进行抽样,忽略未判断的文件。因此,平均而言,查询有大约152个与提取相关的文档。

3.3提取学习功能

在信息检索中,给出一个查询,我们想根据它们对查询的相关性和重要性对一组文档进行排序。 在排序学习时,每个查询 - 文档对由多维特征向量表示,并且向量的每个维度是指示文档与查询相关或重要程度如何的特征。 例如,向量的第一个元素可以是文档关于查询的BM25得分; 第二个要素可能是出现在文件中的查询词的频率; 第三个可能是文档的PageRank比例。 在本节中,我们将介绍如何提取LETOR中的特征。

以下原则用于LETOR的特征提取过程。

(1)尽可能多地覆盖信息检索中的经典特征。

(2)尽可能复制最近SIGIR论文中提出的许多特征,这些特征用于OHSUMED语料库或“Gov”语料库的实验。

(3)符合原始文件或文件中的设置。如果作者建议对某个特征进行参数调整,则还

全文共27464字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[9496],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。