应用关联检索技术缓解协同过滤中的稀疏性问题外文翻译资料

 2021-12-20 09:12

英语原文共 28 页

应用关联检索技术缓解协同过滤中的稀疏性问题

ZAN HUANG,CHINCHINCHUN CHEN和DANIEL ZENG亚利桑那大学

推荐系统正在许多应用程序设置中广泛应用,以向潜在消费者推荐产品,服务和信息项。 协作过滤是最成功的推荐方法,它基于过去的交易和来自共享相似兴趣的消费者的反馈来提出建议。 限制协同过滤有用性的主要问题是稀疏性问题,其涉及交易或反馈数据稀疏且不足以识别消费者利益的相似性的情况。 在本文中,我们通过应用关联检索框架和相关的传播激活算法来探讨这种稀疏性问题,以通过过去的交易和反馈来探索消费者之间的传递关联。 这种传递性关联是帮助推断消费者利益的有价值的信息来源,可以用来处理稀疏性问题。 为了评估我们方法的有效性,我们使用在线书店的数据集进行了实验研究。 我们尝试了三种扩散激活算法,包括约束Leaky电容算法,分支定界串行符号搜索算法和Hopfield网络并行松弛搜索算法。 将这些算法与几种不考虑传递关联的协同过滤方法进行了比较:简单的图搜索方法,基于用户的方法的两种变体,以及基于项的方法。 我们的实验结果表明,传播基于激活的方法显着优于其他协同过滤方法,如推荐精度,召回率,F度量和排名得分所测量的。 我们还观察到扩展激活方法的过激活效应,即,将过渡性关联与过去非稀疏的事务数据相结合可能“稀释”用于推断用户偏好的数据并导致推荐性能下降。

该研究得到以下资助的部分支持:NSF数字图书馆计划-II,“高性能数字图书馆系统:从信息检索到知识管理”,IIS-9817473,1999年4月 - 2002年3月,以及NSF信息技术研究,“开发协作信息和知识管理基础设施”,IIS-0114011,2001年9月 - 2004年8月.D。Zeng还隶属于中国科学院复杂系统与情报科学重点实验室,北京,部分得到CAS开放研究项目(ORP-0303)的资助。

作者的地址:亚利桑那大学管理信息系,室

430,McClelland Hall,1130 East Helen Street,Tucson,AZ 85721,电子邮件: { zhuang,hchen,zeng } @ eller.arizona.edu。

为个人或教室使用部分或全部作品的数字或硬拷贝的许可是免费授予的,前提是副本不是为了营利或直接的商业利益而制作或分发的,并且副本在第一页或初始屏幕上显示此通知显示以及完整的引文。 必须尊重除ACM之外的其他人拥有的此项工作的组件的版权。 允许使用信用抽象。 要复制,重新发布,在服务器上发布,重新分发到列表,或在其他作品中使用此作品的任何组件,需要事先获得特定许可和/或费用。 可以从Publications Dept.,ACM,Inc.,1515 Broadway,New York,NY 10036 USA,传真: 1(212)869-0481,或permissions@acm.org申请许可。

C 2004 ACM 1046-8188 / 04 / 0100-0116 $ 5.00

ACM Information on Information Systems,Vol。 2004年1月22日第1期,第116-142页。

稀疏问题的关联检索技术 bull; 117

类别和主题描述:H.1.2 [ 模型和原则 ]:用户/机器系统 -

人类信息处理 ; H.3.3 [ 信息存储和检索 ]:信息搜索 和检索 - 信息过滤; 相关反馈; 检索模型

一般术语:算法,设计,实验

附加关键词和短语:推荐系统,协同过滤,稀疏问题,关联检索,传播激活

1.引言

作为社交流程的推荐在许多消费者应用中起着重要作用,因为每个消费者独立地了解所有可能的替代品是非常昂贵的。 取决于特定应用设置,消费者可以是购买者(例如,在线购物中),信息搜索者(例如,在信息检索中)或搜索某些专业知识的组织。 此外,作为个性化营销机制的推荐最近吸引了重要的行业兴趣(例如,在线购物和广告)。

已经开发了推荐系统以自动化推荐过程。 推荐系统的研究原型的例子是: PHOAKS [Terveen et al。 1997年, Syskills和Webert [Pazzani和Billsus 1997], Fab [Balabanovic和Shoham 1997]和 GroupLens [Konstan et al。 1997; Sarwar等人。 1998]。 这些系统向潜在的相关方推荐各种类型的Web资源,在线新闻,电影等。 推荐系统的大规模商业应用可以在许多电子商务站点找到,例如 亚马逊CDNowDrugstoreMovieFinder 。 这些商业系统根据之前的交易和反馈向潜在消费者推荐产品。 他们正在成为标准电子商务技术的一部分,通过将浏览器转换为买家,增加交叉销售和建立客户忠诚度来增强电子商务销售[Schafer et al。 2001]。

最常用和最成功的推荐方法之一是协同过滤方法。 [希尔等人。 1995; Resnick等人。 1994; Shardanand和Maes 1995]。 当预测给定消费者的潜在兴趣时,这种方法首先基于过去的交易和产品反馈信息识别一组类似的消费者,然后基于观察到的这些类似消费者的行为进行预测。 尽管其广泛采用,但协同过滤受到几个主要限制,包括稀疏性,系统可扩展性和同义性[Sarwar等人。 2000A。

在本文中,我们关注稀疏性问题,该问题指的是缺乏先前的事务和反馈数据,这使得预测哪些消费者与给定消费者相似是困难和不可靠的。 例如,在线书店使用的推荐系统使用过去的购买历史来对消费者进行分组,然后基于同一组中的其他消费者已经购买的内容向个体消费者提出推荐。 但是,当此类系统只能访问少量过去的交易记录(相对于书籍和消费者的总数)时,

ACM Information on Information Systems,Vol。 2004年1月22日第1号。

118 bull; Z. Huang等。

确定哪些消费者彼此相似以及他们的兴趣是什么变得根本困难。

本文介绍了一种处理协同过滤背景下的稀疏性问题的新方法。 在我们的方法中,协作过滤在二分图中进行了研究。 一组节点表示潜在消费的产品,服务和信息项。 另一组代表消费者或用户。 事务和反馈被建模为连接这两个集之间的节点的链接。 在这个基于图的框架下,我们应用关联检索技术,包括几个扩展激活算法,以显式生成传递关联,而这些关联又用于协同过滤。 最初的实验结果表明,当稀疏性成为一个问题时,这种基于关联检索的方法可以显着提高协同过滤系统的有效性。

在本文的其余部分安排如下。 第2节调查了有关协同过滤的现有工作,并详细讨论了稀疏性问题。 第3节总结了我们基于关联检索的处理稀疏性问题的方法。 3.1节介绍了协同检索和相关的基于图形的协同过滤模型。 3.2节详细介绍了我们提出的基于关联检索的协同过滤方法的总体设计。 3.3节介绍了扩散激活算法,它提供了用于探索我们框架下的转换关联的计算机制。 我们要解决的具体研究问题在3.4节中进行了总结。 第4节提供了我们研究中检查的扩散激活算法的细节。 第5节介绍了一项实验研究,旨在回答第3.4节中提出的关于我们方法有效性的研究问题,并总结了实验结果。 我们总结了我们的研究成果并指出了未来的方向,在第6节中总结了这篇文章。

2.协作过滤和稀缺问题

在本节中,我们简要地调查了先前关于协同过滤的研究和系统开发,并介绍了稀疏性问题,该问题被认为是阻碍协作过滤系统进一步发展和采用的主要技术挑战之一。

2.1协同过滤

协作过滤 通过聚合生成个性化建议 系统中类似用户的体验。 从概念上讲,这种方法可以自动化“口碑”推荐的过程。 协作过滤的一个关键方面是识别与需要推荐的消费者或用户类似的消费者或用户。 群集模型,贝叶斯网络模型和专门的关联规则算法以及其他技术已被用于此识别目的[Breese et al。 1998; 林等人。 2002]。 基于类似的消费者或邻居,方法,如最常见的项目方法[Sarwar et al。 然后可以使用2000a]来生成推荐。

ACM Information on Information Systems,Vol。 2004年1月22日第1号。

稀疏问题的关联检索技术 bull; 119

协同过滤一直是迄今为止最成功的推荐系统方法[Sarwar等。 2000a]并已广泛应用于各种应用[Burke 2000; Claypool等。 1999; Mobasher等。 2000; Nasraoui等人。 1999; Pazzani 1999; Sarwar等人。 1998]。 尽管在许多应用程序设置中取得了成功,但据报道,协同过滤方法有几个主要限制,包括稀疏性,可伸缩性和同义问题[Sarwar等人。 2000B。 当事务或反馈数据稀疏且不足以识别邻居时,会出现稀疏性问题,这是一个主要问题,一般限制了推荐的质量和协同过滤的适用性。 我们的研究重点是开发一种有效的方法,即使在没有足够的数据时也能提出高质量的建议。 下一节将详细讨论稀疏性问题。

2.2稀疏性问题

在协同过滤系统中,用户或消费者通常由他们购买或评级的项目来表示。 例如,在销售200万本书籍的在线书店中,每个消费者由200万个元素的布尔特征向量表示。 每个元素的值由该消费者是否在过去的交易中购买了相应的图书来确定。 通常,值为1表示已进行此类购买,0表示未进行此类购买。 当涉及多个消费者时,由表示这些消费者的所有向量组成的矩阵可用于捕获过去的交易。 我们将此矩阵称为 消费者 - 产品交互作用矩阵 。 一般术语 “相互作用” 用于指代此矩阵 而不是更具体的“购买”或“交易”,因为存在其他类型的关系,例如消费者与一般推荐系统的产品之间的明确和隐含评级。

我们现在介绍一些在整篇文章中使用的符号。 我们使用 C 表示消费者集合, P 表示 项目集合。 我们用 | 表示消费者 - 产品交互矩阵 C | times;| P | 矩阵 A =( a ij ),这样

需要注意的是,在我们的研究中,我们集中在发生, 所以 ij 是二进制的 实际交易 。 在其它建议方案,如那些涉及的评分, 一个 IJ 可采取其它分类或连续的值(例如,5级评定量表和感兴趣概率)。

在许多大型应用程序,如主要的电子商务网站,两个项目的数量, | P | ,以及消费者的数量, | C | ,很大。 在这种情况下,即使记录了许多交易,消费者 - 产品交互矩阵仍然可能非常稀疏,也就是说, A中 的 元素很少, 其值为1.这个问题,通常被称为稀疏性问题,对协作过滤方法的有效性产生重大负面影响。 由于稀疏性,很可能两个给定用户之间的相似性(或相关性)为零,从而呈现协同过滤

ACM Information on Information Systems,Vol。 2004年1月22日第1号。

120 bull; Z. Huang等。

没用[Billsus和Pazzani 1998]。 即使对于正相关的用户对,这种相关性度量也可能不可靠。

冷启动 问题,进一步说明了解决这一问题的稀疏性的重要性。 冷启动问题是指新用户或项目刚刚进入系统的情况[Schein et al。 2002]。 由于缺乏足够的先前评级或购买,协作过滤无法为新用户生成有用的建议。 类似地,当新项目进入系统时,协作过滤系统不太可能将其推荐给许多用户,因为很少有用户评价或购买此项目。 从概念上讲,冷启动问题可以被视为稀疏性问题的特殊实例,其中消费者 - 产品交

资料编号:[4267]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。