推荐系统调查外文翻译资料

 2022-04-12 07:04

英语原文共 24 页,剩余内容已隐藏,支付完成后下载完整资料


推荐系统调查

  1. 介绍

推荐系统(RS)收集关于用户对一组项目(例如,电影,歌曲,书籍,笑话,小工具,应用程序,网站,旅游目的地和电子学习材料)的偏好的信息。这个信息可以明确的从(通常情况下 通过收集用户的评分)或隐含[134,60,164](通常通过监控用户的行为,如听到的歌曲,应用程序下载,访问的网站和书籍阅读)的途径获取。RS可能会使用用户的人口特征(如年龄,国籍,性别),社会信息(如追随者,随者,twits和帖子),这些特征通常是用于Web 2.0。人们越来越倾向于使用来自物联网的信息(例如,GPS位置,RFID,实时健康信号)。

RS利用不同的信息来源为用户提供项目的预测和建议。他们试图在建议中平衡准确性,新颖性,分散性和稳定性等因素。协作过滤(CF)方法在推荐中扮演着重要的角色,虽然他们经常与其他图像技术一起使用,如基于内容的,基于知识的或社交的

CF是基于人类在整个历史中作出决定的方式:除了根据我们自己的经验,我们还根据相对较大的熟人群体的每一个人的经验和知识作出决定。

最近,互联网上RS的实施增加了,这促进了它在不同领域的应用[171]。 最常见的研究论文集中在电影推荐研究[53,230]; 然而,RS的大量文献集中在不同的话题上,如音乐[134,162,216],电视[238,18],书[164,88],文件[206,184,183,185],电子学习[241,30] 电子商务[104,54],市场应用[67]和网络搜索[154]等等。

在[177]中描述了RS开始时最常用的过滤类型(合作,基于内容和人口统计)。 Breese等人[43],评估了不同算法对CF的预测精度; 后来,经典论文[94]描述了评估协作过滤RS的基础。

RS的发展显示了RS的混合技术的重要性,它们合并不同的技术以获得每个技术的优点。 [47]中提出了一项关于混合RS的调查。 然而,它并没有涉及社交过滤的作用,尽管社交过滤是近年来通过社交网络变得越来越流行的技术。

基于邻域的CF是RS开始时最流行的推荐方法; Herlocker等人 [93]为设计基于邻域的预测系统提供了一套指导方针。 Adomavicius和Tuzhilin [3]概述了RS领域,就是:RS领域的研究人员应将重点放在“下一代RS”:基于内容的方法中有限的内容分析和过度专业化,CF方法中的冷启动和稀疏性,基于模型的技术,非侵入性,灵活性(实时定制)等。

在研究人员开发RS的同时,发表了不同的调查报告,总结了该领域中最重要的问题。 鉴于不可能在一篇论文中显示所有这些技术的每一个细节,本文选择作者认为最适合理解RS演变的问题。

在研究人员开发RS的同时,发表了不同的调查报告,总结了该领域中最重要的问题。 鉴于不可能在一篇论文中显示所有这些技术的每一个细节,本文选择这些研究人员认为最适合理解RS演变的问题。

虽然现有调查侧重于RS领域最相关的方法和算法,但我们的调查反而试图加强RS的演变:从基于传统Web的第一阶段到基于社交Web的第二阶段,这是目前正在进入第三阶段(物联网)。为了对RS领域的新读者有用,我们在本次调查中包含了一些传统主题:RS基础,k-最近邻居算法,冷启动问题,相似性度量和RS评估。本文的其余部分处理现有调查未考虑的新颖主题。通过这次调查,RS的高级读者将深入研究与社交信息(社交过滤:追随者,追随者,信任,声誉,可信度,基于内容的社交数据过滤;社交标记和分类法)相关的概念,分类和方法,向用户群体和解释建议。感兴趣于全新和未来应用的读者会发现本调查很有用,因为它告知了最新的位置感知RS趋势和生物启发式方法。他们还会发现隐私,安全,P2P信息和物联网使用(RFID数据,健康参数,监控数据,远程操作,远程呈现等)的一些重要问题。

根据RS倾向于利用不同信息来源(协作,社会,人口,内容,基于知识,地理,传感器,标签,隐式和显式数据采集等)的观点,本调查强调混合架构, 基于通过不同的已知技术(每一个都代表特定的信息来源而设计)提出建议。

调查的大部分质量都可以通过适当选择参考来衡量。 本调查包含系统获得的249份参考文献,这些参考文献是根据最近引用次数以及该论文发表的期刊的重要性等因素选定的。

本文的其余部分结构如下:在第2节中,我们简要地解释了用于选择RS领域最有意义的论文的方法。第3部分介绍了RS基础:用于根据传统网络信息提供建议的方法,算法和模型:评级,人口统计数据和项目数据(CF,人口统计过滤,基于内容的过滤和混合过滤)。第4节介绍了评估RS预测和建议质量的措施。第5部分显示了使用Web 2.0中的社交信息来通过信任,声誉和可信度等概念进行推荐。我们还将介绍基于基于内容的社交信息(如标签和帖子)的技巧。第6节着重于两个重要领域(尽管尚未得到很好的研究):向用户群推荐和对建议的解释。第7部分重点介绍推荐系统的趋势,包括生物启发式方法和Web 3.0信息过滤,如位置感知RS。第8节解释了相关工作和本次调查的原始贡献。

在总结部分我们总结了RS的历史,并侧重于所用数据的类型以及算法和评估方法的开发。 结论部分还指出了我们认为在不久的将来科学界可能成为RS研究重点的七个新领域。

  1. 方法论

我们开展了一项初步研究,以确定RS领域最具代表性的主题和术语。 首先,从期刊中选择了300篇RS论文,对当前和经常引用的文章优先考虑。 接下来,我们从这300篇论文中提取了最重要的术语。 我们最重视关键词,不重视标题,最后强调摘要。

我们忽略了来自剩余池的常用词汇,如文章,介词和一般用词,我们选择了RS领域中的300个词汇。 从文章times;词的矩阵中,我们保存了每篇文章中每个词的重要性,我们生成了词之间的关系树。 图1描绘了图中最重要的部分(由于空间限制,整个树未显示,但它作为附加材料提供在图1AdditionalData.png中)。 单词之间的短距离表示最高的相似性; 温暖的颜色表明关系的可靠性更高。 节点的大小表示作为参数Nk,Nt,Na(关键字,标题和摘要中的有意义的单词的数量)和单词w在关键字中出现的次数的函数的单词的重要性,标题 和抽象)。 用于确定每个词w的重要性的等式如下

例如:我们将考虑一篇论文,其中Nk = 5个关键词,Nt =标题中的11个词,Na = 52个抽象长度的词。 我们将得到ffactorization和fmatrix的值,其中#39;factorization#39;一词作为关键词出现,一次出现在标题中,三次出现在摘要中。 “矩阵”这个词不会作为关键词出现,但它在标题中包含一次,在摘要中包含两次。 这些词的重要性将是:

图1中描述的信息用于识别RS最相关的方面。 它们由图中最重要的单词和相关术语表示。 这里引用的文章是根据以下标准选择的:(a)根据图1中文字的重要性对主题的超越; (b)其历史贡献(包括经典参考文章的很大一部分); (c)文章被引用的次数; (d)在具有影响因子的期刊上发表的文章比会议和研讨会更受欢迎; 和(e)最近的文章比多年前发表的文章更受欢迎。 图2显示了参考论文的时间分布。

图二

我们使用图一中的词组构成调查的结果。 然后对于每个概念来解释:(1)我们已经根据图一获得了它们的关键字和所有与它们有关的单词; (2)在300篇论文中,我们已经确定了与这一概念相关的词组更相关的那些部分; (3)我们选择处理这一概念的论文子集,优先考虑那些在论文重要性和论文数量等标准中具有较高价值的论文; (4)我们试图在我们的调查中平衡一篇文章的参考次数,为了在参考所选的300篇论文中的大部分。

  1. 推荐系统基础

本节介绍传统RS所基于的最相关的概念。 在这里,我们对传统的分类法,算法,方法,过滤方法,数据库等提供一般性描述。此外,我们还展示了一个图形,描述了传统的建议模型及其关系。 接下来,我们将描述冷启动问题,它将说明当RS包含少量数据时进行协作推荐的难度。 接下来,我们将描述kNN算法; 基于CF实现RS的最常用算法。 最后,我们将描述用于比较用户或项目的不同提议的相似性度量。 我们将显示图形来衡量这些相似性度量的质量。

3.1 原理

生成RS推荐的过程基于以下考虑的组合:

  1. 在数据库中可用的数据类型(例如评级,用户注册信息,可排名项目的功能和内容,用户间的社交关系以及位置感知信息)。
  2. 所使用的过滤算法(例如,人口统计,基于内容,合作,社交,情境感知和混合)。
  3. 选择的模型(例如,基于直接使用数据:“基于记忆的”或使用这种数据生成的模型:“基于模型的”)。
  4. 也要考虑所采用的技术:概率方法,贝叶斯网络,最近邻居算法; 生物启发式算法,如神经网络和遗传算法; 模糊模型,降低稀疏度的奇异值分解技术等。
  5. 数据库的稀疏度和所需的可伸缩性。
  6. 系统的性能(时间和内存消耗)。
  7. 所考虑的对象(例如,预测和前N个推荐)
  8. 结果的期望质量(例如新颖性,覆盖率和精度)。

RS研究需要使用一组具有代表性的公共数据库来促进对该领域研究人员开发的技术,方法和算法的协助调查。 通过这些数据库,科学界可以复制实验来验证和改进他们的技术。 表1列出了文献中最常提到的当前公共数据库。 Last.Fm和Delicious包含隐含评级和社交信息; 他们的数据是由GroupLens研究组托管的HetRec 2011年数据集中发布的版本生成的。

RS的内部功能由过滤算法表征。 最广泛使用的分类将过滤算法分为[3,51,203]:(a)协同过滤,(b)人口统计过滤,(c)基于内容的过滤和(d)混合过滤。

基于内容的过滤[ 131,11158 ]是基于用户的选择在过去提出的建议(例如在一个基于网络的电子商务的RS,如果用户购买了一些科幻电影在过去,RS可能会推荐一个最近的科幻电影,他有没有在这个网站上购买)。基于内容的过滤也使用推荐的对象的内容生成推荐;因此,某些内容可以被分析,如文本、图像和声音。从这一分析中,可以在对象之间建立相似性,作为推荐项目的基础,类似于用户购买、访问、听到、查看和排名的项目。

人口统计过滤方式[177,126,185]的依据是,具有某些共同的个人特征(性别,年龄,国家等)的人也会有共同的偏好。

协作过滤[3,94,92,51,212]允许用户以一系列元素(例如基于CF的网站中的视频,歌曲,电影等)给出评级,使得当足够的信息存储在系统上时 ,我们可以根据这些用户提供的信息向每个用户提出建议,这些用户是我们认为与他们最相同的用户。 CF(Collaborative Filtering)是一个有趣的开放研究领域[232,34,32]。 如前所述,用户评级也可以隐含地获得(例如,听到歌曲的次数,咨询的信息和对资源的访问)。

最广泛使用的协作过滤算法是the k Nearest Neighbors(kNN)[3,203,32]。 在用户到用户版本中,kNN执行以下三个任务来为活动用户生成推荐:(1)为活动用户a确定k个用户邻居(邻居); (2)实施一个聚合方法,对未被a评分的项目进行评分; 和(3)从步骤2中提取预测,然后选择前N个推荐。

混合过滤[47,185]。 通常使用CF与人口统计过滤[224]或CF与基于内容的过滤[18,60]的组合来利用这些技术中的每一种的优点。 混合滤波通常基于生物感知或概率方法,如遗传算法[76,99],模糊遗传[7],神经网络[133,62,192],贝叶斯网络[50],聚类[209]和潜伏特征[199]。

被广泛接受的分类法将推荐方法分为基于内存和基于模型的方法类别:

基于记忆的方法[3,51,123,214]。 基于记忆的方法可以被定义为如下方法:(a)仅仅对项目的用户评分矩阵起作用并且(b)使用在推荐过程之前生成的任何评分(即,其结果总是被更新)的方法。 基于记忆的方法通常使用相似性度量来获取两个用户之间的距离,或者根据它们的每个比率获得两个项目之间的距离。

基于模型的方法[3,212]。 使用RS信息创建生成建议的模型。 在此,如果来自任何用户的新信息超过了模型,我们就会考虑基于模型的方法。 在最广泛使用的模型中,我们有贝叶斯分类器[59],神经网络[107],模糊系统[234],遗传算法[76,99],潜伏特征[251]和矩阵分解[142]等等。

为了减少RS数据库中高度稀疏性的问题,某些研究已经使用了降维技术[202]。 还原方法基于矩阵分解[124,142,143]。 矩阵分解对于处理大型RS数据库和提供可扩展的方法特别适合[215]。 基于模型的技术潜在语义索引(LSI)和归约法奇异值分解(SVD)通常是结合在一起的[224,244,48]。 SVD方法提供了良好的预测结果,但在计算上非常昂贵; 他们只能部署在静态离线设置中,而且其中已知的偏好信息不随时间而改变。

RS可以使用聚类技术来提高预测质量,并在应用于混合滤波时减少冷启动问题。 通常在混合RS中形成项目群[209,237]。 一种不同的常用方法使用聚类来处理项目和用户(双聚类)[252,85]。 包含社交信息的RS已被聚类以改善以下领域:标签[208],显式社交链接[179]和显式信任信息[181,70]。

如图3所示,我们可以将一些传统的过滤方法(基于内容,人口统计和协作)应用于数据库。 基于模型的技术(遗传算法,神经网络等)可以利用这种信息。 典型的基于记忆的方法是:项目到项目; 用户到用户; 和前两者的混合体。 基于记忆和基于模型的方法的主要目的是根据用户的口味获得最准确的预测。 这些预测的准确性可以通过经典信息检索度量来评估,如MAE,精度和回忆。 研究人员利用这些措施来改进RS方法和技术。

全文共5828字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14202],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。