基于内容的推荐系统外文翻译资料

 2022-04-27 08:04

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


基于内容的推荐系统

Michael J. Pazzani and Daniel Billsus

Rutgers University, ASBIII, Rutgers Plaza

New Brunswick, NJ 08901

pazzani@rutgers.edu

FX Palo Alto Laboratory, Inc., 3400 Hillview Ave, Bldg. 4

Palo Alto, CA 94304

billsus@fxpal.com

摘要。本章讨论基于内容的推荐系统,即,根据物品描述向用户推荐物品的系统和用户兴趣的概况。 基于内容的推荐系统可以用于各种领域,从推荐网页、新闻文章、餐馆、电视节目到待售物品。 虽然各种系统的细节不同,基于内容的推荐系统共享通常用于描述可能推荐的物品的方法,意思是用于创建描述用户的项目类型的用户简档的装置喜欢,以及将项目与用户配置文件进行比较以确定要做什么的方法推荐。 通常会自动创建并更新配置文件作为响应以反馈已经呈现给用户的项目的可取性。

1.1介绍

现代推荐系统的一个常见场景是Web应用程序用户进行交互。通常,系统向用户呈现项目的概要列表,并且用户在项目中选择以接收关于项目的更多细节或进行交互与某种方式的项目。例如,在线新闻网站提供网页标题(偶尔还有故事摘要)并允许用户选择标题阅读故事。电子商务网站通常会显示一个包含单个产品列表的页面,然后允许用户查看有关所选产品的更多详细信息并购买该产品。尽管Web服务器传输HTML并且用户看到网页,Web服务器通常具有项目数据库并动态构建Web包含项目列表的页面。因为a中通常有更多的项目可用数据库比容易放在网页上,有必要选择一个项目的子集向用户显示或确定显示项目的顺序。基于内容的推荐系统分析项目描述以识别项目这对用户特别感兴趣。 由于推荐系统的细节根据项目的表示而不同,本章首先讨论替代方案项目表示。 接下来,推荐算法适合每种表示进行了讨论。 本章最后讨论了这些方法的变体,基于内容的推荐系统的优势和劣势,以及未来研究和开发的方向。

可以推荐给用户的项目通常存储在数据库表中。 表1.1显示了一个简单的带有记录(即“行”)的数据库,它描述了三家餐馆。 列名称(例如美食或服务)是餐馆的属性。 这些属性在不同的出版物中也被称为“属性”,“特性”,“字段”或“变量”。 每个记录包含每个属性的值。 表1.1中的唯一标识符(ID)允许区分具有相同名称的项目并作为检索记录其他属性的关键字。

表1.1

ID

名字

烹饪

服务

花费

10001

迈克的披萨

意大利

柜台

10002

乔尔斯的咖啡厅

法国

工作台

10003

雅客小酒馆

法国

工作台

表1.1中描述的数据库可用于驱动列出和列出的网站推荐餐馆。这是一个有结构化数据的例子少数属性,每个项目由相同的一组属性描述,并且有一组已知的属性值。在这种情况下,许多机器学习算法可以用来学习用户配置文件,或者可以容易地使用菜单界面被创建以允许用户创建配置文件。本章下一节讨论从结构化数据创建用户配置文件的几种方法。当然,网页通常比表10.1中显示的信息更多,例如餐厅的文字描述,餐厅评论,甚至菜单。这些可以很容易地作为数据库中的附加字段存储,并且可以使用模板创建网页以显示文本字段(以及结构化数据)。然而,学习用户配置文件时,自由文本数据会产生许多复杂情况。例如,一个配置文件可能表明特定用户有80%的概率像一家法国餐厅。这可能会添加到配置文件,因为用户对五个法国餐馆中的四个进行了正面评估。但是,不受限制的文本字段是通常是独一无二的,因此没有机会对五个餐厅提供反馈,这五个餐厅被描述为“一个迷人的咖啡厅,有细心的工作人员可以俯瞰河流。”

新闻文章中可能会出现非结构化数据的极端例子。

1.2用户资料

大多数推荐系统都会使用用户的兴趣爱好 此配置文件可能由许多不同类型的信息组成。 在这里,我们专注于两种类型的信息:

  1. 用户偏好的模型,即对项目类型的描述让用户感兴趣。 这个描述有许多可能的替代表示,但是一个常见的表示是任何项目预测的函数用户对该项目感兴趣的可能性。 为了提高效率,这个函数可以用于检索最有可能对用户感兴趣的n个项目。
  2. 用户与推荐系统的交互历史。 这可能包括将用户查看的项目与其他信息一起存储关于用户的交互(例如,用户是否已经购买了物品或者用户是否已经给出物品)。 其他类型的历史包括保存查询由用户键入(例如,用户在90210中搜索意大利餐厅邮政编码)。

用户交互历史有几种用途。首先,系统可以简单地显示最近访问的项目,以方便用户返回这些项目。第二,系统可以从推荐系统过滤出用户具有的项目已经购买或阅读。基于内容的历史的另一个重要用途推荐系统是作为机器学习算法的训练数据创建一个用户模型。下一节将讨论几种不同的方法学习用户模型。在这里,我们简要描述手动提供的方法推荐系统使用的信息:用户定制和基于规则的信息推荐系统。

在用户定制中,推荐系统提供了一个界面,允许用户构建他们自己的兴趣表示。 经常使用复选框来允许用户从属性的已知值中进行选择,例如,餐馆的美食,喜爱的运动队的名称,新闻站点的最喜欢的部分或最喜欢的电影的类型。 在其他情况下,表单允许用户在项目的自由文本描述中出现的类型词,例如对用户感兴趣的音乐家或作者的姓名。 用户输入此信息后,将使用简单的数据库匹配过程来查找符合指定标准的项目并将其显示给用户。

用户定制系统有几个限制。 首先,它们需要用户的努力,很难让很多用户做出这样的努力。 当用户的兴趣改变时,这尤其如此,例如,用户可能不观看每一场足球赛在赛季中,但随后对超级杯感兴趣。 其次,自定义系统不能提供确定展示项目顺序的方法,并且可以找到要显示的太少或太多匹配项目。

在基于规则的推荐系统中,推荐系统有规则根据用户的历史推荐其他产品。 例如,一个系统可能包含一条规则,建议将书或电影的续集推荐给拥有的人购买了该系列的早期产品。 另一个规则可能会推荐一张新CD一位艺术家给购买了该艺术家早期CD的用户。 基于规则的系统可能捕捉提出建议的几个常见原因,但他们不提供其他推荐系统也提供了相同的详细个性化建议。当然,在某些情况下,推荐用户购买的物品是合适的,而在其他情况下则不适合。 例如,系统应该继续推荐一件耗尽或耗费的物品,例如剃须刀刀片或打印墨盒,而推荐用户拥有的CD或DVD几乎没有价值。

1.3 学习用户模型

从用户历史记录中创建用户偏好的模型是分类学习的一种形式。分类学习者的训练数据分为几类,例如,二进制类别“用户喜欢的项目”和“用户不喜欢的项目”。这可以通过用户对项目进行评价的明确反馈来完成一些用于收集反馈的界面,或者通过观察用户与项目的交互来隐式地进行。例如,如果用户购买物品,那是用户的标志喜欢该项目,而如果用户购买并返回该项目是一个标志用户不喜欢该项目。一般来说,对于用户是否真的喜欢该项目,隐式方法可以收集到一些具有一定不确定性的数据进行折衷。相反,当用户明确地评价项目时,很少或根本没有不确定的训练数据,但用户倾向于只对一小部分提供明确的反馈在他们互动的项目的百分比之中。

下一节讨论许多分类学习算法。 这些算法是基于内容的推荐系统的关键组件,因为他们学习了一个模拟每个用户兴趣的功能。 给定一个新项目和用户模型,该功能预测用户是否对该项目感兴趣。 许多的分类学习算法创建一个函数,将提供一个估计用户会喜欢看不见的物品的概率。 这个概率可能被用来对推荐列表进行排序。 或者,算法可以创建一个函数直接预测一个数值,如感兴趣程度。

下面的一些算法是设计用于处理结构化数据的传统机器学习算法。 当他们对自由文本进行操作时,首先将自由文本转换为结构化数据,方法是选择一小部分术语作为属性。 在相比之下,其他算法被设计为在高维空间中工作而不是需要特征选择的预处理步骤。

1.4决策树和规则归纳

像ID3 [31]这样的决策树学习者通过递归地将训练数据(在本例中为文本文档)划分成子组,直到这些子组构建一个决策树只包含一个类的实例。 分区是通过对某些特征进行测试而形成的 - 在文本分类的背景下,通常是单个词或短语的存在或不存在。 预期的信息收益是一个常用的标准为分区测试选择最丰富的功能[38]。

决策树已广泛应用于结构化数据,如如表10.1所示。通过对餐厅的反馈,决策树可以轻松实现代表和学习喜欢在昂贵的法国餐馆或便宜的墨西哥餐馆用餐的人的个人资料。可以说,决策树的偏见并不是非结构化文本分类任务的理想选择[29]。作为决策树学习者使用的信息 - 理论分裂标准的结果,决策树的归纳偏差是对少量测试的小树的偏好。然而,从实验上可以看出,文本分类任务通常涉及大量的相关特征[17]。因此,决策树倾向于基于分类尽可能少的测试可能会导致文本分类表现不佳。然而,当有少量结构化属性时,表现简单并且基于内容模型的决策树的可理解性都是有利的。Kim等人[18]描述了在网页上个性化广告的决策树的应用。

RIPPER [9]是一种与决策树密切相关的规则归纳算法,其操作方式与上述递归数据分割方法类似。尽管存在问题的归纳偏差,但是,RIPPER与其他最先进的文本分类算法完全竞争。部分地,性能可以归因于复杂的修剪后算法,该算法优化了诱导规则集相对于整体训练数据的适合性。此外,RIPPER支持多值属性,这导致了自然表示文本分类任务,即文本文档的单个词可以表示为单个特征的多个特征值。尽管如果要从非结构化文本文档中学习规则,这本质上就是一种代表性方便,但这种方法可以为半结构化文本文档带来更强大的分类器。例如,电子邮件的单独字段中包含的文本,如发件人,主题和正文,可以表示为单独的多值功能,使算法可以利用文档的结构以自然的方式。 Cohen [10]展示了RIPPER如何分类电子邮件进入用户定义的类别。

1.5最近邻方法

最近邻居算法将所有训练数据(这里是隐式或明确标记的项目的文本描述)存储在内存中。为了分类一个新的,未标记的项目,算法使用相似性将其与所有存储的项目进行比较函数并确定“最近邻居”或k个最近邻居。班上然后可以从该类中导出先前未见过的项目的标签或数字分数最近邻居的标签。

最近邻算法使用的相似度函数取决于类型数据的。对于结构化数据,经常使用欧几里得距离度量。使用时矢量空间模型,经常使用余弦相似性度量[34]。 在欧几里得距离函数,在两个例子中具有较小值的相同特征被处理与这两个示例中具有较大值的特征相同。相反,余弦如果两个例子的相应特征的值较小,相似函数将不会有很大的值。因此,如果我们希望两个文档在关于同一主题时相似,而不是在两个文

全文共15423字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13166],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。