一种基于用户偏好聚类的有效协同过滤算法外文翻译资料

 2022-03-25 07:03

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


一种基于用户偏好聚类的有效协同过滤算法

摘要:协同过滤是为用户提供推荐服务的广泛使用的推荐方法之一。这种方法的核心是提高寻找活跃用户的准确和可靠邻居的能力。然而,收集的数据在用户项目评分矩阵中非常稀疏,同时许多现有的用于协同过滤的相似性度量方法效果不佳,导致性能较差。本文提出了一种基于用户偏好聚类的有效协同过滤算法,以减少数据稀疏性的影响。首先,引入用户组来区分具有不同偏好的用户。然后,考虑到活动用户的偏好,我们从相应的用户组/用户组获得最近邻居集合。此外,还提出了一种新的相似性度量方法,以较好地计算用户间的相似度,分别考虑用户在局部和全局视角下的偏好。最后,两个基准数据集上的实验结果表明,该算法对提高推荐系统的性能是有效的。

1介绍

随着互联网技术的发展,各行各业的数据泛滥,导致信息过载问题[1,12,23,31]。 为了解决这个问题,许多大型网站和电子商务网站利用各种便利和高效的推荐系统来提高服务质量,以吸引和留住忠实用户。 如亚马逊图书[10],应用市场[13],YouTube视频[4]以及网络搜索结果[41]等。

协同过滤是推荐系统中成功的技术之一,它通过分析用户的数据向用户推荐项目,通过跟踪浏览历史,购买记录和评分记录等获得数据[7,14,1618,24,28]。经过多年的发展,这种推荐技术可以主要分为两类:基于模型的方法和基于记忆的方法[38]。基于模型的方法首先基于用户项目评分矩阵构建预测模型,然后预测目标项目的评分。与前者不同的是,基于记忆的方法首先计算用户/项目之间的相似度,并选择前k个相似用户/项目作为活动用户/目标项目的邻居,然后生成预测结果。除了协同过滤之外,还提出了基于内容的方法[27,30,36],混合过滤[11,33,39]和用户统计过滤[22,32,40]以及不同的应用。此外,提到基于记忆的方法,可以将其分为基于用户或基于项目的方法。在本文中,我们专注于改进基于用户方法的推荐系统的性能,以减少数据稀疏性的影响[29,34]。

在以前的相关工作中,协同过滤的修改和增强主要体现在两个方面:相似性度量修改和邻居选择[15,20,26,42]。针对相似性度量的修改,传统的相似性度量方法,如皮尔森相关系数(PCC)[9]和余弦相似性度量(COS)[35]等被广泛应用于推荐系统。此外,Jamali和Ester [17]提出了一种基于PCC的改进的基于S形函数(SPCC)的相似性度量方法,该方法强调了常用项目的重要性。直观地说,如果用户之间存在更常见的额定项目,则它们更相似。根据余弦相似性度量方法不考虑等级尺度,提出了调整后的余弦相似性度量方法(ACOS)[37]来解决这一不足。例如,Ahn [2]引入了一种新的启发式相似性度量方法,该方法考虑了相似性度量的三个因素:接近度,影响度和评级流行度,因此被称为PIP方法。但是,PIP在考虑局部评级信息时受到限制,并忽略全局用户偏好。刘等人。 [25]分析了PIP的不足,并提出了一种新的启发式相似度模型(NHSM)。 NHSM不仅继承了PIP方法的优点,还注重普通评分项目和用户偏好的比例。除了上面提出的相似性测量方法之外,研究人员还提出了许多改进的邻近选择方法。例如,Kaleli [19]提出了一种基于熵的优化方法来形成一个更合格的邻居集合,该集合为每个用户分配一定的不确定度(DU),并要求邻居的DU值最小和相似度最大与活跃的用户。 Boumaza和Brun [8]介绍了一个关于全局邻居的概念,它是所有活跃用户的邻居。 Kim和Yang [21]提出了一种基于阈值的邻居选择方法。在这种方法中,邻居是根据偏好的相似性在一定的选择范围内确定的。 Anand和Bharadwaj [3]引入了一种结合局部和全局相似性的解决数据稀疏性的推荐框架,该框架允许在局部用户相似性方面给予全局用户相似性的重要性的变化。

在本文中,我们提出了一种基于用户偏好聚类的有效协作过滤算法,与上述算法不同。一方面,引入用户组来为活动用户选择更准确和可靠的邻近。如我们所知,具有不同偏好的用户具有不同的评分习惯。因此,用户可以聚集到不同的用户组中。 (1)积极的用户群,用户喜欢高分; (2)消极的用户群,用户喜欢低分; (3)中立的用户群,其中用户倾向于给予物品合理的标记。另一方面,我们注意到大多数以前的相似性度量方法不适合捕获用户偏好,我们提出了一种新的相似性度量方法来计算用户在聚类过程中的相似度。此外,大量实验表明,我们提出的算法可以显着提高稀疏评级数据的性能。最后,这项工作的主要贡献可以总结如下:

bull;根据用户偏好群集将用户分配到不同的用户组。

bull;提出了一种新的用户偏好因素的相似性度量方法。

bull;广泛的实验结果表明,我们提出的方法是有效的。

bull;基于用户偏好聚类的算法可以与其他相似性度量方法自由组合

本文的其余部分安排如下。 我们在第2节中回顾传统相似性度量方法和基于用户的协同过滤方法。然后,在第3节中,我们深入地描述了我们提出的算法。 第4节演示并解释了实验结果。 最后,我们结束这项工作,并在第5部分给出未来的工作。

2回顾

在推荐系统中,构造用户项目评分矩阵R以对活动用户进行推荐,其中在n项目上有m个用户的评级,并且U表示m个用户的集合,I表示n个项目的集合。 请注意,评级矩阵的评级数据是稀疏的,缺少或未知的评级数据用符号“?”表示,而表示用户u对项目i的评级。

根据存储在评分矩阵R中的用户信息,传统的相似性度量方法(如PCC和COS)被广泛用于计算基于用户的协同过滤方法中用户之间的相似度,如(1)和(2) 分别:

表示用户a和用户b之间的相似度,是用户a和用户b的共同评分项的集合,是用户a对项目i的评分,是用户a的平均评分。 在计算相似度之后,将k个最近的相似用户指定为活动用户的邻近,然后可以在目标项目上计算出预测。 推荐的公式定义如下:

其中表示活动用户t对目标项目i的预测,是活动用户t的邻居集合,|| = k。

3提出的算法

在协同过滤中,为活动用户搜索邻居的传统方式取决于两个用户共同评分项目的评分信息。 然而,传统的协作过滤方法存在一些不足,即不考虑用户偏好的因素,并且使用收集的用户数据的一小部分。 为克服这些缺陷,提出一种基于用户偏好聚类的有效协同过滤算法。 该算法的流程图如图1所示。

3.1 基于用户偏好的群集

在实际的推荐应用程序中,用户对某个项目可能会有截然不同的看法。 例如,一些用户很友善,他们可能会用高分评价他们喜欢和喜欢的物品。 相反,一些用户对评分有严格的态度,他们可能倾向于低评分。 最后,一些用户可能会为不同的项目给出合理的分数。 如上所述,用户可以分配到三个不同的用户组。 假设,和分别表示积极用户组,消极用户组和中立用户组。 同时,是的聚类中心,是的聚类中心,是的聚类中心。然后,我们介绍聚类中心的选择。

定义1(不同的用户偏好)假设和是用户集合U的两个子集,其中= ,且=。 isin;,isin;。

当alpha;被设置为高标记时,beta;被设置为低标记。 例如,在1-5比例的评分矩阵中,alpha;可以设置为4,beta;可以设置为2.因此,是喜欢对项目评分最高的用户的子集。 类似地,中的用户倾向于给商品评分较低。

定义2(最大分级号码)是子集中具有最大分级号码的用户; 是来自具有最大评级数量的子集的用户。

上述定义给出了选择聚类中心的两个标准,即预期的公司应该优先考虑高分,同时,公司应该对商品有尽可能多的评分。 通过这些标准,我们可以通过计算用户与所有集群中心之间的相似度来判断用户的偏好。 这些不同用户群的集群中心定义如下:

定义3积极用户群的聚类中心可以唯一确定,具体如下:

其中 可以唯一确定消极用户组的聚类中心,如下所示:

其中

如果,则i上的的评级是,是项目i的平均评级。 由此构建中性用户群的聚类中心。

从定义3中,我们知道,和是唯一确定的并且对于实现用户偏好聚类是有益的,其中和来自用户集U,并且和之间的差别在于它们具有完全相反的偏好。 是虚拟的,用于获取中性用户组。 考虑到存储在用户项目评分矩阵中的大量用户,项目的平均评分可以表示该项目的大多数视图。 因此,可以看作是一个典型的用户,他们倾向于给出合理的标记。基于此,三个典型用户分别被发现为三个集群中心,这些用户群具有不同的特征。 然后,我们可以在定义4中获得具有不同偏好的用户组。

定义4假设C = {,},forall;uisin;U-C,u的偏好确定如下:

如果u满足sim(u,)gt; sim(u,)和sim(u,)gt; sim(u,);

如果u满足sim(u,)gt; sim(u,)和sim(u,)gt; sim(u,);

如果你满足sim(u,)gt; sim(u,)和sim(u,)gt; sim(u,)。

从定义4中,我们可以根据用户之间的相似性轻松识别用户的不同偏好,并将具有一致偏好的用户分配给同一用户组。 因此,可以获得不同的用户组,即积极用户组,悲观用户组和中性用户组。

3.2用户相似性

在聚类过程中,聚类中心的评分信息具有特殊的特征,即喜欢高分,用户偏好的确定取决于用户与这些聚类中心的相似程度。 因此,有效的相似性度量方法有助于将剩余用户分配到不同的用户组。 为了突出用户偏好的重要性,我们提出了一种新的相似性度量方法来计算用户之间的相似度,如下所示:

从(6)中,我们知道涉及两个重要因素。 从全局角度来看,用户偏好是通过计算所有项目的平均评分来体现的,而用户之间的平均评分差异越大,他们的偏好就越多。 在本地,将共同评分项目的因素考虑在内以反映用户偏好之间的差异。 具有更多共同评分项目且偏好之间差异较小的用户,其相似性显示得越高。 因此,具有一致首选项的用户可以轻松分配到同一个用户组。 表1显示了一个用户项目评分矩阵的例子,其中是用户,而是项目。 我们可以通过第1节中提到的不同的相似性度量方法来计算表1中用户之间的相似度,如图2所示。在图2中,由于用户相似度矩阵是对称的,并且不显示部分相似度值。

图2a给出了根据COS方法的用户相似度矩阵。从表1中我们可以看出,和具有相似的评分,他们都倾向于低评分,因此中的大部分评分都是4,但是和之间的相似度在图2a中为1。如图2b所示,SPCC方法中也存在这个缺点。例如,图2b显示和可以获得最高的相关性,无论用户偏好如何。与COS和SPCC相比,NHSM方法的计算相似性更加准确,如图2c所示。但从图2c可以看出,与之间的相似度高于与之间的相似度,但与实际上具有较高的相似性。图2d给出了根据所提出的UPS方法的用户相似度矩阵。在图2d中,我们注意到和之间的相似性很高。此外,和都倾向于高评分,其相似度为0.3153,高于和的相似度。基于这些观察,我们可以得出结论,所提出的相似性度量方法更适合描述用户偏好的特征。

3.3推荐方法

在本节中,我们设计相关算法来为活动用户提供建议。 从3.1-3.2节的分析中,我们首先通过我们提出的方法计算用户之间的相似度,相似度矩阵用表示。 然后,将,和分别确定为具有不同偏好的聚类中心。 最后,基于用户相似性将用户分配给不同的用户组。 由此生成不同的用户组,即积极用户组,消极用户组和中性用户组。 聚类过程完成后,我们可以为活动用户获得k个最近邻居,邻居选择方法定义如下:

定义5假设是活动用户t的邻居集合,|| = k,sub;U.如果tisin;,则sub; 。 如果tisin;,则sub;。 如果tisin;,则sub;。

从定义5,我们知道来自的用户可能成为所有活跃用户的近邻,这是因为来自的用户具有合理的评级,并且对于预测未评级项目很有价值。 相反,来自(或)的用户喜欢高分(或低分),所有这些用户都不能成为来自的活跃用户的邻居。 在为活动用户t获得邻居集之后,我们可以预测评分,如下所示:

为了提供清晰的描述,我们在算法1中显示了我们提出的方法。

算法1基于用户偏好聚类的协同过滤算法(UPUC-CF)

输入:额定值矩阵R,阈值和。

输出:活动用户的预测。

1:使用(6)计算用户之间的相似度,并将生成的相似度矩阵表示为。

2:根据定义3确定聚类中心。

3:根据定义4生成积极用户组,消极用户组和中立用户组。

4:根据定义5获取活动用户的邻近选择范围,然后根据用户之间的相似度生成邻近集。

5:使用(7)预测评分。

为了评估我们提出的算法的性能,时间复杂度的分析是必要的。 聚类中心的选择需要额外的时间成本为O(m),其中m表示用户数量,当我们通过所提出的方法计算用户之间的相似度时,计算复杂度为O(m(m 2))。 总体而言,尽管相似度计算的时间复杂度与传统的基于用户的推荐算法(即O())相比略有增加,但通常离线计算相似度以减少时间复杂性负担。

4实验

4.1数据集

个众所周知的数据集MovieLens(ML)和HetRec2011-MovieLens(HRML)上测试了我们的算法。 ML数据集由明尼苏达大学的GroupLens研究团队收集,其中943名用户对1682部电影进行了评分,评分为100000,每位用户至少有20部电影评级重现。 ML数据集的密度为6.3047%。 第二个数据集HRML在推荐系统中的第二届信息异质性和融合国际研讨会上发布。 我们从HRML数据集中随机抽取1036名用户和1300部电影,评分总数为106210.提取数据集的稀疏度为92.1139%。 另外,每个数据集分为5组。 所有数据中的20%被选作测试集,其余数据为训练集。 对于公正的实验结果,我们通过选择不同的测试集和训练集来进行5倍交叉验证。

4.2评估指标

迄今为止,研究人员已

全文共8277字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[15385],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。