基于规则标签和用户操作的个性化资源推荐外文翻译资料

 2021-12-26 04:12

英语原文共 13 页

基于规则标签和用户操作的个性化资源推荐

刘思思 刘永坚 解庆

武汉理工大学计算机科学与技术学院,武汉,430070,中国

摘要:在传统的基于标签的推荐系统中,社会化标签数据的稀疏性和不纯性大大增加了数据处理的复杂度,并且影响了推荐的准确性。针对这些问题,我们从资源提供者的角度出发,提出了一种基于规则标签和用户操作反馈的资源推荐框架。在此基础上,我们结合规则标签、用户操作和时间因子的信息来设计用户特征的表示,以准确发现不同标签上的用户偏好。并且,通过分析不同用户的一般偏好模型,我们设计了基于协同过滤机制的个性化推荐算法,并在一个具有大量用户和标签数据的真实推荐系统进行了实验评估。与传统的基于用户的协同过滤和基于社会化标签的协同过滤相比,我们的方法能够有效地缓解标签数据和用户评级数据的稀疏性问题。同时,我们提出的用户特征更加准确,能够提高推荐系统的性能。

关键词:规则标签;用户操作;用户偏好模型;协同过滤;推荐系统

1 绪论

在信息时代,推荐系统被设计为通过分析用户和物品的特点来向不同的用户推荐相关的物品。它在很多成功的系统实例中得到了应用,如亚马逊的产品推荐系统、Netflix、MovieLens等等 。

随着Web 2.0的发展,用户不再只满足于基于关键字的检索方式获取到的信息,更倾向于根据自己的喜好来获得个性化的信息服务。因此,标签技术应运而生,如分众分类系统,使用户可以自由地创建和使用标签来描述Web上的资源,也可以与其他用户共享标签。通过这种方法可以有效增强资源之间的相关性和用户之间的交互性,因为描述资源和用户信息的标签能够更灵活、准确地表示资源特征和用户兴趣偏好。

随着标签技术的发展,基于标签的个性化信息推荐的概念被提出,如基于标签的推荐系统。米什恩首先设计了一个简单的自动标签分配系统,它通过比较和聚合用户的博客信息来生成一个标签列表,然后过滤和排序这些标签,从而得到一个结果集合来向用户进行推荐。菲兰等人认为社会化标签不仅可以表示Web上的资源,还可以表示用户的偏好。此后,越来越多的研究者将标签技术应用于个性化推荐领域,并取得了良好的效果。例如,Chen等人将标签映射到用户和内容进行过滤,提出了一种考虑标签与社交网络相关性的混合推荐方法;Ma等人提出了一种基于社交网络和标签的协同推荐系统,并引入信任网络来提高推荐的置信度。然而,基于标签的推荐系统不得不面对数据稀疏的问题,这严重影响了推荐系统的效率和有效性。基于这种情况,我们在本文中提出了一种创新的基于标签的资源推荐的解决方案。

在基于标签的推荐系统中,数据稀疏性的原因在于,由于用户自由地打标签而产生了潜在的无限制的社会化标签集合。这种情况同时也会生成噪声标签,导致标签冗余和语义模糊的问题,增加推荐过程的负担,也降低了推荐的准确性。因此,我们在实际应用中从资源提供者的角度出发,设计了基于规则标签和用户行为的推荐算法,以便有效降低标签噪声和数据稀疏性。规则标签是由官方资源提供者创建和维护的标签,能够更加准确、更加严格地描述资源的内在属性。用户行为是用户浏览资源时的操作,可以看作是对资源提供者的反馈,同时反映了用户的偏好。

通常来说,大多数推荐系统都是基于用户群和物品群的标签记录,通过协同过滤来进行推荐的。然而,由于稀疏标签矩阵的存在,这些系统缺乏可扩展性。而且在推荐过程中,它们忽略了用户个体的个性化特征。在本文中,我们提出了一种通过结合规则标签和用户操作而构建的“隐式”用户-物品评分模型。我们综合了资源标签特征、用户操作和时间因子来表示用户特征,利用用户操作对用户-标签矩阵进行加权,从而嵌入用户偏好。基于用户表示和规则标签,我们分析了用户对现有资源和潜在新资源的偏好。在推荐过程中,计算目标用户及其相似用户在新资源物品上的偏好得分,形成一个排名列表,最终采用协同过滤的方法进行推荐。

我们总结这项研究的贡献如下:

·从资源提供者的角度设计推荐系统,提出利用规则标签来生成标准标签

系统;

·提出了一种新的结合了标签特征、用户操作和时间因子的用户特征表示模型。

·在实际系统中,通过大量的真实数据对该方法进行了评估。

本文的以下部分组织如下:在第二部分中,我们介绍了基于标签的推荐方法的相关研究。第三部分详细阐述了基于规则标签的个性化推荐策略。实验研究载于第四部分。在第五部分中,总结了我们的研究。

2 相关研究

3 基于规则标签的资源推荐

在本节中,我们将详细阐述基于规则标签和用户操作的推荐方法。我们将正式介绍一些基本概念,然后解释如何通过基于标签的信息来表示用户。在建立用户偏好模型后,我们给出了协同过滤机制下的推荐算法。

3.1预备知识

在本研究中,我们从资源提供者的角度出发,设计了基于规则标签的推荐模型。规则标签是由资源提供者创建并分配给每个资源物品,用来描述其特征的标签。例如,一本图书可以被分配如下的规则标签:科幻小说中文以及太空旅行。我们采用规则标签,是由于它比社会化标签更准确、更严格。在实际应用中可以有效降低标签的稀疏性、冗余性和模糊性。通常在推荐系统中,我们假设规则标签集的大小为l,该集合可以表示为T = {t1, t2,hellip;,tl }。用户集合中包含m个用户,物品集合中包含n个物品,它们可以分别表示为U = {u1, u2,hellip;, um}, I = {i1, i2,hellip;,in}。

我们还关注用户对资源的反馈,这些反馈可以返回给资源的提供者。传统的用户评分机制并没有完全衡量用户的偏好,因为通常情况下,被评分的物品不超过物品总数的1%。所以在大规模的推荐系统中,用户的评分数据会非常稀疏,这会降低推荐系统的质量。因此,我们将浏览资源后的用户行为作为隐式的用户评分进行收集。例如,用户在浏览一本图书后会进行阅读、分享或购买的操作。不同的操作将反映用户对于物品的偏好。例如,一个用户在浏览商品A后与其他人进行分享,而在浏览商品B后什么也没有做。这就说明了与商品B相比,用户更喜欢商品A。在系统中,我们假设定义了f种操作,记为O = {o1, o2,hellip;,of}。针对每个操作oi,我们分配权重wi(1le;wile;f)来表示其重要性,以量化用户之间的区分性。

基于上述概念,我们建立了标签、用户、物品和操作权重之间的关系。当然,我们可以收集到描述每个资源物品的规则标签的信息,则物品-标签关系可定义为:

其中rjk = 1表示使用了标签tk来描述物品ij, 反之,rjk = 0表示没有使用标签tk。对于每个用户,我们可以收集他对每个资源物品的操作,并将用户-物品的关系构建为:

其中sjk记录了用户uj在第ik个物品上的操作权重。在这里,如果uj对ik不做操作,则sjk = 0。

鉴于用户在每一个物品上的操作行为都可以表现自己的偏好,我们可以结合R和S来建立用户与标签之间的关系,从而可以估算出用户在不同标签上的偏好。根据分配给每个操作的权重,我们可以得到加权的用户-标签关系:

gjk表示用户uj对标签tk的权重偏好,由如下公式计算:

由此可见,gjk是用户uj对标签tk的相关资源的操作累积的结果。通过这种加权的用户-标签关系,可以更加准确地估计每个标签上的用户偏好,从而反映出用户的兴趣

3.2 用户特征表示

为了进行个性化推荐,必须找到有效的表征来反映不同用户的区分性特征,这对于发现相似的用户也很重要。

用户特性由物品的属性和显示不同偏好的用户操作得出。与文本处理类似,虽然TF-IDF技术用于表示不同用户的标签特征向量,但它只描述了标签频率的信息,不足以有区别性地描述用户特征。例如,用户A和B同时浏览图书C,但是A购买了图书,这表明用户A比B更喜欢这本书。为此,我们考虑通过关于用户的三个方面来构建其特征表示:标签特征、操作特征和时间因子。

标签特征 在本研究中,标签特征是使用用户的收藏标签来表示用户偏好的特性。通过使用归一化的TF-IDF技术来计算标签特征向量,对于用户u和标签tk,我们有:

这里vutk是用户u使用标签tk的次数,vtku是使用标签tk的用户数,所以能够反映用户u对标签tk的偏好。

操作特征 资源物品上的用户操作是能够反映用户对于物品的偏好的重要信息。在预备知识部分,我们介绍了操作加权的用户-标签关系,用户的操作特征将基于这种关系。

在本研究中,我们将利用用户长期的普遍偏好来生成其操作特征,从而提高用户对不同标签的区分度。对于用户u和标签tk,其操作特性计算为:

这里guk(1 le; j le; l)是通过公式(1)计算得到的加权的用户-标签偏好,vutk则用于标准化。lambda;表示用户操作权重的最小值,用以消除不同用户的操作偏差。公式(3)反映了根据实际操作针对不同标签的用户特征。

时间因子 此外,我们关注一个反映用户偏好的有趣的因素:时间因子。一般认为,最新收集的资源最能反映用户的兴趣,即,最新使用的标签最能描述用户的偏好。基于自适应指数衰减函数,一种基于遗忘机制的用户兴趣模型被提出,用以处理标签的时间信息。在研究中,我们运用自适应时间衰减函数和艾宾浩斯遗忘曲线的思想,基于时间因子来定义用户特征。对于用户u在标签tk上的公式设计为:

这里dnow表示当前时间点,dutk表示用户使用标签tk的最后一次时间。beta;isin;[0,1]用来调整时间因子对于用户的兴趣的影响程度,beta;越小则时间因子的影响程度就越大。

综合表现 根据以上分析,现在可以正式地描述我们的用户偏好模型。描述用户基于标签的偏好的用户特征表示可以由标签特征、操作特征和时间特征来表示。对于用户u和标签tk,我们有:

所以用户u的特征向量为: Fu = {Fut1, Fut2, . . . , Futl}。

3.3 用户-物品的偏好分析

用户对物品的偏好通常通过用户的历史行为进行分析。传统的协同过滤算法是基于用户的评价来反映用户的兴趣偏好以及评估资源的相似性的,却忽略了用户和资源的特点,从而大大降低了对新资源物品推荐的质量。我们提出基于所有物品的规则标签特征,通过用户本身和相似用户的预测得分来分析用户偏好。用户-物品偏好可以分为两类:一类是用户对历史物品的偏好,即那些曾经浏览过的物品;另一类是针对新物品。

对于历史物品的偏好 用户对历史资源的偏好可以通过用户-物品关系S来估计。对于那些已经浏览过的物品,用户操作用于对物品的浏览记录进行加权。用户uj对于物品ik,其用户物品偏好可以估算为:

这里将结果归一化,以便进行进一步的分析,而sjk来自于用户-物品关系矩阵。

对于新物品的偏好 对于新物品,不存在现有的用户操作记录。但是,对于每个新物品,可以在创建物品时确定资源特征(标签),因此可以通过比较用户特征和物品标签记录来估计用户偏好。用户uj对于新物品ik,我们通过以下公式设计针对新物品的标准化的用户偏好:

这里rki来自物品-标签关系矩阵,Fjti为用户特征值。

3.4 Top-K推荐算法

最后,我们介绍个性化推荐算法,该算法根据用户的个人喜好将新的资源物品推荐给不同的用户。我们的框架遵循协同过滤机制。为了向用户推荐新物品,算法将考虑目标用户及其相似用户的偏好,并对偏好评分进行排序,为目标用户提供其最喜欢的物品。

首先,对于目标用户,我们需要找到他的相似用户。根据公式(5)的用户特征表示,我们选取余弦相似度来计算目标用户与其他用户之间的相似度得分,如下所示:

在形式上,给定一个目标用户uj,并为其设置一

资料编号:[3523]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。