TopicMF:同时利用评级和评论进行推荐外文翻译资料

 2021-12-29 10:12

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


TopicMF:同时利用评级和评论进行推荐

摘要

尽管自由形式的评论文本在语义上反映了用户的偏好,但是这些丰富的信息并没有被充分地用于学习推荐模型。具体来说,几乎所有现有的推荐算法都只是利用评分来寻找用户的偏好,而忽略了包含评分信息的评论文本。在这篇文章中,我们提出了一个新的矩阵分解模型(称为Top-icMF),它同时考虑了评分和伴随的评论文本。在22个真实数据集上的实验结果表明,我们的模型优于最先进的模型,证明了它对推荐任务的有效性。

介绍

推荐系统已经成为当今个性化在线业务(例如亚马逊)的核心组件,其核心是识别每个用户偏好的个性化算法。最著名的算法利用协作过滤技术,分析用户之间的关系和产品之间的相互关系,以识别新的用户-项目关联。在所有CF算法中,最成功的算法是潜在因素模型,Netflix Prize竞赛(贝尔和科伦,2007年)证明了这一点。这些模型试图通过根据评级模式推断出的20或100个因素来描述项目和用户,从而解释用户评级。在某种意义上,这些因素构成了人类创造基因的计算机化替代物。潜在因素模型的代表性实现之一是基于矩阵分解(Koren,Bell,和Volinsky 2009)。在其基本形式中,矩阵分解通过从用户-项目评级矩阵推断的因子向量来表征项目和用户。项目和用户因素之间的高度一致性导致推荐。最近,这些方法以良好的可伸缩性和预测准确性而广受欢迎。

在学习潜在因素模型时,他们认为一个理所当然的假设是,用户对一个项目的评分是由所有同等重要的因素决定的。具体来说,评级是相应用户和项目向量之间的内积。在某些情况下,也可以合并针对不同用户和项目的双例(Koren,Bell和Volinsky 2009)。然而,在真正的sce-nario,情况可能并非如此。根据我们的观察,用户通常只根据他们特别关心的几个因素给一个项目打分。例如,当给电影《虎胆龙威》打分时,不同的用户可能会关心不同的因素。换句话说,当用户给一个项目打分时,因素应该有不同的重要性等级。

另一方面,推荐系统通常基于用户先前的反馈(例如,评论或自由形式的评论文本)来预测用户的偏好。评分可以告诉我们用户是喜欢还是不喜欢某个项目,但不能告诉我们为什么。相比之下,如果该评分与一段评论文本相关联,我们可以理解用户为什么喜欢或不喜欢该项目。例如,用户可能出于不同的原因(例如布鲁斯·威利斯的粉丝或动作片)给电影《虎胆龙威》打分最高。然而,通过用户的评论“布鲁斯威利斯摇滚!”,我们可以推断这个用户最喜欢这部电影,因为他是布鲁斯·威利斯的粉丝。有点令人惊讶的是,审查案文没有得到充分利用来提出建议。相反,现有推荐系统的大部分工作集中在通过使用显式的评分来发现用户的偏好,而评论文本中的有价值的信息被完全忽略。利用文本信息的研究很少没有将文本信息的潜在因素与用户项目评分矩阵的潜在因素联系起来,这极大地影响了算法的可解释性。

本文旨在弥补上述两个缺陷,提出了一种矩阵分解模型,称为Top-icMF,用于通过分解因子来学习推荐器模型,这些因子利用了在重看文本中语义隐藏的信息。具体来说,我们在推荐系统中使用有偏矩阵分解进行评分预测,同时采用主题建模技术(即非负矩阵分解(NMF))对评论文本中的潜在主题进行建模。我们通过使用从项目和用户潜在向量到主题分布参数的转换来调整这两个任务。通过这样做,我们将评级数据中的潜在因素与用户评论文本中的主题结合起来。此外,我们可以通过调整转换函数来处理潜在因素的不同重要程度。请注意文本评论包含的信息比一个简单的评分更丰富。在这种情况下,我们的模型能够比那些只考虑评级信息的模型更好地处理数据稀疏(即冷启动)问题。在22个真实数据集上的实验分析表明,与最先进的潜在因素模型相比,该方法具有更好的推荐性能。

相关著作

在这一部分,我们回顾了几种相关的推荐方法,包括(1)基于潜在因素的推荐系统,(2)近年来备受关注的语义增强推荐系统。

由于其处理大数据集的效率和推荐的相当有效的性能,已经提出了几种低维矩阵逼近方法。这些方法侧重于使用低秩近似拟合用户-项目评分矩阵,并利用该矩阵进行进一步预测。低秩矩阵分解方法在训练中非常有效,因为它们假设在用户项目评级矩阵中,只有少数因素影响偏好,并且用户的偏好向量由每个因素如何应用于该用户来确定。基于最小化平方和误差的低秩矩阵近似可以使用奇异值分解(奇异值分解)容易地解决(Koren 2008)。例如,Salakhutdinov等人。(2008a)通过假设一些高斯观测噪声对观测到的用户项目评级,提出了一个概率图模型。该模型取得了良好的预测结果。在他们接下来的工作中(萨拉赫胡蒂诺夫和Mnih 2008b),高斯-维沙特先验被放置在用户和项目超参数上。由于精确推理在新模型中难以实现,提出了吉布斯抽样方法来迭代学习用户和项目潜在矩阵。然而,这些潜在因素模型存在着普遍的局限性:1)学习到的潜在空间不容易解释;2)在生成模型时,对因素同等重要性的假设不同于现实。

也有一些工作试图在推荐系统中将评论和评论文本结合在一起,推荐系统被称为语义增强推荐系统。这些方法试图解释从评级中因素化的潜在因素。例如,Ganu等人。(2009)依赖于人类播音员提供的领域知识,从评论文本中提取“明确的”方面信息(例如价格),从而利用评级预测。我们的工作与它有很大的不同,因为我们的目标是从复习课文中自动学习“隐含的”主题方面,并把它们与潜在因素合理地联系起来。还有一些工作已经考虑自动识别评审维度。例如,fLDA (Agarwal和Chen 2010)从矩阵分解扩展而来,通过明确的用户特征和与每个项目相关联的单词包,以监督的方式规范用户和项目因素。它采用离散因子来处理之前通过LDA规范的项目。相反,在我们的模型中,用户潜在因素和项目因素与主题参数同时优化。另一项类似的工作,在(王和布雷2011)提出,根据文章内容和用户的历史评分向用户推荐科学文章。Wang等人(2013)设计一个监督主题模型,同时考虑文本和用户项目评分信息。然而,这些方法不同于我们的方法,因为通过LDA学习到的潜在因素不一定与用户和项目因素相关,这些因素来自评级矩阵上的矩阵分解。

最接近我们的工作是由麦考利和耶斯科维克(2013)提出的。他们将潜在评级维度(用户和项目因素)与HFT模型中的潜在审查主题联系起来。然而,潜在主题可能仅与HFT的潜在用户(或项目)因素相关,而在我们的方法中,潜在主题与用户和项目因素同时相关,很好地反映了真实世界场景。此外,他们学习每个项目(或用户)的主题。相比之下,我们学习每个评论的主题,这可以更好地映射到用户的评级行为,从而进一步提高评级预测的准确性和可解释性。

准备工作

问题定式化

我们研究的问题与通常只考虑用户-项目评分矩阵的传统推荐系统略有不同。我们还考虑了语义证据。假设有I用户和J项目。每个观察到的数据点是一个4元组(i,j,rij,dij),其中i isin; {1,2,...,I}是用户索引,j isin; {1,2,...,J}是项目索引,rij isin;R是用户I分配给项目J的评级值,dij是用户I写入项目J的审阅文本,dij = 1表示没有相应数据点的审阅文本。

我们研究的问题实质上是如何利用语义证据和服务后的用户项目评分矩阵,有效地预测用户项目评分矩阵的缺失值。

推荐的矩阵分解

推荐系统中一种有前途的方法是对用户-项目评分矩阵进行量化,并利用量化的用户-项目-特定矩阵进行进一步的缺失数据预测(Salakhutdinov和Mnih 2008a科伦、贝尔和沃林斯基2009)。在推荐系统中,给定Itimes; J用户-项目评价矩阵R = [rij ]Itimes; J,低秩矩阵分解方法试图通过k秩因子R asymp;UT V的乘积来近似评价矩阵r,其中U isin; RKtimes;I和V isin; RKtimes;J。参数k控制每个用户和项目的潜在因子的数量,该数量通常比I和j小得多。

在该模型中,每个用户I由一个K维特征向量uiisin;RK表示,而每个项目j的第I列由一个K维特征向量vj isin; RK表示,第j列由V表示。用户I对项目j的预测结果等于相应用户和项目特征向量的内积:

其中u(i)和v(j)分别是关于用户I和项目j的偏置项,并且是全局偏置项。

目标是通过最小化以下正则化平方误差损失来计算给定观察到的评级矩阵的用户和项目的潜在表示:

其中u、v和B是控制正则化强度的参数,目的是避免过度拟合,∣∣2符合Frobenius范数。cij作为评级rij的置信度参数,其中较大的cij意味着我们更信任rij。rij = 0可以解释为用户I对项目j不感兴趣或不知道。因此,rij gt; 0应该比rij = 0具有更高的置信度。类似于(胡克伦和沃林斯基,2008年;王和Blei 2011),我们为不同的评级引入不同的置信参数cij。此外,在我们的方法中,我们可以进一步证明cij是与评论质量相关的指示函数。审查质量越高,表明cij值越大。具体来说,我们有

其中a和b是满足agt;b ge;0的参数。qij是dij的质量(即有用性),其中,如果dij = 1(评论不可用),qij = 0。如果有用投票不可用,每次审查的有用性可以适度计算(Ghose和Ipeirotis,2011年)。

U和V的局部最优解通常可以通过迭代算法找到(Hu,Koren,和Volinsky 2008),其中我们交替更新U和V,同时保持另一个矩阵不变。然后,我们可以使用等式1来预测项目的缺失评级。

主题建模

主题建模技术被用来发现评论文本中隐藏的“主题”,其中主题是在单个主题下围绕那些相关联的术语(即单词)的分布。最简单的主题模型——潜在的Dirich-let分配(LDA) (Blei,Ng和Jordan 2003)不适合我们的问题。相反,我们使用NMF进行我们的研究,因为它独立地估计每个文献在隐藏主题上的概率分布。2008年)。这就是我们研究的情况,因为我们将每个关于隐藏主题的评论的概率分布与相应的潜在用户和项目因素联系起来。

给定评论数据集[dij]iisin;j和n个单词(每个单词n isin;{1,2,hellip;,N}),让w =[Wdijn]ijtimes;n表示单词到评论矩阵:Fdijn是单词n在评论dij中的频率。我们进一步重新缩放Wdijn = Wdijn/TN,其中TN是总字数。与MF不同,NMF有一个限制,即分解因子中的所有条目都必须是非负的。NMF试图找到两个非负矩阵因子Qisin;RIJtimes;K和∮isin;RNtimes;K (K限制为等于矩阵分解中的因子数),其中两个矩阵的乘积是原始矩阵的近似值:

其中和。它们

是通过最小化:

其中是的第n行,是

Q第ij排。

主题模型

我们的主题模型试图将模糊推理用于预测评级和NMF用于揭示评论文本中潜在的主题因素的思想结合起来。特别地,我们将主题因素与用户和项目的相应潜在因素相关联。

更具体地说,正如预备知识一节所展示的,我们为每个评论学习一个主题分布(Qdij)。这实际上记录了用户I对项目j谈论的每一个K主题的程度

鉴于我们将用户的评级模式与她的评估模式联系起来的动机,我们需要独立地学习评级参数和评估参数。一方面,vj代表项目j占据的一组特定属性,而ui代表用户I对相应项目特征的偏好。另一方面,dij编码用户I对项目j的偏好。因此,我们定义dij同时受用户界面和vj的影响(见图1)。

图1:参数之间的关系。

更重要的是,Qdij的每个组成部分,例如Qdijk,预期与相应的用户因素和项目因素(例如uik和vik)正相关。也就是说,如果某个项目对某个因素的绝对评价较高,或者某个用户对某个因素的值较高(就绝对值而言),那么相应的因素将在审查中得到更多的讨论。为了捕捉这种相关性,我们提出以下加法变换函数(缩写为A-T):

其中引入参数K1和K2来缓和转换。直觉上,更大的K1意味着用户更受目标项目的主要属性(喜欢或不喜欢)的吸引,而较小的K1意味着用户倾向于平均地谈论目标项目的所有特征。类似地,大K2意味着用户总是倾向于谈论他们关心的非常重要的因素,而小的一个意味着用户关心所有的属性,并且愿意在评论中讨论它们。正式地说,K1,K2→1,Qdij将采用仅针对ui或vj的最大索引值取值1的单位矢量。如果K1,K2→0,Qdij接近均匀分布。请注意,通过对k1和k2的控制,我们相当程度上实现了放松因素同等重要性假设的目标之一。

等式7是变换函数(缩写为M-T)的乘法形式,它也捕捉了主题因素与用户和项目因素的单音关系。

其中k与等式6中的k1和k2具有相同的目的。评级矩阵R和评论矩阵W中的两个潜在空间因此通过我们提出的两个变换函数连接。此外,评价矩阵中的潜在空间可以为评价矩阵中的每个潜在因素提供语义描述(即主题)。

我们的模型的目标是学习最佳的U和V来精确地建模用户的评价,但同时,在转换函数的约束下,根据评论获得最可能的主题。因此,我们使用NMF发现等式5中隐藏的主题,从而达到主题模型的以下目标函数:

其中有一个参数入可以平衡预测和主题建模的性能。梯度下降用于更新和k.使用公式6(称为TopicMF-AT)计算给定公式9的相应梯度的细节如下:

因此,使用等式7(称为TopicMF-MT)的梯度下降的细节如下:

回想一下,我们的目标是同时优化与评级相关的参数(即i,e,u和v),以及与主题相关的参数(即i,e,Q和)。如上所述,u和v通过等式9或10中梯度下降拟合,同时通过等式5更新。因此,我们设计了一个在以下两个步骤之间交替的过程:

更新

更新

对于等式11的第一步,我们通过常用的非线性优化包

全文共10934字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[3038]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。