具有本地和全局一致性的在线协同过滤外文翻译资料

 2022-08-13 15:00:13

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


具有本地和全局一致性的在线协同过滤

协同过滤(CF)是在线推荐系统中使用最广泛的技术之一。现有的大多数CF研究都集中在离线算法上,这些算法的主要缺点是由于离线训练过程的高昂成本,因此无法使用最新的用户反馈实时更新学习的模型。在这项工作中,我们提出了徽标,一种在线CF算法。我们提出的方法基于分层生成模型,通过该模型,我们为预测目标导出了一组局部和全局一致性约束,并最终获得了学习算法的设计。我们进行了全面的实验以评估该算法,结果表明:(1)在在线设置下,该算法的预测结果明显优于基准算法;(2)在离线环境下,该算法可获得与表现最佳的竞争对手相当的准确预测结果;(3)在所有实验中,我们的算法都比比较算法快几十倍甚至几百倍。

介绍

在线推荐系统的主要关注点是如何准确预测用户对购物商品的偏好,以便他们可以向用户做出适当的建议。协同过滤(CF)是最流行的技术之一。经典CF模型包含三个组件:用户,项目和等级。每个评分与一个用户项目对相关联的位置,指示用户对项目的偏好。在实际应用中,每个用户通常只对其中的一小部分进行评分,因此CF模型必须根据手头的几项推断出不可用(或缺失)的评分[19,35].一个典型的CF应用示例如图所示。图。1,其中给出了不完整的4个用户乘4个项目的评分矩阵1为了精确地向用户广告产品,推荐器系统必须首先使用CF算法来预测所有缺少的评分,然后根据观察到的和预测的评分,将产品推荐给用户。

自2006年启动Netflix矩阵完成竞赛以来[27]CF问题引起了很多研究关注[17]特别是,在最近出现的矩阵插补理论的启发下,矩阵补全理论已经得到了很好的建立[4,5].但是,关于工作方案,几乎所有提出的算法

1. CF算法的示例应用,其中问号对应于缺失的等级,带下划线的红色值对应于预测的等级。CF算法用于预测缺少的评分,推荐算法用于根据观察到的和预测的评分向用户宣传产品。此处假定较高的评级值表示较高的用户偏好

在离线模式下工作,在每个训练阶段,他们总是将所有可用数据样本作为输入来学习模型。当数据量很大时,学习过程将非常耗时。例如,假设有一个具有n个用户和m个项目的推荐系统,以训练基于项目的协同过滤模型[30] 为此,我们需要计算基于项目的评级向量的所有成对内积。请注意,系统中共有C2个项对,并且评级向量的长度为n,因此计算的时间复杂度为theta;(nm2)。具体来说,给定一个训练有素的基于项目的CF模型,假设某个评级向量发生了某些变化(例如,观察到某个项目的新评级),要针对该变化调整模型,我们必须重新计算更改后的额定向量与其他(m minus; 1)向量之间的所有内积,这些向量需要theta;(nm)计算。但是,对于许多在线商务平台,这些计算成本太高。例如,据报道在淘宝2是中国最大的在线消费者对消费者平台,大约有10亿用户和20亿个商品[34].根据上面的复杂性结果,训练模型的每次调整都需要ctimes;1018计算,这里c是常数。对于输入流数据的系统,此成本几乎无法接受。另一方面,在实际使用中,总是希望在线推荐系统能够调整其预测并实时改进性能。因此,需要一种可以在线预测并通过逐步学习来调整模型本身的CF算法,或者在线CF算法。

在这项工作中,我们提出了Logo,一种新颖的在线CF算法。与传统的离线CF模型不同,Logo采用“接受全部培训(可用评分),并针对全部进行预测(缺少评分)”方案,Logo会学习该模型并使用它来进行增量预测。具体来说,在徽标模型中,由一组预测变量组成,每当评级预测请求到达时,模型就会以预测变量产生的估计值进行响应。另外,假设在做出预测后,将显示所查询目标的真实值,并且该算法必须使用该值立即调整预先学习的预测值。

徽标一词代表具有本地和全局一致性的学习。如后所述,徽标基于评级数据的三层统计模型,其中第一层由各个等级组成,第二层基于第一层的分布,第三层基于分布第二层。通过这种表示,第一层评级的估计值应与第二层模型(本地一致性)一致。同时,估计值的引入最终将导致第二层分布的变化。这些更改应与第三层模型(全局一致性)一致。

总而言之,本文的贡献是三方面的:首先,我们为用户项目评级提出了一个三层生成模型,在此模型的基础上,我们将预测问题重塑为一个使用一组局部和最小化派生目标函数的预测问题。全球限制。其次,我们为优化目标提出了一种有效的求解算法,该算法仅需theta;(k)时间即可进行评级预测,其中k是评级域的大小。第三,为了进行评估,我们对四个真实世界的大规模数据集进行了综合实验,所有结果表明我们的算法与最新方法相比具有竞争力。

相关作品

对于CF问题已经做出了许多努力,有关详细信息,我们请读者参考Koren等人的全面调查。[17].根据工作方案,所有这些作品可以分为离线模型和在线模型。

.

    1. 离线CF模型

离线模型大致可以分为三种类型:邻域模型,因子模型和深度模型。

原则上,邻域模型基于流形假设[22],其中相似的用户应具有相似的偏好(或相似的项目应具有相似的评分)[14,38].因此,算法通常分两个步骤工作:首先,它们计算目标用户(项目)与其他用户(项目)之间的相似度;其次,他们通过融合所有观察到的目标项目(用户)的评分以及在第一步中获得的所有相似度值来生成预测。

因子模型通常采用ntimes;m矩阵R来存储n个用户对m个项目给出的评级,并假定R可以近似为一组低秩因子矩阵的乘积,即Rasymp;Z1 * Z2 *···Zl[13,17,24].为了预测目标等级(例如,Ri,j),算法首先估计因子矩阵Zcirc;1,Zcirc;2,...。..,Zcirc;l具有观察到的额定值,则得出的估计值如下:Rcirc;i, j=(Zcirc;1 lowast; Zcirc;2 lowast;···lowast; Zcirc;li, j

最近出现的深度模型吸引了许多研究关注[32,36].进口区别

深度模型和常规模型是对象的表示:在常规模型中,表示是通过经验特征工程进行的;而在深度模型中,表示主要是通过学习进行的。因此,与常规模型相比,深度模型需要额外的训练以学习表示。

综上所述,所有离线模型都严格遵循“离线训练-在线预测”的方案,在训练过程中,它们总是消耗所有可用于学习预测变量的数据样本,因此时间成本很高,因此,这些模型不适用于需要在新样本到达后实时调整学习到的参数的流数据处理应用程序。

    1. 在线CF模型

很少有致力于在线CF模型的工作,这些工作中的大多数可以被认为是基于潜在因子的表示模型,并且可以分为两种类型:稀疏模型和密集模型。

稀疏模型集中于表示的简约性。在线词典学习模型是开创性的工作[25]假设存在一个(潜在)字典矩阵,并且每个(潜在)特征向量(即用户特征向量和项目特征向量)都可以表示为字典列向量的稀疏组合。但是,要使用新观察到的等级更新学习的参数,该模型必须调用耗时的LARS[9] 求解器,对于大规模在线学习应用而言效率非常低。Lin等。[21] 从另一个角度探讨模型稀疏性,他们假设(潜在)特征向量本质上是稀疏的,并使用41个正则化项来增强稀疏性。关于时间效率问题,该算法基于坐标交替最小二乘(ALS)方法,与Mairal等人的算法相比,其收敛速度更快。[25] 在实证研究中。

稠密的CF方法不需要为模型的稀疏性提供保证,因此,随机梯度下降(SGD)方法被广泛使用。Ling等。[23] 和王等。[33] 已经提出了类似的模型,它们都采用与概率矩阵分解模型相同的正则化损失[29],并采用SGD作为求解算法。这两种方法之间的主要区别在于Ling等人。[23],对个体执行SGD步骤(即个体用户特征向量和个体项目特征向量);而在Wang等人中。[33]然后,对这些组(即,与一组相似用户相对应的特征向量组以及与一组相似项相对应的特征向量组)执行SGD步骤。但是我们注意到,这两种方法都属于一阶在线优化方法,可能会导致收敛速度相对较慢。

Ling等。[23] 和王等。[33] 仅考虑Koren著名的SVD 模型中的显式评级[18],表明预测模型也可以从隐式用户反馈中受益。他等。[12] 提出了一个在线CF模型,其中考虑了隐性因素。在提出的模型中,预测步骤基于改进的ALS方法,与传统的ALS方法相比,改进的ALS方法将时间复杂度降低了潜在特征维数d的数量级。但是,在更新步骤中,模型需要theta;(d2)时间来更新学习的特征向量,对于流数据处理系统而言,此成本太高。可以将上述所有密集模型视为相应离线CF方法的在线化变体,此外,还对在线CF算法进行了一些直接探索。金发女郎等。[3] 提出了一种在线非负矩阵分解方法,该方法基于在线分类算法PA(即被动攻击(PA)学习模型)[8]),但是我们注意到在该模型中,它需要维护两个特征矩阵(即用户特征矩阵和项目特征矩阵)

提议方法

    1. 初赛

从这里开始,我们使用大写字母(例如X,Y,Z,...)表示随机变量,并使用小写字母表示实例。

2.评级生成模型,我们假设R的每个评级均来自高斯分布N(mu;,sigma;2),此外,每个先前的[mu;,sigma;]T均由a得出超高斯分布N(▲,Sigma;)也是如此。

我们的工作主要基于信息论。下面我们介绍本文中使用的一些定义和初步结果。大多数都可以在[7].

设P为一个分布,其中p(X)为X〜P的概率密度函数(pdf),则X的熵定义为

H(X) = minus; int;p(x) ln p(x)dx. (1)

具体地说,在p(X)是高斯的情况下,令X〜N(mu;,Sigma;),其中mu;是平均值,而Sigma;是协方差矩阵,则H(X)=1ln(2pi;e)d )|Sigma;|,其中d是X的尺寸,|Sigma;|是Sigma;的行列式特别地,如果d = 1,则Sigma;退化为X的方差,表示Sigma;=sigma;2,则H(X)=1ln2pi;esigma;2

2

2

在编码理论的上下文中,H(X)也是X以e为底的最小预期编码长度。因此,作为替代表达式,下面我们表示Len(X)= H(X),称其为X的最小编码长度;和Len(x)= minus; ln p(x),则称其为x的最佳编码长度(或简称为x的长度)。

设x1,x2,。..,xn〜P,当n足够大时,根据大数定律,可以通过xis的平均编码长度来估计Len(X)

.

.

其他一些采用的表示法包括行评级集Ri和列评级集Cj,其中Ri由第i行的所有非零值组成3,而Cj由第j列的所有非零值组成。

    1. 评级生成模型

在本节中,我们介绍用户项目评分的生成模型。

我们提出的模型如下所示图2,在给定n(用户)

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[236255],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版