英语原文共 18 页，剩余内容已隐藏，支付完成后下载完整资料

Deep Neural Networks for YouTube Recommendations【论文全文翻译1】

Paul Covington, Jay Adams, Emre Sargin

Google

Mountain View, CA

{pcovington, jka, msargin}@google.com

摘要

YouTube 代表了目前规模最大，最复杂的行业推荐系统之一。在本文中，我们从较高的角度描述了该系统，并着重讨论了深度学习带来的显着性能提升。

本文根据经典的两阶段信息检索二分法进行了拆分：

首先，我们详细介绍了深层候选生成模型，然后描述了一个单独的深度排名模型。我

们还提供从设计，迭代和维护庞大的推荐系统中获得的实践经验和见解，这些建议系统具有巨大的面向用户的影响。

Keywords：recommender system; deep learning; scalability (可扩展性)

1. 介绍

YouTube 是世界上最大的创建，共享和发现视频内容的平台。 YouTube 的建议负责帮助超过十亿用户从不断增长的视频库中发现个性化内容。在本文中，我们将重点介绍最近在 YouTube 视频推荐系统上深度学习产生的巨大影响 (immense impact).

从三个主要方面来看，推荐 YouTube 视频具有极大的挑战性：

Scale: 许多现有的推荐算法被证明可以很好地解决小问题，但无法在我们的规模上运行。高度专业的分布式学习算法和高效的服务系统对于处理 YouTube 庞大的用户群和语料库至关重要。

Freshness:YouTube 具有非常动态的语料库，每秒上传多个小时的视频。推荐系统应具有足够的响应能力，以对新上传的内容以及用户采取的最新操作进行建模。从探索 / 开发的角度来看，可以将新内容与成熟的视频相结合。

Noise: 由于稀疏性和各种不可观察的外部因素，YouTube 上的历史用户行为本来就很难预测。我们很少获得用户满意度的基本事实，而是建模嘈杂的隐式反馈信号。此外，与内容相关的元数据在没有定义良好的本体的情况下结构较差。我们的算法必须对训练数据的这些特定特征具有健壮性 (robust)。

与 Google 的其他产品领域相结合 (In conjugation with)，YouTube 已经发生了根本的模范式地 (paradigm) 转变，即使用深度学习作为解决所有学习问题的通用解决方案。我们的系统建立在 Google Brain （最近在 TensorFlow 中开源）的基础上。TensorFlow 提供了灵活的框架，可使用大规模分布式训练来尝试各种深度神经网络架构。我们的模型学习了大约十亿个参数，并针对数十亿个示例进行了训练。

与矩阵分解方法 (matrix factorization methods) 的大量研究相反 [19]，使用深度神经网络进行推荐系统的工作相对较少。神经网络在 [17] 中用于推荐新闻，在 [8] 中用于引用，在 [20] 中用于评价等级。协作过滤 (Collaborative filtering) 在 [22] 中被模拟为一个深度神经网络，在 [18] 中被模拟为自动编码器。 Elkahkyet 等使用深度学习进行跨域用户建模 [5]。在基于内容的设置中，Burgeset 等人使用深度神经网络进行音乐推荐。

本文的组织结构如下：在第 2 节中进行了简要的系统概述。第 3 节更详细地描述了候选代模型，包括如何训练候选者模型以及如何使用它来提供建议。实验结果将显示该模型如何受益于隐藏单元的深层和其他异构信号。第 4 节详细介绍了排名模型，包括如何修改经典逻辑回归以训练模型以预测预期观看时间（而非点击概率）。实验结果表明，在这种情况下，隐藏层的深度也是有帮助的。最后，第 5 节介绍了我们的结论和经验教训。

2. 系统大致结构（SYSTEM OVERVIEW）

我们的推荐系统的总体结构如图 2 所示。该系统由两个神经网络组成：一个候选代和一个排名。

Figure 2: Recommendation system architecturedemonstrating the “funnel” where candidate videosare retrieved and ranked before presenting only afew to the user.

候选生成网络从用户的 YouTube 活动历史记录中获取事件作为输入，并从大型语料库中检索 (retrieves) 一小部分（数百个）视频。这些候选人通常与高精度的用户相关。候选生成网络仅通过协作过滤来提供广泛的个性化。用户之间的相似性通过诸如视频观看 ID，搜索查询令牌和人口统计等粗略特征来表达

在列表中提出一些 “最佳” 建议需要一个精细的表述，以区分具有较高回忆性的候选人之间的相对重要性。分级网络通过使用描述视频和用户的丰富功能集，根据期望的目标功能，为每个视频分配分数，从而完成此任务。

向用户展示得分最高的视频（按其得分排序）。两阶段推荐方法使我们可以从非常大的视频库（数百万个）中进行推荐，同时仍然可以确保设备上出现的视频数量很少并吸引用户。此外，这种设计可以混合其他来源生成的候选对象，例如早期工作中描述的那些 [3]。

在开发过程中，我们广泛使用离线方法 (metrics)（精度，召回率，排名损失等）来指导系统的迭代改进。但是，对于最终确定算法或模型有效性的方法，主要是通过实时实验进行 A / B 测试。在现场实验中，我们可以衡量点击率，观看时间以及许多其他衡量用户参与度的指标的细微变化。这很重要，因为实时 A / B 结果并不总是与离线实验相关。

3. CANDIDATE GENERATION

在候选人生成过程中，巨大的 YouTube 视频会被逐出数百个可能与用户相关的视频。此处介绍的推荐程序的前身是在秩损失下训练的矩阵分解方法 [23]。我们的神经网络模型的早期迭代使用浅层网络模拟了这种分解行为，该浅层网络仅嵌入了用户以前的观看。从这个角度来看，我们的方法可以看作是分解技术的非线性概括。

3.1 作为分类作推荐（Recommendation as Classification）

我们将推荐作为极端的多类分类，在这种情况下，预测问题变得非常准确，从而可以根据用户 U 和上下文 C 从语料库 V 中准确分类特定视频 wt 观看时间 t，其中包括数百万个视频 i（类）。

其中 uisin;RN 代表用户的高维 “嵌入”，上下文对和 vjisin;RN 代表每个候选视频的嵌入。在这种情况下，嵌入就是将稀疏实体（单个视频，用户等）映射到 RN 中的密集向量。

深度神经网络的任务是根据用户的历史和上下文来学习用户嵌入 u ，这对于用 softmax 分类器区分视频非常有用。尽管 YouTube 上存在显式反馈机制 (explicit feedback mechanisms)（点赞 / 反对，产品内调查等）

我们使用观看的隐式反馈 [16] 来训练模型，其中用户完成视频就是一个很好的例子。该选择基于可提供的更多隐式用户历史记录的数量级，这使我们能够在显式反馈极为稀少的尾部深处产生推荐。

Efficient Extreme Multiclass/ 高效的极端多类

为了有效地训练具有数百万个类别的模型，主要采用了一种从背景分布中抽取负面类别的技术（“候选抽样”），然后通过重要性加权对该抽样进行校正 [10]。对于每个示例，对于真实标签和采样的负类，交叉熵损失最小。在实践中，对几千个负片进行了采样，对应于传统 softmax 的 100 倍以上的加速。一种流行的替代方法是分层 softmax [15]，但我们无法达到可比的准确性。在分层 soft-max 中，遍历树中的每个节点都涉及在通常不相关的类集之间进行区分，这使分类问题变得更加困难并降低了性能

在投放时，我们需要计算最可能的 N 类（视频），以便选择要呈现给用户的最合适的 N。在数十毫秒的严格服务等待时间下对数百万个项目进行评分需要在类数上近似线性的近似评分方案。 YouTube 以前的系统依赖于哈希 [24]，这里描述的分类器使用类似的方法。由于在服务时间不需要来自 softmax 输出层的经过校准的似然性，因此计分问题减少到可以使用通用库的点积空间中的最近邻居搜索 [12]。我们发现，A / B 结果对最近邻居搜索算法的选择不是特别敏感。

3.2 Model Architecture / 模型架构

受连续的单词语言模型 [14] 的启发，我们为固定词汇表中的每个视频学习高维嵌入，并将这些嵌入馈入前馈神经网络。用户的观看历史记录由可变长度的稀疏视频 ID 序列表示，该序列通过嵌入映射为密集的矢量表示形式。该网络需要固定大小的密集输入，并在几种策略（求和，逐分量最大值等）中简单地对执行效果最好的嵌入进行平均。重要的是，嵌入是通过正常梯度下降反向传播更新与所有其他模型参数一起学习的。功能被连接到第一层，然后是几层完全连接的整流线性单元（ReLU）[6]。图 3 显示了通用网络架构，并具有以下所述的其他非视频观看功能。

Figure 3: Deep candidate generation model architecture showing embedded sparse features concatenated withdense features. Embeddings are averaged before concatenation to transform variable sized bags of sparse IDsinto fixed-width vectors suitable for input to the hidden layers. All hidden layers are fully connected. Intraining, a cross-entropy loss is minimized with gradient descent on the output of the sampled softmax.At serving, an approximate nearest neighbor lookup is performed to generate hundreds of candidate videorecommendations./

显示候选稀疏特征与密集特征串联在一起的深度候选生成模型体系结构。在连接之前对嵌入进行平均，以将可变大小的稀疏 ID 袋转换为适合输入到隐藏层的固定宽度矢量。所有隐藏层均已完全连接。训练时，在采样 softmax 的输出上使用梯度下降使交叉熵损失最小化。在服务时，执行近似最近邻居查找以生成数百个候选视频建议。

3.3 Heterogeneous Signals

使用深度神经网络作为矩阵分解的一般化的主要优势在于，可以轻松地将任意连续和分类特征添加到模型中。将搜索历史与观看历史类似地对待 - 每个查询都被标记为 (is tokenized into) 字母组合 (unigram) 和 bigrams，每个查询 token 已嵌入。取平均后 (Once averaged)，用户的标记化嵌入式查询代表了汇总的密集搜索历史记录。人口统计功能对于提供优先级至关重要，因此建议对于新用户而言行为合理。用户的地理区域和设备已嵌入并连接在一起。简单的二进制和连续功能（例如用户的性别，登录状态和年龄）直接以标准化为 [0,1] 的实际值直接输入到网络中

“Example Age” Feature

每秒需要花费数小时的时间将视频上传到 YouTube。对于 YouTube 作为产品，推荐最近上传的（“新鲜”）内容非常重要。我们始终观察到，用户更喜欢新鲜的内容，尽管这样做并不以牺牲相关性为代价。除了简单推荐用户想要观看的新视频的第一效果之外，还有一种严重的辅助现象，即引导和传播病毒内容 [11]。

机器学习系统经常表现出对过去的隐性偏见，因为它们经过训练可以根据历史示例预测未来的行为。视频受欢迎度的分布是高度不稳定的，但是由我们的推荐者在语料库上生成的多项分布会反映出几周的训练窗口中的平均观看可能性。为了解决这个问题，我们在训练过程中以训练示例的年龄为特征。在服务时间，此功能设置为零（或略微为负）以反映模型正在训练窗口的尽头进行预测。

图 4 展示了这种方法对任意选择的视频的有效性 [26]

（见下页）

Figure 4: For a given video [26], the model trainedwith example age as a feature is able to accuratelyrepresent the upload time and time-dependan

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[237676]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

YouTube推荐的深层神经网络外文翻译资料