A fast learning algorithm for deep belief nets

1 Introduction

Learning is difﬁcult in densely-connected, directed belief nets that have many hidden layers because it is difﬁcult to infer the conditional distribution of the hidden activities when given a data vector. Variational methods use simple approximations to the true conditional distribution, but the approximations may be poor, especially at the deepest hidden layer where the prior assumes independence. Also, variational learning still requires all of the parameters to be learned together and makes the learning time scale poorly as the number of parameters increases.

We describe a model in which the top two hidden layers form an undirected associative memory (see ﬁgure 1) and the remaining hidden layers form a directed acyclic graph that converts the representations in the associative memory into observable variables such as the pixels of an image. This hybrid model has some attractive features:

1. There is a fast, greedy learning algorithm that can ﬁnd a fairly good set of parameters quickly, even in deep networks with millions of parameters and many hidden layers.

2. The learning algorithm is unsupervised but can be applied to labeled data by learning a model that generates both the label and the data.

3. There is a ﬁne-tuning algorithm that learns an excellent generative model which outperforms discriminative methods on the MNIST database of hand-written digits.

4. The generative model makes it easy to interpret the distributed representations in the deep hidden layers.

5. The inference required for forming a percept is both fast and accurate.

6. The learning algorithm is local: adjustments to a synapse strength depend only on the states of the presynaptic and post-synaptic neuron.

7. The communication is simple: neurons only need to communicate their stochastic binary states.

Section 2 introduces the idea of a “complementary” prior which exactly cancels the “explaining away” phenomenon that makes inference difﬁcult in directed models. An example of a directed belief network with complementary priors is presented. Section 3 shows the equivalence between restricted Boltzmann machines and inﬁnite directed networks with tied weights.

Section 4 introduces a fast, greedy learning algorithm for constructing multi-layer directed networks one layer at a time. Using a variational bound it shows that as each new layer is added, the overall generative model improves. The greedy algorithm bears some resemblance to boosting in its repeated use of the same “weak” learner, but instead of reweighting each data-vector to ensure that the next step learns something new, it re-represents it. The “weak” learner that0020is used to construct deep directed nets is itself an undirected graphical model.

Figure 1: The network used to model the joint distribution of digit images and digit labels. In this paper, each training case consists of an image and an explicit class label, but work in progress has shown that the same learning algorithm can be used if the “labels” are replaced by a multilayer pathway whose inputs are spectrograms from multiple different speakers saying isolated digits. The network then learns to generate pairs that consist of an image and a spectrogram of the same digit class.

Section 5 shows how the weights produced by the fast greedy algorithm can be ﬁne-tuned using the “up-down” algorithm. This is a contrastive version of the wake-sleep algorithm Hinton et al. (1995) that does not suffer from the “mode-averaging” problems that can cause the wake-sleep algorithm to learn poor recognition weights.

Section 6 shows the pattern recognition performance of a network with three hidden layers and about 1.7 million weights on the MNIST set of handwritten digits. When no knowledge of geometry is provided and there is no special preprocessing, the generalization performance of the network is 1.25% errors on the 10,000 digit ofﬁcial test set. This beats the 1.5% achieved by the best back-propagation nets when they are not hand-crafted for this particular application. It is also slightly better than the 1.4% errors reported by Decoste and Schoelkopf (2002) for support vector machines on the same task.

Finally, section 7 shows what happens in the mind of the network when it is running without being constrained by visual input. The network has a full generative model, so it is easy to look into its mind – we simply generate an image from its high-level representations.

Throughout the paper, we will consider nets composed of stochastic binary variables but the ideas can be generalized to other models in which the log probability of a variable is an additive function of the states of its directly-connected neighbours (see Appendix A for details).

Figure 2: A simple logistic belief net containing two independent, rare causes that become highly anti-correlated when we observe the house jumping. The bias of minus;10 on the earthquake node means that, in the absence of any observation, this node is e10 times more likely to be off than on. If the earthquake node is on and the truck node is off, the jump node has a total input of 0 which means that it has an even chance of being on. This is a much better explanation of the observation that the house jumped than the odds of eminus;20 which apply if neither of the hidden causes is active. But it is wasteful to turn on both hidden causes to explain the observation because the probability of them both happening is eminus;10 times; eminus;10 = eminus;20. When the earthquake node is turned on it “explains away” the evidence for the truck node.

2 Complementary priors

The phenomenon of explaining away (illustrated in ﬁgure 2) makes inference difﬁcult in directed belief nets. In densely connected networks, the posterior distribution over the hidden variables is intractable except in a few special c

剩余内容已隐藏，支付完成后下载完整资料

深度信念网的快速学习算法

1．介绍

在具有许多隐含层的紧密连接、定向的信念网络中，学习是困难的，因为当给定一个数据向量时，很难推断出隐含活动的条件分布。变分方法对真实的条件分布使用简单的近似，但近似效果可能较差，特别是在先验假设独立的最深层隐含层。此外，变分学习仍然需要所有的参数一起学习，随着参数数量的增加，学习的时间尺度变差。

我们描述了一个模型，其中最顶层的两个隐层形成一个无向关联内存(见图1)，其余的隐层形成一个有向无环图，它将关联内存中的表示转换为可观察的变量，如图像的像素。这种混合模式有一些吸引人的特点:

1.有一种快速、贪婪的学习算法，它可以快速地找到一组相当好的参数，即使在有数百万个参数和许多隐藏层的深度网络中也是如此。

2.该学习算法是无监督的，但可以通过学习生成标签和数据的模型来应用于标签数据。

3.有一个微调算法，学习了一个优秀的生成模型，该模型在手写数字MNIST数据库上的性能优于鉴别方法。

4.生成模型使得对深层隐层的分布式表示更容易理解。

5.形成一个知觉所需要的推理既快又准确。

6.学习算法是局部的:突触强度的调整只取决于突触前和突触后神经元的状态。

7.交流很简单:神经元只需要交流它们的随机二进制状态。

第二节介绍了“互补”先验的概念，它正好抵消了在有向模型中使推理困难的“解释”现象。给出了一个具有互补先验的有向信念网络的例子。第3节给出了有限玻尔兹曼机和无限有向网络的等价性。

第4节介绍了一种快速、贪婪的学习算法，用于一层一层地构造多层有向网络。使用一个变分界限，它表明，随着每一个新层的加入，整体生成模型得到改进。贪心算法与重复使用相同的“弱”学习器有一些相似之处，但是贪心算法并没有调整每个数据向量的权重以确保下一步学习新内容，而是重新表示它。用于构建深度定向网络的“弱”学习者本身就是一个无定向的图形模型。

图1:用于模拟数字图像和数字标签联合分布的网络。在本文中，每个训练案例都由一个图像和一个显式的类标签组成，但是进行中的工作表明，如果将“标签”替换为一个多层路径，则可以使用相同的学习算法，该路径的输入是来自多个不同扬声器的声谱图，这些扬声器发出的是独立的数字。然后，该网络学会生成由同一数字类的图像和光谱图组成的对。

第5节展示了如何使用“up-down”算法对快速贪婪算法产生的权值进行微调。这是觉醒-睡眠算法Hinton等人(1995)的一个对比版本，该算法不存在“模式平均”问题，这种问题会导致觉醒-睡眠算法学习到较差的识别权值。

第6节展示了具有三个隐层的网络的模式识别性能，以及MNIST手写数字集上约170万个权值。时没有提供的几何知识,没有特殊的预处理,网络的泛化性能是1.25%错误在10000位官方测试集。这比1.5%通过最好的bp网当他们不是手工这个特定的应用程序。它也比Decoste和Schoelkopf(2002)在同一任务中对支持向量机的1.4%的错误报告稍好一些。

最后，第7节展示了在不受视觉输入约束的情况下运行网络时，网络的思想状态。这个网络有一个完整的生成模型，因此很容易观察它的思想——我们只是从它的高级表示生成一个图像。

在整篇论文中，我们将考虑由随机二进制变量组成的网络，但这些思想可以推广到其他模型中，在这些模型中，一个变量的对数概率是其直接相连邻居状态的一个附加函数(详见附录a)。

图2:一个简单的逻辑信念网，包含两个独立的、罕见的原因，当我们观察房子跳跃时，它们变得高度反相关。地震节点上的- 10偏置意味着，在没有任何观测的情况下，这个节点关闭的可能性是开启的e10倍。如果地震节点是开着的，而卡车节点是关着的，那么跳跃节点的总输入为0，这意味着它开着的概率是均等的。这比e - 20的概率更好地解释了跳楼现象，e - 20的概率适用于两个隐藏的原因都不活跃的情况。但要同时找出这两个隐藏的原因来解释观测结果是很浪费的，因为它们同时发生的概率是eminus;10times;eminus;10 = eminus;20。当地震节点被打开时，卡车节点的证据就“消失”了。

2．互补的先验

解释的现象(如图2所示)使得有向信念网的推理变得困难。在密集连接的网络中，隐藏变量上的后验分布是难以处理的，除了少数特殊情况，如混合模型或加性高斯噪声的线性模型。马尔可夫链蒙特卡罗方法(Neal, 1992)可以用于后验样本，但它们通常非常耗时。变分法(Neal and Hinton, 1998)以更易于处理的分布近似真实后验，可以用来提高训练数据的对数概率的下限。安慰的是学习是保证改善变分约束即使隐状态完成的推理不正确,但它会更好的找到一个方法完全消除解释了,即使在模型的隐变量高度相关影响变量可见。人们普遍认为这是不可能的。

逻辑信念网(Neal, 1992)是由随机二进制单元组成的。当网络用于生成数据时，打开单位i的概率是其直接祖先j的状态的逻辑函数，以及来自祖先的有向连接的权值wij的逻辑函数:

其中bi为单位i的偏置。如果一个logistic置信网络只有一个隐含层，则隐含变量的先验分布是阶乘的，因为模型生成数据时，隐含变量的二进制状态是独立选择的。后验分布的不独立性是由来自数据的似然项造成的。也许我们可以在第一个隐含层中消除解释，使用额外的隐含层来创建一个“互补的”先验，它与可能性项中的先验具有完全相反的相关性。然后，当似然项乘以先验时，我们会得到一个正好是阶乘的后验。这不是明显的互补先验存在的,但图3显示了一个简单的例子,一个无限物流相信净在与权重的先知先觉是互补的在每一个隐层(参见附录的更一般的治疗条件互补先验存在)。使用系权值来构造互补的先验，似乎只是使有向模型等价于无向模型的一种技巧。但是，正如我们将看到的，它导致了一种新颖的、非常有效的学习算法，该算法通过逐步地将每一层的权重从更高层次的权重中分离出来。

2.1带约束权的无限有向模型

我们可以从无限生成数据直接净在图3中,从一个随机的配置在一个无限深隐藏layer1执行自上而下的“祖先”,然后通过每个变量的二进制状态选择一层的伯努利分布由自上而下的输入来自其活跃的父母在上面的层。在这方面，它就像任何其他有向无环信念网。然而，与其他有向网络不同的是，我们可以从所有隐层的真实后验分布采样，方法是先从可见单位上的数据向量开始，然后使用转置的权重矩阵来依次推断每个隐层上的阶乘分布。在每个隐层，我们从后验阶乘中取样，然后计算上一层的后验阶乘。附录A表明，这个过程给出了无偏的样本，因为每一层的互补先验确保后验分布确实是阶乘的。

因为我们可以从真实的后验中采样，我们可以计算数据的对数概率的导数。我们先来计算生成权值w00 ij从H0层的单位j到V0层的单位i的导数(见图3)。在logistic置信网络中，单个数据向量V0的最大似然学习规则为:

其中lt;·gt;表示平均采样状态和circ;v0我单位的概率是我会打开如果可见向量随机抽样隐状态的重构。计算后验分布在第二个隐藏层,V1,从采样二进制州第一隐层,H0,是完全一样的过程重构数据,所以V1我是伯努利随机变量样本概率circ;v0我。因此，学习规则可以写成:

v1的依赖我h0 j是不成问题的从情商Eq的推导。3。2因为circ;v0我是一个期望条件h0 j。因为权重是复制,生成的全导数得到的重量是加法的衍生品生成所有成对的层之间的权重:

所有垂直对齐的项都取消了，只留下公式5中的玻尔兹曼机器学习规则。

3．限制玻尔兹曼机和对比发散学习

图3中的无限有向网络与受限制的玻尔兹曼机(RBM)是等价的，这一点可能不是很明显。RBM有一层隐藏的单元，它们之间没有相互连接，并且与一层可见单元之间没有定向的、对称的连接。生成一个元数据,我们可以从一个随机状态的层,然后执行交吉布斯抽样:所有的单位在一个层并行更新的当前状态的单位在其他层,重复此过程,直到系统抽样的均衡分布。请注意，这与从带有约束权重的无限信念网生成数据的过程完全相同。为了在RBM中执行最大似然学习，我们可以使用两个相关性之间的差异。对于可见单元i和隐藏单元之间的每个权值wij，我们度量了在数据接口被钳位时的相关性lt; v0 i h0 j gt;

图3:一个无限大的逻辑信念网。向下的箭头代表生成模型。向上的箭头不是模型的一部分。它们表示当数据转换器被夹在V0上时，用来从网络每个隐层的后验分布中推断样本的参数。

可见的单位和隐藏的状态是从它们的条件分布中采样的，这是阶乘。然后，使用交替吉布斯抽样，我们运行如图4所示的马尔科夫链，直到它达到其平稳分布，并测量相关性lt;vinfin;i hinfin;j gt;。则训练数据的对数概率的梯度为

该学习规则与带约束权的无限逻辑信念网络的最大似然学习规则相同，吉布斯抽样的每一步都对应于计算无限逻辑信念网络层的确切后验分布。

日志数据的概率最大化一模一样最小化Kullback-Leibler发散,KL (P0 | | Pinfin;theta;),之间的分布数据,P0,和定义的均衡分配模型,Pinfin;theta;。在对比发散学习(Hinton, 2002)中，我们只对n个完整的steps3运行马尔可夫链，然后测量第二个相关性。这相当于忽略导数

图4:这描述了一个使用交替吉布斯抽样的马尔科夫链。在一个完整的吉布斯抽样步骤,隐藏在顶层的单位都是通过应用情商并行更新。1输入收到的当前状态可见单位在底层,那么可见单位都是并行更新当前的隐状态。通过将可见单元的二进制状态设置为与数据向量相同来初始化链。一个可见的和一个隐藏的单元的活动的相关性在隐藏单元的第一次更新之后和在链的末端再次被测量。这两种关联的区别为更新连接上的权值提供了学习信号。

它们来自于无限网络的更高层次。这些忽视衍生品的总和的导数Vn日志后的概率分布层,这也是Kullback-Leibler的导数之间的分歧后分布层Vn Pntheta;,和定义的均衡分配模型。因此，对比发散学习最小化了两个KullbackLeibler发散的差异:

忽视采样噪声,这种差异是从不消极因为吉布斯抽样用于产生Pntheta;P0,吉布斯抽样总是减少Kullback-Leibler发散的均衡分布。重要的是要注意,Pntheta;取决于当前的模型参数和Pntheta;的变化随着参数的变化被对比差异忽略学习。P0不会出现这个问题，因为训练数据不依赖于参数。关于最大似然与对比发散学习规则之间关系的实证研究可以在卡瑞拉彼南和辛顿(2005)中找到。

在受限的玻尔兹曼机中，对比发散学习的效率足以使其具有实用性(Mayraz和Hinton, 2001)。Teh等人(2003)描述了使用实值单位和不同采样方案的变化，并成功地对地形图的形成进行了建模(Welling等人，2003)，对自然图像进行了去噪(Roth和Black, 2005)或对生物细胞的图像进行了去噪(Ning等人，2005)。Marks和Movellan(2001)描述了一种使用对比发散进行因子分析的方法，Welling等人(2005)表明，具有逻辑、二进制可见单元和线性、高斯隐藏单元的网络可以用于快速文档检索。然而，这种效率似乎是用高昂的代价换来的:当以一种显而易见的方式应用时，对比发散学习对于在每一层拥有不同权重的深层多层网络来说是失败的，因为这些网络花费的时间太长，甚至无法用一个被夹住的数据向量达到条件平衡。我们现在证明了具有约束权的RBM和无限有向网络之间的等价性，这为无约束权的多层网络提供了一种有效的学习算法。

4．一种转换表示的贪婪学习算法

学习复杂模型的一个有效方法是将一组按顺序学习的简单模型组合起来。为了迫使序列中的每个模型学习与以前的模型不同的内容，在学习每个模型之后，将以某种方式修改数据。在boost (Freund, 1995)中，序列中的每个模型都根据重新加权的数据进行训练，这些数据强调了前面的模型出错的情况。在主成分分析的一个版本中，模型方向的方差被移除，从而迫使下一个模型方向位于正交子空间中(Sanger, 1989)。在投影追踪(Friedman and Stuetzle, 1981)中，数据在数据空间中通过一个方向上的非线性扭曲进行转换，以消除该方向上的所有非高斯性。我们的贪心算法背后的思想是允许序列中的每个模型接收不同的数据表示。该模型对其输入向量进行非线性变换，并生成作为输出的向量，这些向量将用作序列中下一个模型的输入。

图5显示了一个多层生成模型，其中最上面的两层通过无定向连接交互，而所有其他连接都是定向的。在顶部的无向连接相当于有无限多个更高的层与束缚的重量。没有层内连接，为了简化分析，所有层具有相同数量的单元。通过假设较高层之间的参数将用于构造W0的互补先验，可以学习W0参数的合理值(尽管不是最优值)。这等价于假设所有的权矩阵都是相等的。在这种假设下，学习W0的任务简化为学习RBM的任务，虽然这仍然很困难，但是通过最小化对比发散可以快速找到好的近似解。一旦学习了W0，就可以通过WT 0映射数据，在第一隐含层创建更高级的“数据”。

如果RBM是原始数据的一个完美模型，那么更高级别的“数据”已经被更高级别的权重矩阵完美地建模了。但是一般来说，RBM无法对原始数据进行完美的建模，我们可以使用如下贪心算法使生成模型变得更好:

学习W0假设所有的权值矩阵都是绑定的。
冻结W0，并承诺使用WT 0来推断第一个隐含层中变量状态的阶乘近似后验分布，即使随后更高级别权重的变化意味着这种推断方法不再正确。
保持所有的高权重矩阵相互关联，但从W0中解脱出来，学习使用WT 0转换原始数据生成的更高级别“数据”的RBM模型。

图5:混合网络。最上面的两层有无向连接，形成联想记忆。下面的层次有直接的，自顶向下的，可生成的连接，可以用来映射

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[410044]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

深度信念网的快速学习算法外文翻译资料

1 Introduction

2 Complementary priors

深度信念网的快速学习算法

1．介绍

2．互补的先验

2.1带约束权的无限有向模型

3．限制玻尔兹曼机和对比发散学习

4．一种转换表示的贪婪学习算法

您可能感兴趣的文章

登录

注册

找回密码

1 Introduction

2 Complementary priors

深度信念网的快速学习算法

1．介绍

2．互补的先验

2.1带约束权的无限有向模型

3．限制玻尔兹曼机和对比发散学习

4． 一种转换表示的贪婪学习算法

您可能感兴趣的文章

4．一种转换表示的贪婪学习算法