增加梯度噪音利于超深度网络学习外文翻译资料

 2022-07-24 02:07

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


增加梯度噪音利于超深度网络学习

摘要

深入的前馈和复杂网络在许多感知和语言处理应用中取得了令人印象深刻的成果。这一成功部分归功于构架创新(建筑学的创新) 如卷积和长短期记忆网络。这些架构创新的主要动机是他们能够捕获更好的领域知识,重要的是它们比更多基础的架构容易优化。最近,更复杂的架构如神经图灵机和内存网络已经被提出了,包括应答和简单的计算在内的任务,创造一套新的优化挑战。在本文中我们讨论了一种低开销和易于实现的一种增加梯度噪声的技术,我们发现这有令人惊异的效果在练习这些深层架构时。该技术不仅可以避免过度拟合,还能达到训练损失减少的结果。这种方法允许20层深层网络通过标准梯度下降训练完全连接,甚至开始于初始化不良。我们看到许多复杂模型的持续改进,包括在挑战性的问题回答任务上精心调整的基线上的错误率相对降低了72%,并且在7,000次随机重启中学到的精确二进制乘法模型的数量翻了一番。我们鼓励将此技术进一步应用于更复杂的现代架构。

引言

深层神经网络在包括图像识别(Krizhevsky等, 2012),语音识别(Hinton等, 2012)和语言处理应用(Sutskever等, 2014; Bahdanau等, 2014) 在内的不同领域取得了卓越的成功。这个广泛的成功来源于几个因素的融合。第一,大量标记数据集的创建使得深层网络能够表现出其在表现力和可伸缩性方面的优势。计算能力的提高也使得能够以较宽松的优化动态对更大的网络进行训练(Choromanska 等,2015 )。另外,架构诸如卷积网络和长短期记忆网络(Hochreiter amp; Schmidhuber, 1997)已经被证明比传统的前馈和反复模型更容易优化。最后,深度网络的成功也是简单和广泛适用的学习技术的发展的结果,例如“隐退(dropout)”(Srivastava等,2014),ReLUs(Nair&Hinton,2010),梯度剪切(Pascanu 等,2013 和 Graves, 2013),优化和权重初始化策略(Glorot amp; Bengio, 2010; Sutskever 等, 2013; He et al., 2015).

最近的工作旨在把神经网络学习推向更具挑战性的领域,例如问答或程序归纳。这些更复杂的问题需要更复杂的架构,从而构成新的优化挑战(Graves et al, 2014 and Sukhbaatar et al, 2015)。为了取得良好的表现,研究员已经报告了其他技术的必要性,例如在中间步骤中的监督(Weston et al., 2014),热启动(Peng et al., 2015), 随机重启以及在训练早期阶段去除某些激活功能(Sukhbaatar et al., 2015)。

最近作品中一个重复的主题是惯用的优化技术但并不总是足以强化优化模型。在这项工作中,我们探讨了一种退火高斯噪声添加到梯度的简单技术,我们发现训练神经深层网络随着随机梯度降落有着出人意料的效果。虽然在古典神经网络中增加随机权重噪声有悠久的传统,但是在现代深层架构的优化中已在被不断探索。与常规随机梯度下降的正规化效应的理论和实证结果相反,我们发现在实践中,增加的噪声实际上可以通过鼓励积极探索参数空间来帮助我们实现较低的训练损失。当优化神经网络模型包含多层或复杂潜在结构时,这种探索证明是特别有必要和卓有成效的。

这项工作的主要贡献是证明这种简单的方法在训练许多复杂的现代神经体系结构方面的广泛适用性。此外,据我们所知,我们增加噪音的计划在深层网络的训练之前还没有被使用过。我们始终注意着注入梯度噪音的改进在优化各种各样的模型包括非常深入的完全连接的网络和及用于问答和算法学习的专用架构时。例如,这种方法允许我们逃避不良的初始化,并成功地在具有标准梯度下降的MNIST上训练20层整流网络。它还能使问答中的误差相对降低72%,并且可以在7,000次随机重新启动中学习的精确二进制乘法模型的数量加倍。我们希望从业者在自己的研究中会看到类似的改进通过增加这种简单的技术,在一行代码中视线到他们的项目中。

相关工作

将随机噪声添加到权重,渐变或隐藏单位中已经是一种神经网络从业者之中都知晓了很多年的技术(An ,1996)。然而,梯度噪声的使用已经罕有,而且现代深层网络并没有充分证明其优点。

权重噪声(Steijvers, 1996) 和自适应权重噪声(Graves, 2011; Blundell et al, 2015), 通常保持高斯变分后的网络权重,同样旨在训练期间通过增加噪音来改善学习。它们按理与我们提出的方法略有不同在噪音不退火和收敛将会不为零里面。另外,在自适应权重噪声中,必须保持一组额外的方差参数。

相似的,“辍学”技术在练习时间内将隐藏单元组随机设置为零,以类似于组合的方式改进概括。

退火高斯梯度噪声计划被用来训练Hinton&Roweis(2002)中的高度非凸随机相邻嵌入模型。我们发现的最有效的梯度噪音计划和随机渐变Langevin(兰格力)动力学(Welling amp; Teh,2011) 很相似,他使用具有增加噪声的渐变来加速MCMC推理逻辑回归和独立分量分析模型。Neal(2011)先前提出了使用MCMC采样中的梯度信息进行机器学习,以便更快地探索状态空间。

各种优化技术已经被提出来改进神经网络的训练。最值得注意的是动量的使用(Polyak, 1964; Sutskever等, 2013; Kingma amp; Ba, 2014) 或者适应性学习率(Duchi et al., 2011; Dean et al., 2012; Zeiler, 2012)。这些方法通常被发展来提供凸集的良好收敛速率,然后启发式地应用于非凸的问题。另一方面,把噪音注入梯度中更适合于非凸的问题。通过添加更多的随机性,这种技术给模型更多的机会逃避当地最小值(参见Bottou(1992)中的类似论点),或者通过早期学习的“暂态”高原阶段快速穿越(参见动量的类似分析 在Sutskever等(2013)。在我们的观察中,这是经验性地证明,增加梯度噪声实际上可以导致较低的训练损失。在这个意义上,我们猜想添加梯度噪声类似于模拟退火(Kirkpatrick等人,1983),它利用随机噪声来探索复杂的景观的优化。这可以与作为学习算法的随机梯度下降的众所周知的优点(Robbins和Monro,1951; Bousquet&Bottou,2008)进行对比,理论和实践都表明随机过程引起的噪声有助于通过减少过度拟合。

方法

我们考虑一种在每个训练步骤t上对每个梯度g加上时间依赖高斯噪声的简单技术。

gt larr;gt N(0,sigma;t2)

我们的实验表明,通过衰减方差增加退火高斯噪声比使用固定高斯噪声更好。 我们使用从Welling&Teh(2011)得到的启发用于大部分实验,并采用:

sigma;t2= eta; (1) (1 t)gamma; (1)

其中eta;选自{0.01,0.3,1.0},gamma;= 0.55。高梯度噪音在训练开始时,在早期阶段迫使梯度远离0。

实验

在以下实验中,我们考虑了各种复杂的神经网络架构:用于MNIST数字分类的深度网络,用于问题回答的end to end 记忆网络(Sukhbaatar et al., 2015) 和神经编程器(Neelakantan et al., 2015),用于算法学习的神经随机访问机器(Kurach et al., 2015) 和神经GPUs (Kaiser amp; Sutskever, 2015)。模型和结果描述如下。

深层完全连接网络

对于我们的第一组实验,我们查验在MNIST手写数字分类数据集上训练深层完全连接的网络时增加梯度噪声的影响(LeCun et al., 1998)。我们的网络很深厚:它有20个隐藏层,每层包含50个隐藏单元。 我们使用ReLU激活功能(Nair amp; Hinton, 2010)。

在本实验中,我们添加从平均值0的高斯分布中采样的梯度噪声,并根据等式(1)中的时间表衰减方差,得到eta;= 0.01。我们用SGD无动力训练,使用0.1和0.01的固定学习率。除非另有指定,否则 网络的权重从均值为零的高斯和0.1的标准偏差初始化,我们称之为Simple Init。

我们的实验结果如表格1所示。从Simple Init惊醒演练时,我们可以看到,增加梯度噪音有助于在20次运行中实现更高的平均和最佳精准度,使用每个学习速率共计40次(表1,实验1)。我们注意到,平均值接近50%,因为0.01的学习率通常给出非常缓慢的收敛。我们还在浅层的5层网络上尝试我们的方法,但增加噪音并不能改善这种情况下的培训。

接下来,我们尝试用两个临界值削减梯度:100和10(表1,实验2和3)。在这里,我们发现梯度噪声的训练对梯度剪切值不敏感。 通过调整临界值,可以获得可靠的准确度,而没有噪声的问题。

在我们第四和第五个实验(表1,实验4和5)。我们使用Sussillo&Abbott(2014)和He等人(2015)最近提出的两个分析导出的ReLU初始化技术(我们称之为Good Init)发现增加梯度噪音没有帮助。在以前的工作中发现随机梯度下降与仔细调整的初始化,动量,学习率和学习率衰减可以优化这种深层完全连接的ReLU网络(Srivastava et al., 2015)。为后面部分中考虑的更复杂的异构架构找到这样一种健全的初始化技术将会变得很难。因此,我们在后面的实验(例如,第4.3节)中发现随机重启和使用像Adam这样的基于动量的优化器不足以在没有增加的梯度噪声的情况下获得最佳结果。

为了了解这个方法对初始化不良的敏感度,除了次优化的Simple Init之外,我们运行了一个实验,其中神经网络中的所有权重都初始化为零。结果(表1,实验5)表明,如果我们不对梯度增加噪音,那么网络的学习失败,如果我们增加一些噪音,那么网络可以学习并且可以达到94.5%的准确性。

表1 MNIST超过40次的平均和最佳测试精度百分比。价值越高越好

总而言之,这些实验表明,如果我们小心注意初始化和梯度剪切值,可以训练一个深层完全连接网络,而不增加梯度噪声。 然而,如果初始化不好,优化可能很困难,并且对增加梯度噪声是克服优化难度的好机制。

这组结果的意义是,增加梯度噪声可以是训练复杂网络的有效机制。 这是因为复杂网络正确初始化权重更为困难。 在下文中,我们探讨更复杂的网络的训练,如End-to-End记忆网络和神经程序器,其初始化研究不足。

End-to-End 记忆网络

我们测试增加梯度噪声,用于训练端到端记忆网络(Sukhbaatar等,2015),一种使用深层网络的Q&A的新方法.1记忆网络已被证明在相对挑战性的玩具问答问题上表现(Weston et al, 2015)。

在记忆网络中,这个模式可以被看作一个景况一个问题,并被要求预测答案。在内部,这个模式有一个关注机制,它关注着解决问题的正确线索。在原始提案(Weston等,2015)中,对记忆网络进行了额外的监督已解决回答这个问题需要什么景况。这在End-to-End公式的中被一个由softmax实现的潜在注意机制所替代。由于这使得学习问题复杂化,作者实施了两阶段的训练程序:首先对网络进行线性关注,然后用这些权重来加热这个模式随着softmax的注意。

在我们使用记忆网络的实验中,我们使用我们的标准噪声调度,使用从平均值0的高斯分布中采样的噪声,以及⌘ = 1.0 的等式(1)的衰减方差。剪辑后将这个噪声加到渐变中。我们还发现,这些实验中固定的标准偏差也有效,但其值必须调整,最适用于0.001。我们将训练时期的数量设定为200,因为我们想了解记忆网络的近收敛行为。其余的培训与原作者提出的实验设置相同。我们用已发表的两阶段培训方法来测试这种方法,另外还有一个阶段的培训方式,我们训练网络的Softmax注意力,而不是加速启动。 结果报告在表2中。我们发现波动在每一次训练中,但报告的结果反映了通过添加随机噪声获得的典型增益。

表2 添加梯度噪音对End-to End 记忆网络的影响。值越小越好

我们发现热启动确实有助于网络。在这两种情况下,向梯度增加随机噪音也网络在训练误差和验证错误方面有帮助。然而,增加的噪声对于没有在启动阶段的End-to-End记忆网络网络的培训特别有用。

神经编程器

神经编程器是一个神经网络架构,增加了一小组内置的算术和逻辑操作,可以学习诱导潜在的程序。建议中表格中回答问题的任务(Neelakantan等,2015)。表上的操作示例包括一组数字的总和或大于特定值的数字列表。神经编程器的关键是使用“软选择”来分配操作列表上的概率分布。这个概率分布权衡每个操作的结果,并且成本函数将这个加权结果与地面实况进行比较。这种柔软选择,受到Bahdanau等人 (2014)的软注意机制的启发,允许模型的完全可区分性。运行模型的几个选择步骤允许模型通

全文共8934字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[145604],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。