深度卷积神经网络的随机池化外文翻译资料

 2022-07-13 08:07

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


深度卷积神经网络的随机池化

摘要:我们介绍一种简单有效的规范的大型卷积神经网络方法。我们用一个随机过程替换传统的确定性池操作,根据集合区域内的活动给出的多项式分布随机挑选每个池区域内的激活。该方法是超参数的,可以与其他正则化方法相结合,如dropout和数据增强。相对于其他不使用数据增强的方法,我们在四个图像数据集上实现了最先进的性能。

1 绪论

由于其高容量,神经网络模型容易出现过度拟合现象。一系列的正则化技术被用来防止这种情况,如权值衰减,权重绑定以及用转换副本增加训练集。这些技术允许训练比其他方式更大容量的模型,与较小的未规范模型相比,这些模型可以产生出色的测试性能。dropout,最近由Hintonetal提出,是另一种调节应用,在训练期间随机地将一层内的一半激活设置为零。它已被证明在各种各样的问题上都能显着提高性能,尽管其效率的原因尚未完全了解。dropout的一个缺点是它似乎没有与卷积层的相同的效益,这在许多为视觉任务设计的网络中很常见。在本文中,我们提出了一种新型的卷积层正则化方法,可以在改变不大的情况下训练较大的模型,并且在识别任务上产生出色的性能。关键思想是使每个卷积层中的池发生随机过程。传统的池形式(如平均值和最大值)是确定性的,后者在每个池区域选择最大的激活。在我们的随机池中,选择的激活是从池区域内的激活形成的多项分布中提取的。随机池的另一种观点是,它相当于标准max池,但有许多输入图像的副本,每个都有小的局部变形。这类似于输入图像的显式弹性变形,它提供了优异的MNIST性能。其他类型的数据增强功能,如翻转和裁剪的区别在于它们是全局图像转换。此外,在多层模型中使用随机池会产生指数级数量的变形,因为较高层的选择与下面的无关。

2卷积网络综述

我们的随机池方案被设计用于标准卷积神经网络体系架构。在引入我们的新型随机池方法之前,我们首先回顾这个模型以及传统的池化方案。一个经典的卷积网络是由卷积层与池化层组成(即二次取样)。第一层卷积层的目的是提取输入图像的局部区域内发现的数据集模式,这些模式在整个数据集中是常见的。这是通过在输入图像像素上卷积模板或滤波器,在图像中的每个位置计算模板的内积并将其作为特征图c输出给图层中的每个滤波器来完成的。此输出是衡量模板与图像各部分匹配程度的度量。然后将非线性函数f()以元素方式应用于每个特征映射c:a = f(c)。再将产生的激活a传递给池化层。这将聚集在小的局部区域r中的一组信息,生成一个合并的特征图s(较小的尺寸)作为输出。将聚合函数表示为pool(),对于每个特征映射c我们有:sj = pool(f(ci)) forall;i isin; Rj。

其中Rj是在特征映射c池化区域j中,并且i是其中每个元素的索引。

池背后动机是,混合地图的激活在图像结构的精确位置比原来的特征映射更不敏感。在多层模型中,将池化的特征图作为输入的卷积层因此可以提取对于输入图像的局部变换日益不变的特征。这对于分类任务很重要,因为这些转换混淆了对象身份。

一系列函数可以用于f(),tanh()和逻辑函数是流行的选择。 在这篇论文中,我们使用线性整型函数f(c)= max(0,c)作为非线性。一般来说,这已被证明[10]在tanh()或logistic函数上具有显着的好处。然而,它特别适用于我们的池化机制,因为:(i)我们的表述涉及池化区域中的元素的非负性和(ii)负面响应的削减将零引入池区域,确保随机采样是从几个特定地点(具有强烈反应的地点)进行选择,而不是该地区所有可能的地点。

两种类型的池在训练深度卷积网络时都有缺陷。在平均池中,池区域中的所有元素都会被考虑,即使许多元素具有较低的幅度。当与线性整型与非线性相结合时,由于许多零元素都包含在平均值中,因此这会对强激励产生负面影响。 更严重的是,随着tanh()非线性,强烈的积极和消极的激活可以消除每个其他的路线,导致小的集体反应。 虽然最大化池不会遇到这些缺点,但是我们很容易在实践中找到训练集,因此很难将其推广到测试示例。 我们提出的池化方案具有最大池化的优点,但其随机性有助于防止过度拟合。

3 随机池

在随机池中,我们通过从每个池区域的激活中形成的多项式分布来选择池化映射响应。更确切地说,我们首先通过归一化区域内的激活来计算每个区域j的概率p。

然后我们从基于p的多项式分布中抽取一个区域内的位置l。集中激活然后简单地是al。

该过程如图1所示。每个训练实例的每个层中的每个池区的样本被相互独立地绘制。当在网络中反向传播时,使用相同的选定位置l将梯度引导回池区,类似于具有最大池的后向传播。最大池化仅捕获每个区域输入的最强过滤器模板激活。 但是,在将信息传递给网络时应考虑到同一池区中可能会有额外的激活,并且随机池会确保这些非最大激活也将被利用。

图1:说明随机池的玩具例子。 a)输入图像。 b)卷积滤波器。 c)整数线性函数。 d)在给定池区内产生激活。 e)基于活动的概率。F)样品激活。 注意这个区域的选择可能不是最大的因素。 随机池可以表示一个区域内激活的多模态分布。

3.1测试时的概率加权

在测试时使用随机池会在网络的预测中引入噪声,我们发现这种预测会降低性能(参见第4.7节)。 相反,我们使用概率形式的平均。 在此,每个区域的激活通过概率pi加权(参见公式4)并相加:

这与标准平均池化不同,因为每个元素具有可能不同的权重,并且分母是激活Piisin;Rjai的总和,而不是池化区域大小| Rj |。 实际上,使用传统的平均(或总和)池化会导致巨大的性能下降(参见第4.7节)。

我们的概率加权可以被看作是一种模型平均的形式,其中池区中的位置l的每个设置定义一个新的模型。在训练期间,由于整个网络的连接结构发生了变化,因此采样以获取新位置会产生新模型。在测试时间,使用概率而不是采样,我们有效地获得了对所有这些可能模型的平均值的估计,而无需实例化它们。给定具有d个不同池化区域的网络架构,每个大小为n,可能模型的数量为nd,其中d可以在104-106范围内,并且n通常为4,9或16(例如对应于2times;2 ,3times;3或4times;4池化区域)。这是一个比退化发生的模型平均值大得多的数字[2],其中n = 2总是(因为激活是否存在)。在第4.7节中,我们确信,使用这种概率加权与使用大量模型实例相比,实现了类似的性能,而只需要一次通过网络。

正如我们现在所证明的那样,使用训练时的抽样概率以及在测试时间对激活进行加权可以实现许多常用基准测试的最新性能。

图2:来自我们评估的每个数据集的图像选择。 最上面一行显示原始图像,最下面一行显示我们用于训练的图像的预处理版本。 CIFAR数据集(f,h)通过减去每像素平均值显示轻微变化,而SVHN(b)与原始图像几乎无法区分。 这促使使用局部对比度归一化(c)来规范SVHN的极端亮度变化和颜色变化。

4实验

4.1概述

我们将我们的方法与各种图像分类任务的平均值和最大池对比。 在所有的实验中,我们都使用带动量的小批量梯度下降来优化我们网络的类和地面真值标签之间的交叉熵。 对于在时间t的给定参数x,加入到参数中的权重更新Delta;xt是Delta;xt=0.9Delta;xt-1 - gt其中gt是成本函数相对于该时间t处的该参数在该批次上平均的梯度 并且是手动设定的学习率。

所有的实验都是使用一个非常高效的C GPU卷积库[6]进行的,使用GPUmat封装在MATLAB中[14],这允许快速开发和实验。我们从Hinton等人的相同网络布局开始的退出工作[2],它有3个卷积层,每层有5times;5个滤波器和64个特征映射,并以整数线性单位作为其输出。我们在所有实验中使用这个相同的模型并训练了280个时代,除了一个额外的模型部分4.5,它具有128个功能图层3并且训练了500个时代。除非另有说明,否则我们针对3个汇聚层中的每一个使用具有步幅2的3times;3池化(即沿着边界重叠1个元素的相邻汇合区域)。此外,在每个池层之后,都有一个响应规范化层(如[2]中所述),该规范化层对相邻特征地图子集上每个位置处的池化输出进行规范化。这通常可以通过抑制整定线性单元允许的极大输出并帮助相邻特征进行通信来帮助进行训练。最后,我们使用具有最大输出的单个完全连接层来产生网络的类别预测。我们将此模型应用于四个不同的数据集:MNIST,CIFAR-10,CIFAR-100和街景门牌号码(SVHN),请参见图2以获取示例图像。

4.2 CIFAR-10

我们开始使用CIFAR-10数据集进行实验,其中卷积网络和丢包等方法已知可以很好地工作于[2,5]。该数据集由10类自然图像组成,共50,000个训练样例,每个类5000个。每幅图像都是一张尺寸为32x32的RGB图像,取自微小图像数据集并用手标记。 对于这个数据集,我们按照图2(f)所示的比例缩放到[0,1],并遵循从每个图像中减去每个像素计算出的每个像素的方法[2]。

通过一组5,000个CIFAR-10训练图像进行交叉验证,我们发现卷积层为10-2,最终的softmax输出层为1的学习效率很有价值。 这些比率在整个训练期间线性退火至原始值的1/100。此外,我们发现一个0.001的小重量衰减是最佳的,并应用于所有层。通过交叉验证发现的这些超参数设置适用于我们实验中的所有其他数据集。

使用上述相同的网络体系结构,我们分别使用平均值,最大池和随机池来训练三个模型,并分别比较它们的性能。 图3显示了超过280个训练时期的训练和测试错误的进展情况。 随机池可以避免溢出,与平均值和最大池不同,并且产生更少的测试错误。表1比较了三种池化方法的测试性能与CIFAR-10当前最先进的结果,该结果不使用数据增强,但在另外的本地连接层上增加了丢失[2]。随机池化使用相同的体系结构超过这个结果0.47%,但不需要本地连接层。

为了确定池区大小对带有随机池的系统行为的影响,我们比较了图4中整个网络中5x5,4x4,3x3和2x2池大小的CIFAR-10训练和测试集性能。最佳尺寸似乎为3x3,较小的区域会过度拟合,较大的区域在训练时可能会过于嘈杂。在所有规模下,随机池化均优于最大池化和平均池化。

4.3 MNIST

MNIST数字分类任务由10个手写数字的28x28图像组成[8]。 在这个基准测试中,有60000张训练图像和10,000张测试图像。图像缩放为[0,1],我们不执行任何其他预处理。

在训练期间,使用随机池化和最大池化,误差迅速下降,但后者完全超过训练数据。权值衰减阻止平均池过度,但与其他两种方法相比性能较差。表2比较了MNIST上最先进方法的三种汇总方法,它们也使用卷积网络。随机汇总优于所有其他不使用数据增强的方法,如抖动或弹性失真[7]。 Ciresan等提出了目前最先进的单一模型方法,使用弹性扭曲来增强原始训练集。由于随机池是一种不同类型的正则化,它可以与数据增强相结合以进一步提高性能。

4.4 CIFAR-100

CIFAR-100数据集是微型图像数据集的另一个子集,但有100个类[5]。共有50,000个培训示例(每类500个)和10,000个测试示例。与CIFAR10一样,我们缩放到[0,1]并从每幅图像中减去每个像素的平均值,如图2(h)所示。由于每类训练样本的数量有限,如表3所示,卷积网络中使用的典型池化方法效果不佳。随机池优于这些方法通过防止过度拟合超过了我们认为最先进的方法,减少2.66%。

4.5街景房子号码

街景房屋号码(SVHN)数据集由604,388幅图像(使用难度较大的训练集和较简单的额外设置)和26,032幅测试图像组成[11]。 此任务的目标是将每个裁剪的32x32彩色图像中心的数字分类。 这是现实世界一个困难的问题,因为在每个图像中可能会看到多个数字。 其实际应用是在Google的街景视图数据库中对房屋编号进行分类。

我们发现,从每幅图像中减去每像素平均值并不能真正修改图像的统计量(见图2(b)),并留下可能使分类更加困难的亮度和颜色的巨大变化。相反,我们利用三个RGB通道中每一个的局部对比度归一化(如[12])来预处理图2(c)。这使亮度和颜色变化规范化,并帮助在这个相对较大的数据集上的训练快速进行。

尽管有大量的训练数据,但大型卷积网络仍然可以胜任。对于这个数据集,我们分别在第1,2和3层分别训练500个时期的附加模型,分别具有64,64和128个特征图。尽管进行了长时间的训练,但即使在这个大型模型中(表4中标为64-64-128),我们的随机池也有助于防止过度拟合。这个数据集的现有状态是Sermanet等人的多阶段卷积网络。但随机池跳动了2.10%(相对收益为43%)。

4.6减少训练集大小

为了进一步说明随机汇总防止覆盖的能力,我们减少了MINST和CIFAR-10数据集的训练集大小。图5显示了对随机选择1000,2000,3000,5000,10000,一半或全部训练集进行训练时的测试性能。在大多数情况下,随机池化比其他池方法要少得多。

4.7模型平均的重要性

为了分析随机抽样在训练时的重要性和测试时的概率加权,我们在CIFAR-10的训练和测试中使用不同的池方法(见表5)。在测试时间随机选择位置会使性能略微降低,但它仍然优于测试时使用最大或平均池的模型。为了确认概率加权是对许多模型进行平均的有效近似,我们在整个网络中抽取N个池化位置样本,并对来自这N个模型的输出概率进行平均(表5中表示为Stochastic-N)。 随着N增加,结果接近概率加权方法,但存在在计算上增加了N倍的明显缺点。

使用最大或平均混合训练并在测试时使用随机池的模型表现不佳。这表明,随机池化训练结合了非最大元素和采样噪声,使得模型在测试时更加稳健。此外,如果这些非最大元素没有被正确使用,或者池化功能产生的比例不正确,比如在测试时使用平均池化,则会出现严重的性能下降。

当在训练期间使用概率加权

全文共5817字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[9565],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。