基于深度卷积神经网络的图像网络分类外文翻译资料

 2022-08-09 03:08

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


基于深度卷积神经网络的图像网络分类

摘要

我们训练了一个大型深度卷积神经网络来将ImageNet LSVRC-2010竞赛中的120万高分辨率图像分到1000个不同的类别中。在测试数据上,我们分别获得了37.5%和17.0%的前1名和前5名错误率,这大大优于以前的技术水平。这个神经网络有6000万个参数和650000个神经元,包含5个卷积层(某些卷积层后面带有池化层)和3个全连接层,最后是一个1000维softmax。为了使训练更快,我们使用了非饱和神经元并对卷积操作进行了非常有效的GPU实现。为了减少全连接层中的过拟合,我们采用了一种最近开发的称为“dropout”的正则化方法,这种方法被证明是非常有效的。我们还在ILSVRC-2012竞赛中输入了该模型的一个变体,并获得了15.3%的前5名测试错误率,而第二名的测试错误率为26.2%。

1.序言

四年前,Yann LeCun和他的合作者的一篇论文被领先的计算机视觉会议拒绝,理由是它使用神经网络,因此没有提供如何设计视觉系统的见解。当时,大多数计算机视觉研究人员认为,视觉系统需要通过对任务性质的详细理解来精心手工设计。他们假设,将自然图像中的对象分类的任务永远不会通过简单地将图像和它们包含的对象的名称的例子呈现给神经网络来解决,该神经网络从该训练数据中获取其所有知识。

视觉研究界的许多人没有意识到的是,需要理解该领域的程序员进行仔细手工工程的方法不能像用强大的通用学习程序代替程序员的方法那样扩展。有了足够的计算和足够的数据,对于复杂的任务,学习胜过编程,这些任务需要整合许多不同的、嘈杂的线索。

四年前,当我们在多伦多大学的时候,我们称为SuperVision的深层神经网络几乎将识别自然图像中物体的错误率降低了一半,并引发了计算机视觉中一场姗姗来迟的范式转变。图4展示了一些SuperVision可以做的例子。

SuperVision是从在20世纪80年代被广泛研究的多层神经网络发展而来的。这些网络使用多层特征检测器,这些检测器都是从训练数据中学习来的。神经科学家和心理学家曾假设,这种特征检测器的层次结构将提供一种识别物体的可靠方法,但他们不知道如何学习这种层次结构。在20世纪80年代,人们非常兴奋,因为几个不同的研究小组发现,多层特征检测器可以使用一种称为反向传播的相对直接的算法来有效地训练,以便为每幅图像计算整个网络的分类性能如何取决于每个连接的权重值。

反向传播在各种各样的任务中都很有效,但是在20世纪80年代,它并没有达到它的倡导者的很高的期望。特别是学习多层网络被证明是非常困难的,而这些正是应该给出最令人印象深刻的结果的网络。许多研究人员错误地得出结论,从随机初始权重中学习深层神经网络太难了。二十年后,我们知道哪里出错了:为了让深层神经网络发光,它们需要更多的标记数据和更多的计算。

2.介绍

当前的目标识别方法基本上都使用了机器学习方法。为了提高目标识别的性能,我们可以收集更大的数据集,学习更强大的模型,并使用更好的技术来防止过拟合。直到最近,标记图像的数据集相对较小——在数万幅图像的数量级上(例如,NORB、Caltech-101/256和CIFAR-10/100)。简单的识别任务可以用这种大小的数据集很好地解决,特别是如果使用标签保留变换来进行数据增强的情况下。例如,MNIST数字识别任务的当前最佳错误率(lt; 0.3%)接近人类表现。但是真实环境中的物体表现出相当大的可变性,所以为了学会识别它们,有必要使用更大的训练集。事实上,小图像数据集的缺点已经被广泛认识(例如参考文献25),但直到最近才有可能收集数百万个图像的标注数据。新的更大的数据集包括LabelMe和ImageNet,LabelMe由数十万张完全分割的图像组成,ImageNet由超过22000个类别的超过1500万个标注的高分辨率图像组成。

为了从数以百万计的图像中了解数以千计的对象,我们需要一个具有强大学习能力的模型。然而,对象识别任务的巨大复杂性意味着,即使像ImageNet这样大的数据集也不能被指定,所以我们的模型还应该有大量的先验知识来补偿我们所没有的数据。卷积神经网络就是这样一类模型。它们的能力可以通过改变它们的深度和广度来控制,并且它们还对图像的本质(也就是说,统计的稳定性和像素依赖的局部性)做出了强有力的且大多数是正确的假设。因此,与具有层次大小相同的标准前馈神经网络相比,神经网络具有更少的连接和参数,因此它们更容易训练,而它们理论上的最佳性能可能仅比标准前馈神经网络稍差一点。

尽管CNN有着吸引人的品质,尽管其局部架构相对高效,但将其大规模应用于高分辨率图像仍然过于昂贵。幸运的是,当前的GPU,搭配了高度优化的2D卷积实现,强大到足以促进有趣的大型CNN的训练,而最近的数据集,如ImageNet,包含足够多的标记样本来训练这样的模型,而没有严重的过拟合。

本文的具体贡献如下:我们在2010年和2012年ImageNet大规模视觉识别挑战赛中使用的ImageNet子集上培训了迄今为止最大的一个神经网络之一,并在这些数据集上取得了迄今为止报告的最佳结果。我们编写了一个高度优化的2D卷积和训练中枢神经系统内部的所有其他操作的GPU实现,并公开发布。我们的网络包含许多新的和不寻常的特性,这些特性提高了它的性能并减少了它的训练时间,详见第4节。即使使用了120万个标记的训练样本,我们网络的规模使得过拟合成为一个严重的问题,所以我们使用了几种有效的技术来防止过拟合,这在第5节中有描述。我们的最终网络包含五个卷积层和三个全连接层,深度似乎很重要:我们发现移除任何卷积层(每个卷积层包含不超过模型参数的1%)会导致较差的性能。

最后,网络尺寸主要受到当前GPU可用内存容量和我们能容忍的训练时间的限制。我们的网络需要5到6天的时间在两台GTX 580 3GB GPU上进行培训。我们所有的实验都表明,只要等待更快的GPU和更大的数据集出现,我们的结果就能得到改善。

3.数据集

ImageNet是一个数据集,包含大约22000个类别的1500多万张标注的高分辨率图像。这些图像是从网上收集的,并Amazonrsquo;s Mechanical Turk的众包工具通过人工标注的。从2010年开始,作为Pascal视觉对象挑战赛的一部分,每年举行一次ImageNet大规模视觉识别挑战赛(ILSVRC)。ILSVRC使用ImageNet的一个子集,在1000个类别中的每一个类别中大约有1000个图像。总共大约有120万个训练图像、50000个验证图像和150000个测试图像。

ILSVRC-2010是ILSVRC的唯一可以获得测试集标签的版本,因此这是我们进行大部分实验的版本。由于我们还在ILSVRC-2012竞赛中使用了我们的模型,因此在第7节中,我们也报告了我们在该版本数据集上的结果,这个版本的测试集标签不可获得的。在ImageNet上,需要报告两个错误率:前1名和前5名,其中前5名错误率是指测试图像中正确标签不在模型认为最有可能的五个标签之中。

ImageNet由可变分辨率的图像组成,而我们的系统需要一个恒定的输入维度。因此,我们将图像进行下采样到256 times; 256的固定分辨率。给定一个矩形图像,我们首先重新缩放图像,使其短边的长度为256,然后从生成的图像中裁剪出中心256 times; 256大小的图像块。除了在训练集上对像素减去的平均活跃度外,我们不对图像做任何其他的预处理。因此,我们在原始的RGB像素值上训练网络。

4.架构

图2总结了我们网络的体系结构。它包含八个学习层——五个卷积层和三个全连接层。下面,我们将描述我们网络架构的一些新颖的不寻常的特性。第4.1- 4.4节是根据我们对其重要性的估计来分类的,最重要的最优先。

4.1 ReLU非线性

将神经元的输出f建模为其输入x的函数的标准方式是f(x) = tanh(x)或f(x)=(1 e-x)-1。考虑到梯度下降的训练时间,这些饱和的非线性比非饱和非线性f(x) = max(0,x)慢得多。继Nair和Hinton之后,我们把具有这种非线性的神经元称为修正线性单元(ReLU)。使用ReLU的深度卷积神经网络的训练速度是等价的tanh单元的几倍。图1展示了这一点,它显示了对于特定的四层卷积网络,在CIFAR-10数据集上达到25%训练误差所需的迭代次数。这个图表明,如果我们使用传统的饱和神经元模型,我们就不能用如此大的神经网络来进行这项工作。

图1:使用ReLU的四层卷积神经网络在CIFAR-10数据集上达到25%的训练误差比使用tanh神经元的等价网络(虚线)快六倍。为了使训练尽可能快,每个网络的学习率是单独选择的。没有采用任何类型的正则化。影响的大小随着网络结构的变化而变化,这一点已得到证实,但使用ReLU的网络都比等价的饱和神经元快几倍。

我们并不是第一个考虑替代CNN中传统神经元模型的人。例如,Jarrett等人声称非线性f(x) = |tanh(x)| 与其对比度归一化一起,然后是局部均值池化,在Caltech-101数据集上工作的非常好。然而,在这个数据集上,主要的关注点是防止过度拟合,因此他们观察到的效果不同于我们在使用ReLU拟合数据集的加速能力。更快的学习对在大数据集上训练的大模型的性能有很大的影响。

4.2 多GPU训练

单个GTX 580GPU只有3GB的内存,这限制了可以在其上训练的网络的最大尺寸。事实证明,120万图像用来进行网络训练是足够的,但网络太大因此不能在单个GPU上进行训练。因此,我们将网络分布在两个GPU上。当前的GPU特别适合跨GPU并行,因为它们能够直接读取和写入彼此的内存,而无需通过主机内存。我们采用的并行方案本质上是将一半的内核(或神经元)放在每个GPU上,还有一个额外的技巧:GPU只在特定的层上通信。这意味着,例如,第3层的核会将第2层的所有核映射作为输入。然而,第4层中的核只将位于相同GPU上的第3层的核映射作为输入。连接模式的选择是一个交叉验证的问题,但是这可以让我们精确地调整通信数量,直到它的计算量在一个可接受的范围内。

除了我们的列不是独立的之外(见图2),最终的架构与Ciresan等人使用的“columnar”CNN有些相似。与每个卷积层中有一半的核在一个GPU上训练的网络相比,该方案将我们的前1名和前5名错误率分别降低了1.7%和1.2%。双GPU网络的训练时间比单GPU的网络稍短。

图2。我们CNN架构图解,明确描述了两个GPU之间的责任。在图的顶部,一个GPU运行在部分层上,而在图的底部,另一个GPU运行在部分层上。GPU只在特定的层上通信。网络的输入是150,528维的,网络剩余层的神经元数目是290,400-186,624- 64,896-64,896-43,264-4096-4096-1000。

4.3局部响应归一化

ReLU具有理想的特性,即不需要通过输入归一化来防止饱和。如果至少有一些训练样本对ReLU产生了正输入,那么那个神经元上将发生学习。然而,我们仍然发现下面的局部响应归一化有助于通用化。由表示通过在位置(x,y)应用核I,然后应用ReLU非线性来计算,响应归一化激活由表达式给出

其中求和运算在N个“相邻”核映射上的相同空间位置运行,并且N是该层中卷积核的数目。核映射的排序当然是任意的,并且在训练开始之前就已经确定了。这种响应归一化实现了一种受真实神经元类型启发的侧抑制形式,在使用不同核进行神经元输出计算的较大活动创造了竞争。常量k、n、alpha;和beta;是超参数,其值是使用验证集确定的;我们设k = 2,n = 5,alpha;= 0.0001,beta; = 0.75。在特定层中应用ReLU非线性后,我们应用了这种归一化(见第4.5节)。

该方案与Jarrett等人的局部对比度归一化方案有些相似,但我们的方案更准确地称为“亮度归一化”,因为我们没有减去均值。响应归一化将前1名和前5名错误率分别降低了1.4%和1.2%。我们也在CIFAR-10的数据集上验证了该方案的有效性:一个没有归一化的四层CNN实现了13%的测试错误率,而使用归一化取得了11%的错误率。

4.4 重叠池化

CNN中的池化层归纳了同一核映射上相邻组神经元的输出。习惯上,由相邻池化单元归纳的区域是不重叠的(例如,参考文献5,13,20)。更准确地说,池化层可以被认为是由间隔s个像素的池化单元网格组成的,每个池化层概括了以池化单元的位置为中心的大小为z times; z的邻域。如果我们设置s = z,我们会得到通常在CNN中采用的传统局部池化。如果我们设置s lt; z,我们得到重叠池化。这就是我们网络中使用的方法,设置s=2,z=3。这个方案分别降低了top-1 0.4%,top-5 0.3%的错误率,与非重叠方案s=2, z=2相比,输出的维度是相等的。我们在训练过程中通常观察采用重叠池化的模型,发现它更难过拟合。

3.5 整体架构

现在我们准备描述我们的CNN的整体架构。如图2所示,我们的网络包含8个带权重的层;前5层是卷积层,剩下的3层是全连接层。最后一层全连接层的输出是1000维softmax的输入,softmax会产生1000类标签的分布。我们的网络最大化多项逻辑回归的目标,这等价于最大

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239020],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。