英语原文共 14 页，剩余内容已隐藏，支付完成后下载完整资料

用于大规模图像识别的甚深卷积神经网络

摘要

在这次工作中，我们研究了卷积神经网络的深度对大规模图像识别精度的影响。我们的主要贡献是使用一种非常小的(3times;3)卷积核的结构对增加深度的网络进行了彻底的评估，这表明通过将深度推进到16-19层，可以实现对现有技术配置的显著改进。这些发现是我们的ImageNet 2014年竞赛报告的基础，我们的团队分别在定位和分类上获得了第一名和第二名。我们还表明，我们的网络结构可以很好地推广到了其他数据集，在这些数据集中，它们取得了最先进的结果。我们已经将我们的两种性能最好的卷积神经网络模型公之于众，以便进一步研究在计算机视觉中使用深度视觉卷积网络的问题。

1 引言

卷积神经网络最近在大规模图像识别和视频识别方面取得了很大的成功（如 (Krizhevsky et al., 2012; Zeiler amp; Fergus, 2013; Sermanet et al., 2014;Simonyan amp; Zisserman, 2014)）。因为大型的公共图像存储库，如ImageNet(Deng et al., 2009)和高性能计算系统，如GPU或大规模分布式集群(Dean et al.，2012)，使得（大规模图像和视频识别）成为可能。特别是，大规模图像识别挑战赛(ILSVRC)(Russakovsky et al.，2014)为几代大规模图像分类系统提供了实验平台，它在深度视觉识别结构的发展中发挥了重要作用，从高维浅特征编码(Perronnin et al.，2010)(ILSVRC-2011的获胜者)到深度卷积神经网络(Krizhevsky et al.，2012)(ILSVRC-2012的获奖者)。

随着卷积神经网络成为计算机视觉领域的一种商品，人们对Krizhevsky等人（2012年提出）的原有的网络结构进行了大量的改进以获得更好的准确性。例如，向ILSVRC-2013提交的最佳表现(Zeiler amp; Fergus, 2013; Sermanet et al., 2014），就是在使用了更小的卷积核和更小的步幅在第一层卷积层中。另一个改进的方法是在整个图像和多个尺度上密集地训练和测试网络 (Sermanet et al., 2014; Howard, 2014)。在本文中，我们讨论了卷积神经网络结构设计中的另一个重要方面—它的深度。为此，我们确定了该网络结构的其他参数，并通过增加更多的卷积层来稳定地增加网络的深度，这是可行的，因为在所有卷积层中都使用了非常小的(3times;3)卷积核。

因此，我们赋有意义地提出了更加精确的卷积神经网络结构，它不仅在ILSVRC的分类和定位任务上达到了最先进的精度，而且还适用于其他图像识别数据集，即使作为相对简单流程中的一部分(例如，不经过微调的线性SVM分类的深层特征)，它们也可以获得优异的性能。为了便于进一步研究，我们已经公开发布了两个性能最好的卷积神经网络模型^[1]。

论文的其余部分按以下方式组织。在Section 2中描述了我们的卷积神经网络配置。在Section 3中给出了图像分类、训练和评价的细节，并且在Section 4对ILSVRC分类任务的配置进行了比较。在Section 5总结了本论文。为了完整起见，我们还在附录A中描述和评估了我们的ILSVRC-2014对象定位系统，并在附录B中讨论了将非常深层次的特征推广到其他数据集。最后，附录C为主要论文的修订清单。

2 卷积神经网络配置

为了测量在一个公平的设置下由增加的卷积神经网络深度所带来的改进，我们所有的卷积层配置都是使用相同的原则设计的，这一原理受到Ciresan等人（2011年）和Krizhevsky等人(2012年)的启发。在本节中，我们首先描述卷积神经网络配置的一般布局(Section 2.1)，然后详细说明评估中使用的特定配置(Section 2.2)。在Section 2.3讨论我们的设计选择，并与现有的技术进行比较。

2.1 结构

在训练过程中，我们的卷积神经络的输入是一个固定大小的224times;224 RGB图像。我们所做的唯一的预处理是从每个像素中减去平均RGB值，其中平均RGB值是在训练集上通过每个像素计算得到的。图像通过一系列卷积层进行处理，在这里我们使用具有一个非常小的卷积核的卷积层：3times;3大小（它是捕捉图像中左/右、上/下、中的标记信息的最小卷积核）。在其中一种配置中，我们还使用了1times;1卷积核，这可以看作是输入通道的线性变换(随后是非线性)。卷积步幅固定为1个像素单位，对卷积层的输入进行空间填充可以使卷积后的空间分辨率保持不变，即对3times;3卷积滤波器的填充为1个像素单位。空间池化由五个最大池化层执行，它们跟随在一些卷积层之后（并不是所有的卷积层后都跟随着最大池化层）。最大池在2times;2像素窗口上执行，步幅为2。

一系列的卷积层(在不同的网络结构中有不同的深度)后为三个全连接层(FC层)：前两个全连接层每个都有4096个通道，第三个全连接层执行ILSVRC分类（共有1000个类别），因此包含1000个通道(每个类别占用一个通道)。最后一层是软最大化层（Soft-max层）。在所有网络中，完全连接层的配置是相同的。

所有隐藏层都配有整流非线性激活函数(ReLU(Krizhevsky等人，2012年))。我们注意到，我们的网络(除一个外)没有一个网络包含局部响应归一化(LRN)(Krizhevsky et al.，2012)，如将在Section 4中所示，这种局部响应归一化不会提高卷积神经网络在ILSVRC数据集上的表现，但会导致内存占用增大和计算时间延长。在适用的情况下，LRN层的参数设置为Krizhevsky等人（2012年）的论文中的设置。

2.2 配置

本文评估的卷积神经网络配置见表1，其中每列代表一个卷积神经网络。下面我们将用字母（A—E）来代表这些卷积神经网络。所有配置遵循Section 2.1中提出的通用设计，并且仅在深度上不同：从网络A中的11个权重层（8个卷积层和3个全连接层）到网络E中的19个权重层（16个卷积层和3个全连接层）。卷积层的宽度(通道的数量)相当小，从第一层的64层开始，然后在每个最大池化层之后增加2倍，直到达到512层。

表1：卷积神经网络的配置（每列代表一种配置）。随着添加更多的层（新增加的层以粗体表示），卷积神经网络的深度从左（A）到右（E）依次增加。卷积层参数表示为“con(卷积核大小)-(通道的数量)”。为了简洁起见，ReLU激活函数没有在表中显示出来。

在表2中，我们展示了每种卷积神经网络配置中含有参数的数量。尽管我们的网络有很大的深度，相比那些有着更大的卷积层宽度（通道数量）和卷积核大小但较浅的网络，我们的网络中的参数数量并不比它们数目大（144百万个参数(Sermanet et al., 2014)）。

表2：参数的数量（百万）

2.3 讨论

我们的卷积神经网络的配置与ILSVRC-2012(Krizhevsky et al.，2012)和ILSVRC-2013 (Zeiler amp; Fergus, 2013; Sermanet et al., 2014)竞赛中表现最好的网络中使用的配置有很大的差异。不是在第一个卷积层中使用相对较大的卷积核(例如，11times;11的卷积核，步幅为4(Krizhevsky et al.，2012)，或7times;7的卷积核，步幅为2 (Zeiler amp; Fergus, 2013; Sermanet et al., 2014))，我们在整个网络中使用非常小的3times;3卷积核(步幅为1)，它们与输入在每个像素上进行卷积运算。很容易看出，两个3times;3的卷积核(它们之间没有空间池化)的等效卷积核的大小为5times;5；三个这样的卷积核（大小为3times;3）与一个7times;7卷积核的作用效果等价。那么，通过使用三个3times;3的卷积核而不是一个7times;7的卷积核，我们可以得到了什么呢？首先，我们采用了三个非线性校正层而不是一个非线性校正层，这使得决策函数更具判别力。其次，我们减少了参数：假设三个3times;3卷积核的输入和输出都有C个通道，则三个卷积层参数数量为3(3²C²)=27C²，同时，一个7times;7的卷积层需要7²C²=49C²个参数，相比多了81%。这可以被看作是对7times;7的卷积核施加了正则化，迫使它们通过3times;3卷积核进行分解（在两者之间注入非线性）。

1times;1卷积层的加入(配置C，表1)是一种在不影响卷积层的卷积核大小的情况下增加决策函数的非线性的方法。即使在我们的案例中，1times;1卷积实质上是在相同维数(输入和输出通道数相同)的空间上的线性投影，但通过激活函数引入了额外的非线性。得注意的是，最近在Lin等人(2014年)的“网络中的网络”体系结构中便使用了1times;1卷积层。

Ciresan等人(2011年)曾使用过小尺寸的卷积核，但它们的网络比我们的深度要小得多，并且没有在大规模ILVRC数据集上进行评价。Goodfellow等人(2014年)将深度卷积网络(11层权重层)应用于街道号码识别任务，并表明深度的增加会导致神经网络有更好的表现。GoogLeNet（Szegedy et al.，2014）是ILSVRC-2014分类任务中表现最好的神经网络，它是独立于我们的工作开发的，但相似之处在于它也基于非常深的卷积神经网络（22个权重层）和较小的卷积核（除了3times;3之外，它们还使用1times;1和5times;5卷积过滤器）。然而，它们的网络拓扑结构比我们的要复杂得多，而且为了减少计算量，在GoogLeNet的第一层中，特征映射的空间分辨率被更多地减少。如将在Section 4.5中展示的，在单网络分类的准确性上，我们的模型优于Szegedy等人(2014年)的GoogLeNet网络模型。

3 分类框架

在前面的章节中，我们详细介绍了我们的神经网络的配置，在这一部分中，我们描述了分类卷积神经网络的训练和评估的细节。

3.1 训练

卷积神经网络的训练过程一般遵循KrZevSkyet等人（2012年）的训练过程（除了从多尺度训练图像中采样裁剪图像输入之外，如后面所解释的）。也就是说，在训练过程中，采用带动量的最小批量梯度下降(基于反向传播(LeCun et al.，1989))对多项式Logistic回归目标进行优化。批次大小设为256，动量为0.9。训练按权重衰减(L₂惩罚乘子设置为5·10^minus;4)和对前两个全连接层(Dropout的概率为0.5)的Dropout正则化。学习率初始化为10^minus;2，当交叉验证集精度停止提高时，学习率下降10倍。经370 k次迭代(74个周期)后，学习率下降3次，学习停止。我们猜想，与Krizhevsky等人（2012年)提出的神经网络相比，尽管我们的网的参数数目更多，深度也更深，但由于(a)较大深度和较小的卷积核所施加的隐式正则化；(b)某些层的预初始化，我们的卷积神经网络需要更短的时间便可以收敛。

神经网络权值的初始化是很重要的，由于深度网络中梯度的不稳定性，不恰当的初始化会阻碍学习的进行。为了避免这个问题，我们先开始训练比较浅的网络A(表1)，并通过随机初始化进行训练。然后，在训练更深的网络结构时，我们初始化了前四个卷积层和最后三个全连接层和网络A中的一致 (中间层的参数是随机初始化的)。我们没有降低预初始化层的学习率，允许它们在学习过程中发生变化。对于随机初始化(在适用的情况下)，我们从均值为零，方差为10^minus;2的正态分布抽样作为网络的权重参数。偏差初始化为零。值得注意的是，在提交论文后，我们发现可以通过使用Glorotamp;Bengio(2012年)的随机初始化过程，不进行预训练就可以初始化权重参数。

为了获得固定大小的224times;224的卷积神经网络输入图像，将它们从重新缩放的训练图像中随机裁剪下来(每一次SGD迭代每张图像裁剪一次)。为了进一步扩大训练集，将裁剪的图像进行了随机水平翻转和随机RGB色彩变换(Krizhevsky et al.，2012)。对训练图像进行重新缩放说明如下。

训练图像大小。设S是各向同性重新缩放的训练图像的最小边，从中裁剪卷积神经网络输入（我们还将S称为训练标度）。当裁剪大小固定在224times;224时，原则上S可以取任何不小于224的值：当S=224时，裁剪将捕获整个图像作为统计数据，完全跨越训练图像的最小边；对于S≫224，裁剪将对应于图像的一小部分，其中包含一个小对象或一个对象的部分。

我们考虑了两种设置训练标度S的方法。第一种是固定S，它对应于单尺度的训练(注意，采样裁剪图像中的内容仍然可以表示多尺度图像统计数据)。在我们的实验中，我们评估了在两个固定尺度上训练的模型：S=256(这在现有技术中已经广泛使用了(Krizhevsky et al., 2012; Zeiler amp; Fergus, 2013; Sermanet et al., 2014))）以及S=384。在给定一个卷积神经网络配置的情况下，我们首先使用S=256对网络进行了训练，为了加快S=384网络的训练速度，我们用S=256的预训练权值初始化了该网络，并使用了较小的初始学习速率(10^minus;3)。

第二种设置S的方法是多尺度训练，通过从一定范围内随机采样S[S_mi

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[236856]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

用于大规模图像识别的甚深卷积神经网络外文翻译资料

用于大规模图像识别的甚深卷积神经网络

摘要

1 引言

2 卷积神经网络配置

2.1 结构

2.2 配置

2.3 讨论

3 分类框架

3.1 训练

您可能感兴趣的文章

登录

用于大规模图像识别的甚深卷积神经网络

摘要

1 引言

2 卷积神经网络配置

2.1 结构

2.2 配置

2.3 讨论

3 分类框架

3.1 训练

您可能感兴趣的文章