深度残差学习在图像识别中的应用外文翻译资料-外文翻译网

英语原文共 12 页，剩余内容已隐藏，支付完成后下载完整资料

深度残差学习在图像识别中的应用

摘要

由于更深层次的神经网络更难训练。我们提出了一个残差学习框架，以简化对比以前使用的网络更深入的网络的训练。我们根据层输入显式地将层重新表示为学习残差函数（learning residual functions），而不是学习未定义函数。我们提供了综合的经验证据，表明这些残差网络易于优化，并且可以从大幅度增加的深度中获得精度。在ImageNet数据集上，我们估计残差网络的深度可达152层--是vgg网络的8倍深[41]，但仍然具有较低的复杂性。这些残差网的集合在图像集上的误差达到了3.57%。这个结果获得了ILSVRC2015的分类任务第一名，我们还用CIFAR-10数据集分析了100层和1000层的网络。

表示的深度对于许多视觉识别任务是非常重要的。仅仅由于我们的表示非常深入，我们在coco对象检测数据集上得到了28%的相对改进。深度残差网络是我们参加ILSVRC amp; COCO 2015 竞赛上所使用模型的基础，并且我们在ImageNet检测、ImageNet定位、COCO检测以及COCO分割上均获得了第一名的成绩。

1、介绍

深层卷积神经网络[22，21]导致了图像分类[21，50，40]的一系列突破。深层网络自然地将低/中/高层次特征[50]和分类器以端到端的多层方式集成在一起，而特征的“层次”可以通过堆叠层的数量（(深度）来丰富。最近的证据[41，44]表明，网络深度至关重要，在富有挑战性的ImageNet数据集[36]上的领先结果[41，44，13，16]都利用了“非常深”[41]模型，深度为16[41]至30[16]。许多其他非平凡（nontrivial）的视觉识别任务[8，12，7，32，27]也从非常深入的模型中获益良多。

在深度重要性的驱动下，出现了一个问题：学习更好的网络就像堆积更多的层一样容易吗？回答这个问题的一个障碍是臭名昭著的梯度消失/爆炸[1，9]的问题，它从一开始就阻碍了收敛（hamper convergence ）。然而，这个问题在很大程度上是通过标准化初始化[23，9，37，13]和中间归一化层[16]来解决的，这使得数十层的网络在反向传播的随机梯度下降（SGD）上能够收敛。

当更深的网络能够开始收敛时，一个退化的问题就暴露出来了：随着网络深度的增加，精确度变得饱和(这可能不足为奇)，然后迅速退化。出乎意料的是，这种退化并不是由于过度拟合造成的，而且在适当深度的模型中增加更多的层会导致更高的训练误差，正如[11，42]中所报告的，并通过我们的实验进行了彻底验证。图1显示了一个典型的例子。

图1

图1中20层和56层“朴素”网络的CIFAR-10上的训练错误(左)和测试错误(右)。网络越深，训练误差越大，测试误差越大。图4中给出了ImageNet上的类似现象。

(训练精度的）退化表明，并非所有系统都同样容易优化。让我们考虑一种更浅的体系结构及其更深层次的架构，它增加了更多的层。对于更深的模型，这有一种通过构建的解决方案：恒等映射（identity mapping）来构建增加的层，而其它层直接从浅层模型中复制而来。该解的存在性表明，更深层次的模型不应比较浅的模型产生更高的训练误差。但是实验表明，我们目前无法找到一个与这种构建的解决方案相当或者更好的方案（或者说无法在可行的时间内实现）。

在本文中，我们通过引入深度残差学习框架（a deep residual learning framework）来解决退化问题。我们不是希望每个层叠层直接拟合所需的底层映射（desired underlying mapping），而是显式地让这些层拟合一个残差映射（residual mapping）。假设所需的底层映射为 H(x)H(x)，我们让堆叠的非线性层来拟合另一个映射：F(x):=H(x)minus;xF(x)：=H(x)minus;x。因此原来的映射转化为： F(x) xF(x) x。我们假设优化残差映射比优化原始的未参考的映射容易。在极端情况下，如果恒等映射是最优的，则将残差推至零比用一堆非线性层拟合恒等映射更容易。

公式F(x) x可以通过前馈神经网络（feedforward neural networks）的“快捷连接（shortcut connections）”来实现(图2)。捷径连接[2，34，49]是跳过一个或多个层的连接。在本例中，快捷连接只执行恒等映射，它们的输出被添加到叠加层的输出中(图2)。恒等捷径连接既不增加额外的参数，也不增加计算的复杂性。整个网络仍然可以使用反向传播的SGD进行端到端的训练，并且可以使用公共库(例如caffe[19])来实现，而无需修改求解器（ solvers）。

图2 残差学习：一个积木块

我们在ImageNet[36]上进行了综合实验，以说明退化问题并对我们的方法进行评估。结果表明：1)我们的极深残差网络易于优化，但对应的“朴素”网(即简单的层叠层)随着深度的增加，训练误差较大；2)我们的深层残差网可以很容易地从深度的大幅度增加中获得精度增益，比以前的网络产生的结果要好得多。

CIFAR-10数据集上也出现了类似的现象，这表明了我们提出的方法的优化难度和效果并不仅仅是对于一个特定数据集而言的。我们在这个数据集上展示了经过成功训练的100层以上的模型，并探索了1000层以上的模型。

在ImageNet分类集[36]上，我们利用极深的残差网得到了很好的结果。我们的152层剩余网是迄今为止在ImageNet上出现的最深的网络，但其复杂度仍然低于vgg网[41]。我们的组合在ImageNet测试集上有3.57%的前5错误（top-5 error），并在ILSVRC 2015分类竞赛中获得了第一名。他在其他识别任务上也有很好的泛化能力，使我们在ILSVRC中的图像网络检测、图像网络定位、coco检测和coco分割方面获得了第一名。这一强有力的证据表明，残差学习原理是通用的，我们期望它适用于其他视觉和非视觉问题。

2、相关工作

残差表示：在图像识别中，VLAD[18]是用残差向量对字典进行编码的表示，Fisher向量[30]可以表示为VLAD的概率版本[18]。两者都是图像检索和分类的有力表示法[4，48]。对于矢量量化，编码剩余向量[17]比编码原始矢量更有效。

在低水平视觉和计算机图形学中，对于求解偏微分方程(PDEs)，广泛使用的多重网格方法[3]在多尺度上将系统重新定义为子问题，其中每个子问题负责较粗和较细尺度之间的残差解（residual solution）。多重网格的另一种选择是分层基预处理（hierarchical basis preconditioning）[45，46]，它依赖于在两个尺度之间表示残差向量的变量。[3，45，46]已证明这些求解器比不知道解的残差性质的标准求解器收敛得快得多。这些方法表明，一个好的配方或预处理可以简化优化。

捷径连接：捷径连接[2, 34, 49] 已经经过了很长的一段实践和理论研究过程。一个训练多层感知器(MLPs)的早期实践是添加一个线性层，从网络输入连接到输出[34，49]。在[44，24]中，一些中间层直接连接到辅助分类器，用于解决消失/爆炸梯度（的问题）。[39，38，31，47]的论文提出了用捷径连接实现集中层响应、梯度和传播误差的方法。在[44]中，“Inception”层是由一个捷径分支和几个更深的分支组成的。

与此同时，“ 高速网“（“highway networks”）[42,43]将捷径连接与门控函数[15]结合起来。这些门依赖于数据，并且有参数，而我们的恒等快捷连接（identity shortcuts）是无参数的。当门控捷径“关闭”(接近于零)时，公路网中的层表示非残差函数。相反，我们的公式总是学习残差函数；我们的恒等快捷连接永远不会关闭，所有信息都会被传递出去，而附加的残差函数将被学习。此外，高速网络在深度极深(例如，超过100层)的情况下，没有表现出精确性的提高。

3. 深度差学习

3.1残差学习

让我们把H(x)看作是由几个层叠层(不一定是整个网)组成的底层映射，用x表示这些层中的第一个层的输入。如果假设多个非线性层可以渐近逼近复杂函数【2--This hypothesis, however, is still an open question. See [28].】，则等于假设它们可以渐近逼近残差函数，即H(X)minus;x(假设输入和输出具有相同的维度)。因此，与其期望叠加层近似H(X)，我们不如显式地让这些层近似一个残差函数F(x)：=h(x)minus;x。原来的函数因此变成F(x) x。虽然这两种形式都应该能够渐近地近似于所期望的函数(如假设)，但学习的容易程度可能是不同的。

此重新表示（ reformulation）是由有关退化问题的反直觉现象所驱动的(图1，左)。正如我们在介绍中所讨论的，如果可以将添加的层构造为恒等映射，则更深层次的模型应该具有不大于其浅层结构的训练错误。退化问题表明求解者很难用多个非线性层逼近恒等映射。利用残差学习重构，如果恒等映射是最优的，则求解者可以简单地将多个非线性层的权值推向零，以逼近恒等映射。

在实际情况下，恒等映射不太可能是最优的，但是我们的重新表达对于这个问题的预处理是有帮助的。如果最优函数更接近于恒等映射而不是零映射，则求解者应该更容易找到与恒等映射有关的扰动（perturbations），而不是将其作为新的扰动来学习。我们通过实验(图7)证明了学习的残差函数一般都有较小的响应，说明恒等映射提供了合理的预条件。

3.2通过快捷方式进行恒等映射

我们对每几个层叠的层次采用残差学习。图2中展示出了一个积木块（building block ）。形式上，在本文中，我们考虑了一个积木块被定义为：

（1）

这里x和y是考虑的层的输入和输出向量。函数表示要学习的残差映射。图2中的例子包含两层，，其中sigma;sigma;代表ReLU，为了简化省略了偏置项。F xF x操作由一个快捷连接和元素级（element-wise）的加法来表示。在加法之后我们再执行另一个非线性操作(例如, sigma;(y)sigma;(y)，如图2）。

Eq.1中的shortcut连接没有增加额外的参数和计算复杂度。这不仅在实践中很有吸引力，而且在我们比较普通网络和残差网络时也很重要。我们可以在参数、深度、宽度以及计算成本都相同的基础上对两个网络进行公平的比较（除了可以忽略不计的元素级的加法）。

在eqn.（1）中，x和F的维数必须相等。如果情况并非如此(例如，在更改输入/输出通道时)，我们可以通过快捷连接执行线性投影W s ，以匹配维度:

（2）

我们还可以在eqn(1)中使用方阵Ws。但是，我们将通过实验证明，恒等映射对于解决退化问题是足够的，而且是经济的，因此只有在匹配维数时才使用Ws。

残差函数F的形式是灵活的。本文的实验涉及一个函数F，它有两个或三个层(图5)，然而它可能有更多的层。但如果F只有一个单层，则eqn.(1)类似于线性层：y=w1x x，对此我们没有发现任何优势。

我们还注意到，虽然为了简单起见，上述表示法是关于全连通层的，但它们适用于卷积层。函数F(x，{wi})可以表示多个卷积层.元素级加法是在两个特征映射上相应通道上执行的。

3.3网络结构

我们测试了各种普通/残差网络，并观察到一致的现象。为了提供讨论的实例，我们对ImageNet的两个模型进行了如下描述。

Plain网络：我们的plain网络结构(图3，中)主要受VGG网络 (图.3，左)的启发。卷积层主要为3*3的滤波器，并遵循以下两点要求：(i) 输出特征映射尺寸相同的层含有相同数量的滤波器；(ii) 如果特征尺寸减半，则滤波器的数量增加一倍来保证每层的时间复杂度相同。我们直接用步长为2的卷积层进行下采样。网络以一个全局平均池层和一个带有Softmax的1000路全连接层结束。在图3(中)，有权值的层的总数为34。

值得注意的是，与vgg网[41]（图3，左）相比，我们的模型具有更少的滤波器和更低的复杂度。我们的34层基线（baseline）有36亿FLOPs乘加)，仅为VGG-19(196亿FLOPs)的18%。

图3 ImageNet的网络框架

图3 对应于ImageNet的网络框架举例。左：VGG-19模型（196亿个FLOPs）作为参考。中：plain网络，含有34个参数层（36 亿个FLOPs）。右：残差网络，含有34个参数层（36亿个FLOPs）。虚线表示的shortcuts增加了维度。

表1 展示了更多细节和其它变体

表1对应于ImageNet的结构框架。括号中为构建块的参数(同样见Fig.5)，数个构建块进行堆叠。下采样由stride为2的conv3_1、conv4_1和conv5_1 来实现。

残差网络：基于上述plain网络，我们插入快捷连接(图3,右)将网络转换为对应的残差版本。当输入和输出尺寸相同时(图3中的实线快捷连接)，可以直接使用恒等快捷键(eqn.1)。当维度增加时（Fig.3中的虚线部分），考虑两个选项：(A) shortcut仍然使用恒等映射，在增加的维度上使用0来填充，这样做不会增加额外的参数；(B) 使用Eq.2的映射shortcut

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[608831]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

深度残差学习在图像识别中的应用外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章