用于大规模图像识别的深度卷积网络外文翻译资料

 2022-08-09 10:08

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


用于大规模图像识别的深度卷积网络

摘要

在这项工作中,我们研究了卷积网络深度对其在大规模图像识别设置中的准确性的影响。我们的主要贡献是使用一个非常小的(3times;3)卷积滤波器的架构对增加深度的网络进行了全面的评估,这表明通过将深度提升到16-19个权重层,可以显著改善先前的配置。这些发现是我们提交ImageNet挑战赛2014的基础,我们的团队在本地化和分类方面分别获得了第一和第二名。这些还表明,我们的表现可以很好地推广到其他数据集,在这些数据集上,他们可以获得最先进的结果。我们已经公开了两个性能最好的ConvNet模型,以便进一步研究如何在计算机视觉中使用深度视觉表示

1 介绍

卷积网络(ConvNets)最近在大规模图像和视频识别方面取得了巨大成功(Krizhevsky et al., 2012;Zeiler amp; Fergus, 2013;Sermanet et al.2014;Simonyan和Zisserman, 2014)这之所以成为可能,是因为大型公共图像存储库,如ImageNet (Deng et al,2009)和高性能的计算系统,如gpu或大规模分布式集群(Dean et al,2012)。特别是, ImageNet Large-ScaleVisual识别挑战(ILSVRC) (Russakovsky et al, 2014)在促进深度视觉识别体系结构扮演了重要的角色,它曾作为几代实验平台的大规模图像分类系统, 从高维浅特征编码(Perronnin et al ., 2010) (ILSVRC - 2011)的获胜者深处回旋网(Krizhevsky et al .2012) (ILSVRC - 2012)的获胜者

随着卷积神经网络在计算机视觉领域越来越成为一种商品,人们进行了许多尝试来改进Krizhevsky等人(2012)的原始架构,以达到更好的准确性。比如,在ILSVRC2013上表现最好的作品(Zeiler amp; Fergus, 2013;Sermanet et al.2014)利用较小的接受窗口大小和较小的第一卷积层步幅。另一条改进路线是在整个图像和多个尺度上密集地训练和测试网络(Sermanet et al.2014;霍华德,2014)。在本文中,我们讨论了ConvNet架构设计的另一个重要方面——深度。为此,我们修正了架构的其他参数,通过增加卷积层来稳步增加网络的深度,这是可行的,因为在所有层中都使用了非常小的(3times;3)卷积滤波器。

结果,我们提出更准确的Convnet架构,不仅实现了在ILSVRC分类和本地化的任务先进超前的准确性,也适用于其他图像识别的数据集,这些在他们达到优秀的performanceeven使用时你能提供平一个相对简单的管道的一部分(例如没有微调的深度线性SVM分类的特性)。为了便于进一步的研究,我们已经发布了两个性能最好的模型一。

论文的其余部分组织如下。在第二节中,我们描述了我们的ConvNet配置。第3节给出了图像分类训练和评价的细节,并对第4节中ILSVRC分类任务的配置进行了比较。第五节总结全文。为了完整性,我们还在附录A中描述和评估了我们的ILSVRC-2014对象本地化系统,并讨论了附录b中对其他数据集的深度特性的概括最后,附录C包含了论文主要修改的列表

2 网络结构和配置

为了在公平的环境下测量增加的ConvNet深度所带来的改善,我们所有的ConvNet层配置都使用相同的原则设计,其灵感来自Ciresan et al (2011);Krizhevsky et al (2012)。在这一节中,我们首先描述了我们的ConvNet配置的一般布局(2.1节),然后详细说明在评价中所采用的具体配置(2.2节)。然后讨论我们的设计选择,并与2.3节中的现有技术进行比较。.

2.1 结构

在训练中,我们的卷积神经网络的输入是一个固定大小的224times;224 RGB图像。我们做的唯一预处理是从每个像素中减去在训练集上计算的RGB平均值。图像通过一堆卷积(conv.)层传递,我们使用带有非常小的接受域的过滤器:3times;3(这是捕捉左/右、上/下、中间的概念的最小大小)。在其中一种配置中,我们还使用了1times;1的卷积滤波器,它可以看作是输入通道的线性变换(其次是非线性)。卷积步幅固定为1像素;凹凸层输入的空间填充是卷积后保持空间分辨率,即3times;3凹凸层的填充为1像素。空间池化由5个最大池化层执行,它们遵循一些对流层(不是所有对流层都遵循最大池化)。最大池是在一个2times;2像素的窗口上执行的,步长为2。

一个卷积层堆栈(在不同的架构中具有不同的深度)后面是三个全连接(FC)层:前两个层各有4096个信道,第三个层执行1000路ILSVRC分类,因此包含1000个信道(每个类一个信道)。最后一层是软max层。在所有网络中,全连接层的配置是相同的.

所有的隐层都配备了校正(ReLU (Krizhevsky et al., 2012))非线性。我们注意到,我们的网络中没有一个(除了一个)包含局部响应正态化(LRN)正态化(Krizhevsky et al.,2012):如第4节所示,这种正态化不会提高ILSVRC数据集的性能,但会导致内存消耗和计算时间的增加。适用时,LRN层的参数为(Krizhevsky et al.,2012)。

2.2 配置部署

本文所评估的ConvNet配置列在表1每个列中。在下面,我们将提到网队的名字(A-E)。所有的配置都遵循2.1节中提出的通用设计,只是在深度上有所不同:从网络A中的11个权重层(8个对流和3个FC层)到网络E中的19个权重层(16个对流和3个FC层)。对流层的宽度(通道的数量)相当小,从第一层的64个通道开始,然后在每个最大池化层之后增加2倍,直到达到512个通道。

在表2中,我们报告了每种配置的参数数量。尽管深度很大,但我们的网中重量的数量并不大于更浅的网中重量的数量,更大的对流层宽度和接受域(144M重量In (Sermanet et al., 2014))。

2.3 讨论

我们的ConvNet配置与ILSVRC-2012 (Krizhevsky et al.2012)和ILSVRC-2013竞赛(Zeiler amp; Fergus, 2013;Sermanet et al.2014)。而不是在第一对流中使用相对较大的接受域(例如11times;11与stride 4 in (Krizhevsky et al.2012),或7times;7与stride 2 in (Zeiler amp; Fergus, 2013);Sermanet et al .2014)),我们使用非常小的3times;3接受字段在整个网络,这是与输入每个像素卷积(1步)。很容易看到一堆两个3times;3 conv.层(没有空间池)之间有一个有效的接受域5times;5;三个表

1: ConvNet配置(列中显示)。随着添加更多的层(添加的层以粗体显示),配置的深度从左(A)到右(E)逐渐增加。卷积层参数记为“通道的对流接受域size -hnumber”。为了简单起见,没有显示ReLU激活函数。

ConvNet Configuration

A

A-LRN

B

C

D

E

11 weight

11 weight

13 weight

16 weight

16 weight

19 weight

layers

layers

layers

layers

layers

layers

input (224 times; 224 RGB image)

conv3-64

conv3-64

conv3-64

conv3-64

conv3-64

conv3-64

LRN

conv3-64

conv3-64

conv3-64

conv3-64

ma

xpool

conv3-128

conv3-128

conv3-128

conv3-128

conv3-128

conv3-128

conv3-128

conv3-128

conv3-128

conv3-128

ma

xpool

conv3-256

conv3-256

conv3-256

conv3-256

conv3-256

conv3-256

conv3-256

conv3-256

conv3-256

conv3-256

conv3-256

conv3-256

conv1-256

conv3-256

conv3-256 conv3-256

ma

xpool

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv1-512

conv3-512

conv3-512 conv3-512

ma

xpool

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv3-512

conv1-512lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239696],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。