英语原文共 14 页
卷积神经网络最新研究进展
Jiuxiang Gulowast;, Zhenhua Wanglowast;, Jason Kuen, Lianyang Ma, Amir Shahroudy, Bing Shuai, Ting Liu, Xingxing Wang, and Gang Wang, Member, IEEE
摘要
在过去的几年里,深度学习在多个方面上都表现得很好,比如对象识别、语音识别和自然语言处理。在不同类型的深层神经网络中,卷积神经网络已被广泛研究。由于早期缺乏训练数据和计算能力,大容量卷积神经网络难以训练以及进一步安装。最近,随着数据的快速增长,图形处理器单元的尺寸和不断增加的功率,研究人员改进了卷积神经网络致使各项任务取得了最新成果。在本文中,我们提供了卷积神经网络的最新进展的广泛调查。此外,我们还介绍了计算机视觉中的卷积神经网络。
关键词:卷积神经网络,深度学习。
一、导言
卷积神经网络(CNN)是Lecun等人首次提出的。在[1]和[2]中有所改进。他们开发了一种多层人工神经网络Lenet-5可以对手写数字进行分类。像其他神经系统一样网络,Lenet-5有多层,可以训练使用反向传播算法[3]。它可以获得有效的原始图像的表示,使其成为可能直接从原始像素识别视觉模式几乎没有预处理。然而,由于缺乏当时的训练数据和计算能力,Lenet-5可以在更复杂的问题上表现不佳,例如大规模图像和视频分类。
自2006年以来,已经开发出许多方法来克服深度神经网络训练中遇到的困难。最值得注意的是,Krizhevsky等人提出经典CNN架构,并在以前的图像分类中实现了很大的突破。总体他们方法的体系结构,即Alexnet[4],类似于Lenet-5,但结构较深。它包含8个学习内容,5个交错的卷积层和3个完全连接的层,其中早期的层在两个GPU使用relu[5]作为非线性激活功能和退出[6],用于减少过拟合。
随着Alexnet的成功,提出了几项工作以提高其性能。其中,三位代表作品有ZFnet[7]、Vggnet8]和Googlenet[9]。ZFNET通过将第一层的过滤器大小从11times;11至7times;7,并减少卷积的步幅从4到2。在这种情况下,中间卷积的大小层被扩展以捕获更有意义的特性。vgnet将网络深度推高至19个重量层,在每个卷积层中使用非常小的3times;3大小的滤波器。结果表明,深度是性能的重要影响因素。谷歌既增加了深度,又增加了网络的宽度,它获得了显著的质量收益通过对比需求来适度增加较浅和较宽的网络。
除了这些作品,还有很多作品目的在于提高CNN在不同方面的水平,如:层面设计,激活函数、损失函数、正则化、优化快速计算,或者在不同种类的计算机视觉任务。在以下部分中,我们确定与美国有线电视新闻网有关的各类工作。我们首先给出第二节CNN基本组成部分概述。然后,CNN不同方面的一些最新改进是第三节介绍了,快速计算技术在第四节中介绍。接下来,我们将讨论一些典型的CNN在第五节中的应用,论文第六节得出了最后的结论。
- 基本CNN组件
CNN有多重体系结构。但是,它们的基本组件非常相似。CNN的基本架构通常包括三种类型层,即卷积层、汇集层和完全连接层。图1显示了Lenet-5的结构[1]这是延乐坤介绍的。
卷积层旨在学习特征表示输入的。如图1所示,卷积层为由几个功能图组成。特征的每个神经元图与前一个神经元的邻域相连层。这样的邻域称为神经元的上一层的接收字段。计算新的特征映射,输入特征映射首先与学习核,然后将结果传递到非线性激活功能。通过应用几个不同的内核,获得了完整的新特征图。注意,内核ARXIV:1512.07108v1[cs.cv]22 2015年12月22日生成单一特征图的方法相同。这种股权分置模式有几个优点,例如它可以减少模拟复杂性,使网络更容易训练。这个激活函数将非线性引入CNN,其中是多层网络检测非线性的理想选择特征。典型的激活功能是乙状结肠,TANH和Relu〔5〕。
池化层的目标是通过降低功能图的分辨率。它通常是置于两个卷积层之间。每个功能图的池层的连接到其相应的功能图前一卷积层的。因此,它们有相同的功能图的数目。典型的池操作是平均池[10]和最大池[11–13]。堆叠我们可以提取几个卷积和聚集层更抽象的特征表示。在几个卷积和聚集层之后,可能一个或多个完全连接的层,其目标是实现高性能层次推理。它们带走前一层的所有神经元将它们连接到当前层的每个神经元。那里在完全连接的层中没有保存空间信息。最后一个完全连接层的输出将输入到输出层。对于分类任务,SoftMax回归是通常使用,因为它产生了一个良好的输出概率分布[4]。另一种常用方法是SVM,可以与CNN结合解决分类任务[14]。
- CNN改进
自Alexnet在2012年的成功。在本节中,我们将介绍从六个方面对CNN的主要改进:卷积层、池层、激活函数、丢失函数、正则化和优化。
A,卷积层
基本CNN中的卷积滤波器是一种广义线性滤波器。底层本地图像修补程序的模型(GLM)。它工作在概念的实例是线性可分离。在这里,我们介绍两个目标以增强其表现能力。
1)网络中的网络:网络中的网络(nin)是Lin等人提出的一般网络结构。〔15〕。它用微滤波器代替卷积层的线性滤波器网络,例如多层感知器卷积(MLPCONV)使其能够近丝对潜在概念的更抽象的表达。NIN的总体结构就是这种微网络的叠加。
卷积层与MLPCONV的区别让我们考虑如何在他们中的每一个人。形式上,卷积的特征图层计算如下:
fi,j,k=最大值(wkxi,j,0)。(1)
其中i和j是特征图中的像素索引,xij是以(i,j)和k为中心的输入补丁是功能图。作为比较,计算由MLPCONV层表示为:
其中n是MLPCONV层中的层数。它可以发现式(2)相当于级联交叉信道正常卷积层上的参数池。
2)起始模块:起始模块由SZEGEDE等。[9]这可以看作是逻辑的顶点NIN的[9]使用可变的过滤器大小捕获不同的不同尺寸的视觉模式,并通过初始模块逼近最优稀疏结构。明确地,初始模块由一个池操作和三个卷积运算的类型。放置1times;1个卷积在3times;3和5times;5卷积之前作为降维模块,允许增加CNN不会增加计算的复杂性。用在初始模块的帮助下,网络参数可以大大减少到500万,远远低于Alexnet(6000万)和ZFnet(7500万)。在他们最近的论文[16]发现高性能网络他们提出了一些相对适中的计算成本根据实验评估,设计扩大CNN的原则。具体来说,他们建议:(1)一应该避免表示瓶颈,尤其是在网络。一般来说,表示大小应该是温和的从输入减少到输出。(2)更高的尺寸表示更容易在本地处理。(3)空间聚集可在较低尺寸的嵌入件上进行,无需太多代表权丧失。(4)最佳性能通过平衡每个层和网络的深度。
B.汇集层
汇聚层是CNN的一个重要概念。在卷积层之间它降低了通过减少连接数来减小计算负担。在本节中,我们将介绍CNN中使用的一些最新的池方法。
1)LP池:LP池是一个以复杂细胞为模型的生物学激发的池过程[17],[18]。它在[19]和[20]中进行了理论分析,这表明lp池比max池提供更好的泛化。
LP池可以表示为(PNi=1times;1/ p,这里{XI1,hellip;,xin是一组有限的输入节点。当p=1时,LP
减少到平均池,当p=2时,lp减少到L2池。最后,当p=infin;时,lp减小到最大池。
2)混合池:灵感来自随机退出[6]和Dropconnect[21],Yu等人[22]提出混合池最大池和平均值相结合的方法汇集。混合池的功能可以表述为:
ykij是与位置(i,j)在k次特征图中,lambda;是一个随机值为0或1,表示选择使用max联合或平均联合,RIJ是一个当地社区在位置(i,j)周围,xkpq是(p,q)处的元素。在K-th特征图中的汇集区域RIJ内。期间正向传播过程,记录并将使用lambda;用于反向传播操作。在[22]中的实验表明混合池可以更好地解决过度拟合的问题,它的性能比最大池和平均池要好。
3)随机池:随机池[23]确保特征映射的非最大激活也是可能的。具体来说,随机池首先计算通过规范化每个区域RJ的概率p区域内的激活,即pi=ai/P,kisin;Rj(AK)。然后它从基于p到的多项式分布中取样。选择区域内的位置L。集合激活是sj = al,式中l~p(p1,hellip;,p rj)。随机汇集最大池的优点,可以避免随机分量。
4)光谱池:光谱池[24]通过裁剪频域。给定输入特征映射xisin;rmtimes;n,假设所需输出特征图的尺寸为htimes;w,谱池首先计算离散傅立叶输入特征图的变换(DFT),然后仅通过保持中心Htimes;W来裁剪频率表示子阵的频率,最后使用逆DFT来
将近似值映射回空间域。相比最大池,线性低通滤波操作光谱池可以为相同的数据保留更多的信息输出维度。同时,它也不受输出图维数的急剧下降。相比于其他池的方法。更重要的是,光谱的过程池是通过矩阵截断来实现的,这使得能够以很少的计算成本实现,在CNN中(如[25]),使用FFT进行卷积核。
5)空间金字塔池:空间金字塔池(SPP)由He等人介绍。〔26〕。SPP的主要优势是
它可以生成固定长度的表示,而不管输入大小。SPP池在本地空间中的输入特征映射大小与图像大小成比例的箱导致的固定箱数。这和滑动窗不同以前的深层网络中的池,其中滑动窗口取决于输入大小。通过替换最后一个SPP池层,他们提出了一个新的SPP网络能够处理不同大小的图像。
6)多尺度无秩序池:受[27]启发,龚等人使用多尺度无秩序池(MOP)来改进CNN在不降低其识别性的前提下的不变性权力。它们提取整体的深层激活特征多尺度图像和局部斑块。激活整个图像与之前的CNN相同,目的是捕捉全球空间布局信息。本地补丁的激活通过VLAD进行聚合。编码[29],目的是捕获更局部、更细粒度的图像的细节以及增强不变性。这个新的图像表示是通过连接全局激活和本地补丁的VLAD功能激活。
c.激活功能
适当的激活功能显著提高了CNN在某项任务中的表现。在本节中,我们介绍CNN中最近使用的激活函数。
1)relu:整流线性单元(relu)[5]是最显著的非饱和活化功能。雷鲁
激活功能定义为:
yi=最大值(0,zi)(4)
是第i个通道的输入。雷鲁是一个分段的线性函数,将负部分修剪为零,然后保留正部分(见图2(a))。简单最大值RELU的运行使其计算速度比乙状结肠或TANH激活功能,它还诱导隐藏单元的稀疏性,使网络容易获取稀疏表示。已经表明即使没有RELU,也可以使用RELU有效地训练网络培训前[4]。即使relu在0处的不连续性可能会影响反向传播的性能,很多作品已经证明,雷鲁比乙状结肠和坦恩更有效。激活的功能是经验性的。
2)漏磁阻:磁阻单元的一个潜在缺点是当单元不活动时,它的梯度为零。这个可能导致最初未激活的单元从未激活基于梯度的优化不会调整它们的权重。此外,由于持续的零梯度,为了缓解这个问题,Mass等人介绍泄漏relu(lrelu)[30]定义为:
a是范围(0,1)中的预定义参数。相比有了RELU,泄漏的RELU反而压缩了负部分。
而不是将其映射到常量零,这使得它允许小,非零梯度时,单位不活跃。
3)参数RELU:他等人没有在Leaky Relu中使用预先定义的参数,例如等式(5)中的a。〔31〕建议自适应的参数化线性校正单元学习整流器的参数以提高准确性。在数学上,prelu函数定义为
人工智能是第i个通道的学习参数。因为Prelu只引入了非常少量的额外参数,例如,额外的参数编号与整个网络的信道数,没有额外的风险过度拟合和额外的计算成本可以忽略不计。它也可以通过以下方式同时训练其他参数:反向传播。
4)随机relu:泄漏relu的另一变种是随机漏泄校正线性单元(RRELU)[32]。在RRELU中,负部分的参数是随机的。从训练中的均匀分布中取样,然后固定在测试中(见图2(c))。形式上定义了rrelu函数
Z(j)i表示j-th示例中的i-th通道,表示其对应的采样参数,Y(j)i表示它的相应输出。它可以减少由于它的随机性。[32]还评估了RELU、LRELU和Prelu和Rrelu执行标准图像分类任务,并得出结论,将负的非零斜率部分整流激活单元可以持续改善性能。
5)ELU:[33]引入指数线性单元(ELU)它可以更快地学习深层神经网络和导致更高的分类精度。像雷鲁,勒卢,prelu和rrelu,elu通过将正部分设置为恒等,避免了消失梯度问题。与雷鲁相比,ELU具有负向性,有利于快速学习。与Lrelu相比,Prelu和Rrelu也有负部分,ELU采用饱和函数作为负对噪音更为坚固的部件。ELU的功能定义为:
a是一个预定义参数,用于控制负输入,致使ELU饱和。
6)最大输出:最大输出[34]是一个可选的非线性函数,在多个通道上获得最大响应。在每个空间位置。如[34]所述,maxout函数定义为:
zi是功能图的第i个通道。值得注意到Maxout享受了Relu的所有好处,因为relu实际上是maxout的一种特殊情况,例如max(w1x b1,w2x b2),其中w1是零向量,b1是零。此外,Maxout特别适合中途退出的培训。
7)Probout:[35]提出了MaxOut的概率变体,称为Probout。它们取代了最大值与概率抽样程序,并结合带探针的辍学者。具体来说,它们首先定义了k线性单位的概率为:
lambda;是控制分配。与辍学者结合,他们实际上将概率重新定义为:
图2:relu、lrelu、prelu之间的比较RRILU和ELU。对于泄漏的relu,a是根据经验预先定义的。对于PReLU,
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。