用于物体识别的递归卷积神经网络外文翻译资料

 2022-12-25 12:12

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


用于物体识别的递归卷积神经网络

摘要

近年来,卷积神经网络(CNN)在许多计算机视觉任务中取得了巨大成功。受部分神经科学启发,CNN有许多与大脑的视觉系统相似的属性。一个显着的差异是,CNN通常是向前的架构。而在视觉系统中,连接性总是很丰富。受此事实启发,我们提出周期性的CNN(RCNN)通过合并周期性病例来识别目标,并连接到每个卷积层。虽然输入是静态的,RCNN单位的活动会随着时间而改变使每个单位的活动受到其邻近单位活动的调节。此属性增强了 该模型的上下文信息整合的能力,这个能力对于物体识别非常重要。 像其他神经网络一样通过展开RCNN,时间会导致一个固定的任意深度的网络参数数量。此外,展开的网络有多条通道,可以促进训练过程。用该模型在四个基准物体识别上进行测试,数据集:CIFAR-10,CIFAR-100,MNIST和SVHN。由于可训练参数较少,RCNN的性能优于所有这些数据集上的最先进的模型。增加参数的数量可以有更好的性能。这些结果证明了周期性的优点在纯向前结构上承认。

1.介绍:

过去几年见证了卷积神经网络(CNN)在计算机视觉中的应用的兴盛。许多基准数据集CNN已经大幅提升目标识别的最新精度[26,50,33,5,43]。例如,在训练了1.2百万图片网上的图片后,CNN取得了较好的业绩,它比手工制作的功能要大得多。并将对象分类为了1000个类别。 此外,该数据集上的预先训练的CNN特征已被转移到其他数据集来实现显著的结果[5,43]。

CNN是一种来自神经科学的人工神经网络 该提案可追溯到1943年第一个人造神经元[34]。 实际上,CNN,和其他分层模型一样,(包括Neocognitron [13]-和HMAX [38]),与Hubel和Wiesel关于初级细胞和简单细胞的研究结果,视觉皮层(V1)密切相关。 [23,22]。 所有这些模型都有纯向前架构,可以被视为大体近似生物神经网络大脑。解剖证据表明周期性关系在新皮层无处不在,并且经常发生通常超过前突触和后向(或反馈)突触[6]。归因于存在反复出现和自上而下的突触,实际上,物体识别尽管输入是静态的,但其实是一个动态过程。 具体这些突触的功能仍不清楚,但一般来说,认为复发性突触发挥重要作用是在上下级调制中。视觉信号的处理是受其背景影响而强烈调节[得1]。 通常我们这样做会没有察觉到这种效果,但效果会在知觉幻觉中突出,例如着名的弗雷泽螺旋错觉[12]。 上下级调制也在个体神经元的反应中的视觉系统中被观察到。例如,V 1神经元的响应属性可以是,通过改变他们周围的环境在许多方面进行了改变典型接收区域(RFs)[42]。 这种现象是

由VI中的复发性突触诱导而来的[7,54]。上下级对于物体识别非常重要(图1)

图1.上下文对象识别的重要性。没有上下文(面部),很难识别黑色曲线中间区域作为鼻子。

前馈模型只能捕获上下级(例如,图1中的人脸)在单位较大的较高层射频,但这些信息无法调节活动,或负责识别较小物体的较低层的单元(例如图1中的鼻子)。 为了利用这些信息,有一种策略是通过卷积深度信念网络(CDBN),使用自顶向下(或反馈)连接向下传播[32] [31]。 在这项研究,我们采取了不同的策略,即使用周期性在同一层深度学习模型中建立的连接。预计配备上下级调制能力,这些横向连接可能会提高深度学习模式性能。

在这篇论文中,我们提出了一个静态对象的周期性CNN认同。 该架构如图所示2

前馈和周期连接都有局部连接和不同地点间的权重分享。这种架构与周期性多层感知器(RMLP)非常相似,它经常用于动态控制[11,37](图2,中)。 主要区别在于RMLP中所取代局部连接的完整连接被共享,就像MLP [40]和CNN。由于这个原因,模型被建议叫做递归卷积神经网络(ReNN)。

拟议的RCNN在几个基准测试中进行了测试物体识别数据集。 用更少的RCNN参数取得比最先进的CNNs更好的结果。所有这些CNN数据集,验证了RCNN的优点。 其余内容按照组织如下。第2节回顾了一些相关的工作。 第3节描述了RCNN的体系结构。 第4节介绍了实验结果和分析。最后,第五节是论文的总结。

2.相关工作

2.1 卷积神经网络

受到来自Rubel和Wiesel在英国对猫的突破性发现的启发[23] [22],福岛[13]提出了一个层次模型称为Neocognitron,它由成对的堆叠组成简单的单元层和复杂的单元层。 第一个CNN由LeCun等人提出。[28][27]。 基本上CNN通过结合BP神经网络(BP)算法来学习接收区域的简单单元。CNN自诞生以来,一直具有它局部连接,权重分享和局部池化的特色。该前两个属性使模型能够用比MLP少可调参数发现局部信息的视觉模式。 第三个属性为网络配备了一些转换不变性。 正如Saxe等人所建议的那样, [41]CNN的出色表现可以归因于这些有着随机权重的特定结构,并且可以取得好成绩的属性。

在过去的几年中,许多技术已经为提高CNN的性能而发展。rectishy;线性函数[14]成为最常用的函数。由于它抵抗BP算法中臭名昭着的梯度消失效应。dropout[48]一种防止神经网络结束的有效技术适合训练。利用模型的平均能力。在dropout中,Goodfellow等人[17]使用了max拼合。特征通道作为激活函数,使用了最大池化功能通道作为激活功能。 强化卷积单元的非线性,Lin et al [33]提出了网络中的网络(NIN)结构,其中卷积被局部多层感知器所取代(MLP)[39]在输入要素图上滑动。防止NIC从过度配合,完全连接的层被替换由全球平均汇聚层。Simonyan和Zisser [44]考虑到一些小滤波器比具有相同数量的大型滤波器rameters更强非线性比,使用3X3卷积建立非常深的网络工程。Szegedy等人。 [50]提出了多尺度初始模块,并基于这些模块构建了GoogLeNet。在这个模型中,小型过滤器也受到青睐。 CNN是一个计算密集型模型,通常难以运行中央处理器。 GPU的使用极大地促进了在大规模数据集上测试CNN的训练。 第一次成功CNN的GPU实现是指AlexNet [26]赢得了ImageNet的2012年大规模视觉识别挑战(lLSVRC)认可竞赛[8]。从那以后,这个年度大赛提交的大部分意见基于GPU实现的CNN。

2.2 递归神经网络

递归神经网络(RNN)在中国有着悠久的历史。人工神经网络社区[4,21,11,37,10,24]但大多数成功的应用都涉及建模的连续数据,如手写识别[18]和语音识别[19]。 关于静态网络RNN的一些研究下面简要回顾视觉信号处理。

在[20]中提出了一种多维RNN(MDRNN)用于离线手写识别。 MDRNN具有定向结构,因为它将图像视为2D序列的小数据。 此外,MDRNN有一个隐藏层,无法生成CNN的要素层次结构。在[2]中称为神经抽象的分级RNN金字塔(NAP)被提出用于图像处理。 NAP是

一个生物学启发的建筑,同时具有垂直和横向的反复连通性,通过解释逐渐精炼以解决视觉模糊。 在设计结构时,强调生物合理性。 例如,它采用了兴奋性和抑制性单位,这在大多数深度学习模型中都没有考虑到。目前尚不清楚这些更具生物学可行性的技术是否会使NAP比国家最先进的深度学习模式更有效。 更重要的是,虽然NAP的一般框架具有周期性和反馈联系,对于对象识别,仅测试了前馈版本。 周期性NAP用于其他任务,例如图像重建。

除了NAP之外,自顶向下的连接已经用于其他一些分层模型。 Lee等人[31] 提出CDBN用于无监督特征学习。 在推断期间,顶层中的信息可以通过它们之间的中间层传播到底层。与这种逐层传播思想不同,Pinheiro和Coliobert [36]直接使用了从CNN的顶层到底层的额外连接。 这个模型被用于场景标记。这些模型不同于RCNN,其中存在周期性连接同一层,而不是层之间。

RCNN和一些稀疏编码模型[15]之间有一个有趣的关系,其中定点更新被用于推断。迭代优化程序隐式定义循环神经网络。 值得注意的是,监督学习技术可以纳入稀疏编码模型的非监督学习框架[3]。但是这些技术并没有做出稀疏编码模型与CNN竞争对象识别。

最后,我们的模型也与递归神经网络[46]相关,其中递归层展开为具有相关权重的一堆图层。Socher et在。[45]使用递归神经网络进行场景解析.Eigen etat。[9]通过采用递归卷积神经网络研究了影响CNN性能的因素,该网络等效于RCNN的时间展开版本,但没有前向输入到每个展开层。

3. RCNN模型

3.1周期卷积层

RCNN的关键模块是循环卷积层(RCL)。 RCL单元的状态是在离散状态下发展的时间步骤。 对于位于第i个特征地图上(i,j)的单元在RCL中,其时间步进时的净输入Zijk(t)由下式给出:

在方程u(i,j)(t)和x(i,j)(t-1)分别表示前馈和回归输入,它们是以(i,j)的前一层和当前层中的特征映射,wfk和wtk分别表示向量化的前馈权重和递归权重,并且bk是偏差。(1)中的第一项用于标准CNN,第二项是由周期性连接引起的。

该单位的活动或状态是其净投入的函数

其中f是线性纠正激活函数

g是局部响应归一化(LRN)函数[26]

其中K是当前图层中的特征地图总数。请注意,在(4)的分母中,在同一位置(i,j)

(通常N lt;K),alpha;和beta;是控制归一化幅度的常数,另外f(Zijk(t))已经缩写为fijk(t)。 LRN模仿侧面抑制在皮层,不同的特征竞争大的反应。 LRN在我们的模型中用于防止状态爆炸。

等式(1)和(2)描述了RCL的动态行为。 对T时间步展开该层会产生深度T 1的前馈子网络。有关T = 3的示例,请参见图3的左上方。当循环输入在迭代中演变时,前馈输入保持不变所有迭代。 Whent = 0只有前馈输入存在。 子网从输入层到输出层有几条路径。

图3. RCNN的整体架构 左:RCL展开为T = 3个时间步长,导致最大深度为4且最小深度为1的前馈子网络。在t = 0时,仅进行前馈计算。 右:本文使用的RCNN包含一个卷积层,四个RCL,三个最大池化层和一个softmax层。

最长的路径经历所有展开的经常性连接(因此长度= T 1),而最短路径仅通过前馈连接(因此长度= 1)。当迭代次数增加时,前一层的特征映射中的RCL单元的有效RF扩大。 如果等式(1)中的输入和回归滤波器在每个特征映射中都具有正方形形状,则RCL单元的有效RF也是正方形的,其边长为(Lrec-1)T Lfeed,其中Lfeed和Lrec分别表示输入滤波器和循环滤波器的边长。

3.2 整体架构

RCNN包含一堆RCL,可选地与最大池化层交织。 有关本工作中使用的体系结构,请参见图3。 为了节省计算,第1层是标准前馈卷积层,没有周期性连接,然后是最大池化层。 最重要的是,四个RCL与中间的最大池化层一起使用。 在相邻的RCL之间只有前馈连接。 两个池化层操作都有第2步和第3步。第四个RCL的输出遵循全局最大汇聚层,该层在每个特征映射上输出最大值,产生代表图像的特征向量。这是不同于[26]中使用完全连通层的模型或[33,50]中使用全局平均汇聚的模型。最后,一个softmax层用于将特征向量分类为C类,其输出由下式给出:

其中Yk是属于第k类的预测概率,x是由全局最大池化生成的特征向量。 通过最小化来执行培训使用反向传播时间(BPTT)算法的交叉熵损失函数[52]。 这相当于在展开的网络上使用标准BP算法。 共享权重的最终梯度是所有时间步骤中梯度的总和。

如果我们展示T时间步长的循环连接,则模型变为具有4(T 1) 2个参数化层的非常深的前馈网络,其中T 1是每个RCL的深度。 但是4(T 1) 2只是从输入层到输出层的最长路径的长度,还有很多不同长度的其他路径。 其中最短路径长度为6,这是绕过所有经常性连接的前馈路径。

3.3 讨论

从计算的角度来看,RCNN中的经常性连接提供了几个优点。 首先,它们使每个单元能够将上下文信息合并到当前层中的任意大的区域中。事实上,随着时间步长的增加,每个单位的状态都受到其他因素的影响(1);因此,单位可以在输入空间中“观察”的区域的大小也随之增加。在CNN中,当前层单元的射频的大小是固定的,并且只有较高层的单元才能“观察”较大的区域。但不幸的是,上层单位看到的上下文无法影响当前层单位的状态,而没有自上而下的连接。其次,经常性连接增加网络深度,同时通过权重共享保持可调节参数的数量不变。这与现代CNN架构的趋势一致:以较少的参数进行更深入的研究[33,44,50]。请注意,只需通过共享层之间的权重来增加CNN的深度即可导致与RCNN具有相同的深度和相同的数量参数,但是这种模型在性能上可

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[24668],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。