基于结构反相关约束正则化的深度卷积神经网络外文翻译资料

 2021-12-09 10:12

基于结构反相关约束正则化的深度卷积神经网络

Wei Xiong, Bo Du, Lefei Zhang, Ruimin Hu, and Dacheng Tao

武汉大学计算机学院,国家多媒体软件工程技术研究中心,武汉,中国

中国地理空间技术协同创新中心

通讯作者: Bo Du, remoteking@whu.edu.cn

电子邮件: wxiong@whu.edu.cn, remoteking@whu.edu.cn

计算系,香港理工大学,香港,中国

电子邮件: cslfzhang@comp.polyu.edu.hk

武汉大学计算机学院多媒体软件国家工程研究中心

中国地理空间技术协同创新中心

电子邮件: hrm1964@163.com

量子计算与智能系统中心

工业大学,悉尼,新南威尔士州,2007年,澳大利亚

电子邮件: dacheng.tao@uts.edu.au

摘 要

深度卷积网络在数据挖掘领域取得了成功的表现。然而在实际应用中,由于训练数据存在不足,训练模型容易产生过拟合现象,故训练大型网络对当前研究仍然是一个挑战。因此,研究人员将训练过程与模型正则化相结合。在本文中,我们提出了一种新的正则化方法,即结构化反相关约束(SDC),它应用于隐含层的激活,来防止过拟合以实现更好的泛化。SDC通过分组隐含单元来学习结构化的表示方式,并控制同一组内的单元在训练过程中具有较强的联系。同时,它通过最小化组间的交叉协方差来强制不同组中的单元学习非冗余表示。与Dropout相比,SDC以显式的方式减少了隐含单元之间的协同适应能力。此外,我们提出了一种新的方法,称为Reg- conv,它可以帮助SDC对复杂卷积层进行正则化。基于大量数据集的实验表明,SDC显著降低了过拟合的影响,并极大地改善了分类性能(CIFAR-10提高了6.22%的准确率,CIFAR-100提高了9.63%)。

关键词:卷积网络;过拟合;反相关

第1章 绪 论

深度网络为挖掘大规模数据集,特别是卷积神经网络(convolutional neural networks, CNNs)提供了一个新的视角[1,2]。在精心设计网络中,包含输入数据的固有结构的代表性特征,可以有效地挖掘出各种复杂的原始数据,因此可以用于各种数据挖掘任务。比如多媒体检索[3],特性工程[4],推荐系统[5、6],分类[7],信息估计[8]等等。然而,有效地训练深度网络仍然是一个巨大的挑战。深度网络通常由包含大量可训练参数的多层网络组成,正是这样的结构导致了一些严重的问题,例如反向传播[9]中梯度消失、正向传播[10]中特征重用减少、过拟合等[11,12]。其中,过拟合使得模型难以充分利用可训练参数,极大地限制了网络的最终性能。

为了减少过拟合,研究人员已经提出了早期停止[13]、权值衰减[14]、模型集成[15-17]、数据扩充[18]、Dropout[19, 20]、DropConnect[21]、Maxout[22]、批量归一化[23]、剩余网络[10]等几种正则化器、优化方法和网络结构等解决方法。这些方法以不同的方式增强了网络的泛化能力,如数据扩充处理输入数据;批量归一化和剩余网络是一种新型的网络结构或介质层的规范化;早期停止关注于参数更新的方式;模型集成是对多个模型进行平均得到的结果。研究表明,这些方法有改善网络泛化的效果,但都是隐式的。而除了这些方法外,还有一些方法则是显式地用于减少网络的过拟合,如权值衰减、Dropout、DropConnect等。

Hinton等人[19]进一步研究了神经网络过拟合的本质。他们发现过度拟合可以通过减少神经元之间的协同适应来缓解。神经元的协同适应意味着一个神经元可以在同一层的其他神经元的状态下激活。这使得这些神经元学习到的特征表示变得多余和低效。因此他们提出Dropout的方法以减少协同适应。Dropout主要作用于隐含层的神经单元,它通过在每次训练迭代中随机省略一部分激活来减少神经元的协同适应。虽然这种方法可以有效避免神经元的协同适应,但其工作方式是隐式的。

那么我们能否显式地减少神经元之间的协同适应呢?在本文中,我们进一步研究减少过拟合的方案。我们提出了一种新的正则化方法,称为结构化反相关约束,它应用于深层网络的隐含层以提高其泛化能力。SDC通过显式公式描述了同一层神经元的协同适应,即利用两个单元响应的协方差/相关性来描述单元的自适应,因此可以直接将自适应最小化的目标函数加入到网络分类层的交叉熵损失中。对于Dropout方法而言,其虽然可以阻止神经元的协同适应,但它是通过每次随机训练一部分神经元的隐式方式起作用的,我们无法把握其减少协同适应的效果。然而,通过显式表达协同适应,我们可以更直接地掌握当前减少过拟合的程度和效果,并能得到参数的更优解。而且作为一种损失函数,我们的方法在小批量梯度下降的框架下很容易实现[24-26]。通过将SDC应用于隐含层,正则化网络能够获取到神经元的反相关表示,与不使用正则化器的网络相比,大大降低了冗余。

当我们重新考虑同一层内隐含单元之间的关系时,会发现还存在着另一个减少协同适应的难点。事实上,对于某一层,该层中任意隐含单元之间的协同适应并不一定都不利于网络的泛化;而将每一层中的所有神经元重新关联起来并不一定提高网络的性能。在某些情况下,神经元可能仍需要相互关联才能共同执行某种功能,这样的结论是在Dropout[19]方法作用下得知的。在Dropout中,当迭代过程中丢弃一些隐含的单元时,其他神经元可能仍然有机会被协同适应。常见的下降率为0.5。然而,当下降速率增加时,网络的性能并没有持续改善。这一现象促使我们认为某些神经元之间的相互关系可能有助于构建一个更有前途的调节器。

为了解决这些问题,我们所要提出的正则化器不仅要实现显式表达协同适应,还要保留隐含单元学习先验结构。具体来说,在正则化层中隐含的单元在组内被强制激活,组内的神经元被迫具有较高的相关性和相似性,而不同组内的神经元则具有较强的反相关性和差异性。为了保证这一点,我们首先将单元划分为组,然后通过优化统一的目标函数,最大化组内单元的相关性,同时最小化组间单元的相关性。以这种方式,我们迫使隐藏的神经元表现出服从于组结构的行为。该网络可以利用神经元之间的相关性,同时减少部分神经元的协同适应,使网络的隐含层学习结构化反相关的表征形式,有利于网络的性能。在卷积神经网络的完全连通层上很容易实现该正则化算法。然而,除了完全连通层之外,卷积层中还有大量的可训练参数,这也会导致过拟合。如果我们将卷积层的特征图中的每个特征都看作独特的神经元,那么最小化所有神经元的协同适应将会耗费大量的计算资源。此外,由于卷积和池结构的独特属性,同一卷积特征图中的特征可能具有内在的相关性。因此,我们提出了一种新的方法,称为Reg- conv,以帮助显式正则化器更有效地对卷积层和池化层进行正则化。该方法的主要思想是将卷积层降级为完全连通层,然后对得到的完全连通层进行正则化,反过来通过向后传播完全连通层的梯度来正则化卷积层。

本文的主要贡献如下:1)提出了一种新的正则化方法——结构化反相关约束,该方法可以显式地减少隐含单元的协同适应。SDC将隐含层中的单元划分为组,最小化不同组中单元的相关性,避免它们之间的协同适应,同时保留同一组中隐含单元之间的相关性,使得它们具有分组结构。2)我们提出了一种Regv - conv方法,该方法可以在学习过程中有效地将显式正则化器应用到卷积层中,使得卷积层中的特征图也可以从复杂的数据中学习到结构化和反相关的特征,从而有利于提高网络的性能。本文的其余部分组织如下:第二节介绍了相关工作,第三节详细介绍了该方法,第四节是实验结果和分析,第五节是我们的主要结论。

第2章 相 关 工 作

2.1 典型的正则化器

典型的正则化器可以从增加训练数据、平均模型、使用更复杂的层、使用更有效的训练策略等方面改进网络的泛化。在这一部分中,我们概述了一些在深度网络中使用的相关正则化器。现在被广泛采用的权值衰减方法[14]是一种在有限参数空间内约束网络权值以降低模型复杂度的方法。 Dropout[19]是一种非常强大的用于隐含单元响应的正则化器。它的原理是在每次训练迭代过程中,随机省略部分神经元,使隐含的神经元不会根据其他神经元的状态进行激活。通过这种方式,Dropout可以阻止神经元的协同适应达到减少过拟合的效果。Dropconnect[21]方法与Dropout相似,在每次训练迭代中,都会省略相邻层神经元之间的部分连接,以防止权重之间的协同适应同时达到了平均模型的效果。DropConnect与我们的方法不同点在于,它以隐式的方式对网络进行规范化,而我们的方法以显式的方式工作。该方法主要处理相邻层之间的权重,而我们的方法是对某些隐含层进行激活。

近期,Cogswell等人提出了一种我们的方法非常相关的正则化方法来减少过拟合,称为DeCov。该方法通过最小化神经元在一批样本中的交叉协方差来降低神经元之间的相关性。DeCov和我们的方法都适用于深层网络的隐含层。然而,我们的方法在几个关键方面与DeCov有很大的不同。DeCov将所有隐含单元的交叉协方差约束为较小,以减少层内的协同适应,但我们认为并非所有的单元之间的相关性都对网络的性能有负面影响。DeCov在减少过拟合方面取得了良好的性能,但因为它可能会破坏单元之间的一些固有连接,故无法实现最优的提高网络性能。相反,我们的方法只是促使部分单元被反相关,同时保留其他单元之间的相关性,其余单元的相关性可能对提高网络性能有积极的影响。另一个区别是DeCov不能学习结构化表示,而我们的方法可以同时学习反相关表示和结构化表示,这有利于提高网络的性能。DeCov简单地减少了隐含单元之间的协同适应,我们的方法则是在正则层中保持了先验组结构,使得网络可以在后期获取到更好的结构。DeCov与我们方法的第三个不同之处在于,DeCov只能作用于全连通层,而在本文中,我们提出了一种将正则化器和DeCov扩展到卷积层正则化的方法,可以运用到任何卷积层中的所有类型的层中,从而获得更好的性能。

2.2 关联相关分析

除了DeCov和我们的方法,还有其他方法与相关性密切相关。深度典型相关分析(Deep Canonical Correlation Analysis, Deep CCA)[28]通过最大化变量之间的相关性来学习具有深度网络的灵活非线性表示。相关神经网络(CorrNets)[29]除了原有的目标函数外,也有类似的损失。它通过最大化多个视图中特征的相关性来学习相关特征。CorrNet和CCA是通过最大化神经元之间及潜在变量之间的相关性来表示的方法,而我们的方法是最小化隐藏层中各单元之间的协方差来学习反相关表示。

Bergstra等人在[30]中引入了一种新的激活函数,旨在学习复杂细胞样网络训练前的反相关表示。该方法为隐含单元的初始化提供了一个良好的条件。在方法运用过程中,主要是使用反关系进行初始化,而我们的方法使用反关系来减少网络的过拟合。另一种类似于我们的相关方法是Cheung等人提出的交叉协方差惩罚(XCov)。XCov通过最小化隐含神经元和分类层神经元之间的相关性,将深度自编码器中的类相关变量和潜在变量(如形式或样式)分离开来。与XCov不同的是,我们的方法是通过最小化了隐含神经元之间的协方差,从而更好地规整网络。

2.3 卷积神经网络中的结构

卷积网络中有各种各样的结构,包括卷积、池和完全连通层。最近,一些其他类型的结构被提出,并被证实其也可以组成强大的网络。Szegedy等人提出了谷歌网[32],它由多个起始块组成。起始块含有大小不同尺寸类型的过滤器,因此它可以学习多个级别的特性。K. He等人[10]提出了一种新的网络,称为残差网络,主要由残差块层组成。每个块都是多个卷积层、批处理规范化和激活函数的组合。尽管这些结构的功能强大,但它们是预定义的。我而们的方法基于简单的卷积层和全连通层,不需要预先定义结构。此外,这些结构是为训练深度网络而设计的,而我们的目标是减少过拟合。

除了设计网络结构,还有一些方法可以自动学习结构。Feng等人[33]提出了一种新的深度模型结构方面的自动学习方法,以实现在标记训练数据稀缺的情况下提高其性能。它与我们的方法相似,都是学习由已知先验引导的结构。然而,网络的设计采用了已有的方法,而我们的方法是对隐含层进行正则化,以减少过拟合,我们遵循不同的先验。Schulz等人[34]提出采用结构化损失函数进行神经网络训练,直接最大化预测与地面真值包围盒的重叠,用于目标检测。我们的方法更一般,我们的目标是减少网络的过拟合,这可以用于许多任务。

第3章 结构化反相关约束

在本节中,我们首先使用SDC方法对典型卷积网络的全连通层进行正则化,然后将我们的方法扩展到卷积层和池化层。

3.1 规范完全连通层

3.1.1 模型定义

我们首先引入了整个网络J的总损失,考虑小批量梯度下降[24]方案下的一个训练迭代。网络的输入是一个包含N个样本的批处理。如果没有任何正则化器施加在网络上,那么网络的总损失J等于网络输出和基态之间的交叉熵损失。即,其中和分别是构成第n个样本的地面真值和网络输出的一个独热编码。

我们的方法旨在减少神经元在完全连接层(FC层)的协同适应。为此,我们使用协方差来表示协同适应,因为两个变量的协方差越低,意味着它们之间的线性相关性越小。当涉及到神经元的反应时,协方差较高的神经元很可能是高度相关的。因此,我们接下来计算了隐含层输出数据的协方差矩阵。我们的目标是在每次迭代中保持每对隐含单元之间的低协方差。假设完

英语原文共 10 页

资料编号:[6031]

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。