
英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
采用进化策略的混合式反向传播训练
摘要
这项工作提出了一种神经网络训练的混合算法,它将反向传播(BP)方法与演化算法相结合。 在所提出的方法中,BP更新网络连接权重,并且(1 1)演化策略(ES)自适应地修改主要学习参数。 该算法可以包含不同的BP变量,如具有自适应学习率(GDA)的梯度下降,在这种情况下,学习率可以通过随机(11)-ES以及GDA的确定性自适应规则进行动态调整; 称为模量搜索的组合优化策略。 该提案在三个不同的领域进行测试,包括时间序列预测,分类和生物识别,使用几个问题实例。 实验结果表明,该混合算法可以大大提高标准BP方法。 总之,所提出的方法提供了对基本BP培训的简单扩展,从而提高了性能并减少了对现实问题中参数调整的需求。
第1章 介绍
人工神经网络(ANNs)是模式分析和机器学习研究中使用最广泛的范例之一。特别是,多层感知器(MLP)已被证明是一个功能强大且多用途的工具,在许多领域,包括识别梅林和卡斯蒂略 2005),分类(张 2000)和时间序列预测 (卡斯蒂略和梅林 2002)。MLP是用监督学习方法训练的前馈和完全连接的ANN,其中最常见的是反向传播(BP)算法(Rumelhart等人 1986)。BP是一种梯度下降法,它将从网络输出层到输入层的误差度量(例如均方误差)传播,并考虑到其间的所有隐藏层。 多年来,该算法一直被认为是监督MLP训练的标准方法。 但是,BP还受到三个显着缺点的阻碍。首先,BP患有学习问题,例如过度训练,有时会根据问题的特征和初始连接权重收敛缓慢。其次,它可能导致网络瘫痪,该算法无法显着修改连接权重以实现性能改进。第三,它经常被困住局部极小值,基于梯度的方法的常见问题 -消耗臭氧层物质。为了克服这些缺点,已经提出了对基本BP培训的若干改进(Isasi Vintilde;uela 2004)。例如,具有自适应学习率(GDA)或动量梯度下降(GDM)的梯度下降。
目前,在训练MLP时,改进的BP变体被广泛使用。尽管如此,这些方法的一个缺点是它们往往需要几个临时决策才能将它们正确应用于现实世界的问题。 此外,他们引入了几个新的参数来实现训练期间的适应性,但参数本身仍然保持不变始终贯穿整个过程。 这约束了学习过程在错误表面上搜索最小值的方式。 克服这些限制的一种常用方法是使用更强健的BP变体,例如Rprop算法(Riedmiller 1994)。 还有一些人已经转向基于群体的优化方法,如演化算法,以搜索最佳的连接权重集,从而避免基于梯度的学习 (姚明 1999; Cantuacute;-Paz和Kamath 2005; Kiranyaz等人 2009)。 然而,这种方法并没有利用基于梯度的方法可以提供的强大的本地优化。 因此,我们提出了一种混合方法,将先前提出的方法的学习改进与全局搜索演化算法相结合。
这里提出的建议,动态地修改了BP算法在无约束的人工神经网络中的主要参数,使用(1 1)演化策略(ES)。 规范训练方法很容易并入(1 1)-ES的演化循环,产生一个简单的混合学习策略。确实, Cantuacute;-Paz和Kamath (2005)对神经网络训练的不同进化方法进行了全面比较,发现更简单的方法表现最好; 因此,简单性是这里提出的建议的指导原则。实验工作使用时间序列预测,分类和生物特征识别的基准问题来评估此提议的性能。结果是有希望的,在大多数情况下实现了实质性的改善,并且从未表现出严重的恶化。
本文的其余部分安排如下。部分2包含对BP算法和一些最广泛使用的变的简要介绍。 然后,部分3介绍了这项工作中遇到的问题并介绍了混合培训方案。部分4概述了以前在混合进化神经网络研究方面的工作,而部分5给出了所提出的算法及其模因变体的详细描述。之后,部分6包含几个基准问题的实验设置和结果。 最后,结语在部分7给出。
第2章 背景和基本概念
2.1 反向传播训练
MLP的标准监督学习方法是BP,一种梯度下降优化算法,它向后传播网络输出和期望输出之间的误差。BP使用此错误根据梯度和学习速率参数beta;来修改网络连接权重,该参数调整权重更新的步长。尽管BP培训取得了成功,但众所周知,它受到了一些限制。因此,许多研究人员已经提出了算法改进。
在MLP中,输入模式通过网络向前传播,这会在输出层中产生一个激活值向量,这意味着MLP基本上起着函数的作用。该功能的行为可以通过修改单个神经元之间的连接权重来改变。从最初的一组随机连接权重开始,BP的目标是自适应地修改这些权重以实现特定的输入/输出行为。实际上,总体目标是最小化由给定的误差E为下式。
其中dp是所需输出,yp是每个输入模式xp获得的实际网络输出。为了做到这一点,层1中的神经元i与层11中的神经元j之间的连接权重wIJL在每个时期t通过以下规则修改:
delta;i(l 1)p(t)是模式p的第1 1层神经元i的广义误差项,由激活函数的一阶导数和误差E决定,yJLP(t)是模式p的第l层的神经元j的输出,其中beta;是学习率参数。有关BP培训的更完整描述,请参阅有兴趣的读者(Rumelhart等人 1986; Radi和Poli 2003).
2.2 具有自适应学习率的BP
对BP最早的改进之一是适应性修改 培训期间的在线学习率 (Hagan和Beale 1996)。 在标准BP中,学习率在整个训练过程中是不变的,因此选择正确的初始值是必要的。 例如,如果学习率设置得太高,算法可能会振荡并变得不稳定。 相反,如果它太小,则收敛速度会很慢。 但是,为beta;设置最优值并不是微不足道的。而且,在训练过程中,最优值可能会发生变化。因此,如果允许beta;在训练期间改变,则学习过程的质量可能会提高。这个想法是让beta;响应局部误差曲面的结构。
为了实现这个想法,GDA算法通过以下方式修改BP。首先,计算初始网络输出和错误。 在每个时期,使用当前的beta;计算新的权重。然后测量新的输出和错误。 如果新的误差超过了一个预定义的阈值以上的旧错误,那么新的权重被丢弃,并且beta;减少一个固定的量,称这个参数为。否则,保持新的权重,并且如果新的误差小于旧的误差,则学习速率beta;增加常数参数。 因此,如果beta;越大,学习稳定性越高。另一方面,如果学习率太高,以至于不能保证误差减小, 直到稳定的学习恢复 (Hagan和Beale 1996)。
2.3 BP具有动力和适应性学习率
在前面的方法GDA和GDM的基础上,提出了具有动量和自适应学习速率的梯度下降算法(GDX),它结合了两者的优点(哈根和比尔 1996)。
第3章 问题描述和主要建议
我们列举了BP培训,GDA,GDM和GDX三种最常见的改进。 但是,这些方法的运作方式也引发了其他问题。 例如,在GDA中,学习率可以通过固定参数和来增加或减少。有人可能会争辩说,这些参数的价值也应该在培训期间经受适应性过程。 此外,在GDM中,gamma;系数保持不变,并且没有先验理由认为这种策略是最优的。 因此,在这项工作中,我们假设一个更好的学习策略将能够以无约束的方式自适应地修改算法的所有主要参数。 这来自于GDA方法背后的基本论据,其中假设因为在训练期间误差表面变化,所以最佳beta;也应该改变。因此,我们认为相同的逻辑必须适用于和等参数以及gamma;系数。例如,在GDA中,beta;应该能够在训练期间增加或减少,而不需要恒定的步长,并且在GDM中gamma;也可以被适应性地修改。
因此,我们建议对BP进行改进,可以动态地改变学习算法的主要参数,而不需要不变的步长值。 为了实现这一目标,我们使用结合了进化搜索过程和标准BP的混合算法来开发我们的建议。具体而言,我们使用进化策略作为全局搜索方法,在训练过程中调整主要学习参数,并允许梯度下降算法在MLP误差曲面上执行局部搜索。 通过混合方法,我们将进化搜索的探索能力与梯度下降提供的局部优化相结合。此外,该提议可以包含基本的BP算法以及任何先前提出的改进(GDA,GDM和GDX),而无需进行重大修改。为了描述当前的贡献,以下内容简要概述了演化计算(EC)如何与先前的工作中的ANN研究相交叉。
第4章 进化计算和人工神经网络
演化计算包含大量基于新达尔文进化理论抽象模型的全局搜索和优化方法。 一些最广为人知的范例是遗传算法,进化策略和遗传规划,所有这些都基于类似的概念原理(DeJong 2002),并且与其他基于人口的元启发式算法如粒子群优化(Kiranyaz 2009)和蚁群优化 (Dorigo和Stuuml;tzle 2004)。 这些方法已被证明是相当健壮和灵活的,适用于各种各样的应用领域和问题实例。
在人工神经网络的情况下,已经进行了许多尝试来使用进化方法来优化人工神经网络的特定特征(姚明 1999; Cantuacute;-Paz和Kamath 2005)。可能最常见的策略是使用EC来确定ANN的最佳连接权重(姚明 1999; Fogel等人 1990),在某些情况下将EC算法与标准学习技术相结合(阿尔巴和奇卡诺 2004)。 例如,这种方法已经在机器人应用中得到了强烈的接受,这种方法被称为演化机器人,其中良好的误差梯度是不可行的Nolfi和Floreano 2000)。 最近,这些方法已经允许研究人员利用发育生物学和间接编码方案的概念来训练极大型网络(斯坦利等人. 2009)。另一种可能性是使用EC来搜索最佳网络拓扑(磨坊主 1989)然后使用标准学习方法来确定网络的连接权重。但是,其他人已经试图通过同时在单个进化中搜索最佳网络拓扑和连接权重来尽可能减少先验知识的数量 循环(Harp等人 1989; 斯坦利和Miikku-lainen 2002)。
另一方面,EC也被用来改进传统的学习过程。 例如,一些研究人员使用EC技术来确定ANN的初始连接权重,而不是使用随机权重,然后可以从中学习算法。 但是,其他人已经将注意力集中在离线优化BP参数上,以找到可以在整个学习过程中使用的最佳值(帕特尔 1996)或同时考虑学习参数和连接权重。 最后,一些研究人员已经使用自动程序诱导和遗传编程来通过进化搜索来推导新的学习规则(Radi和Poli 2003)。 然而,在我们的工作中,我们有兴趣开发一种类似于GDA中所做的自适应策略,并附加一个允许动态修改BP参数的进化搜索。
第5章 所提出的混合学习方法
本节介绍使用演化计算的BP学习的混合方法。
5.1、进化策略
演化策略是基于前面章节中强调的EC核心原理的优化技术(Schwefel 1981)。 在ES中,候选解被编码为实值参数向量。 在规范版本中,只有一个算子用于生成新的参数向量(后代),这是一个高斯变异,扰乱每个参数的值 参数; 详细介绍见 (艾本和史密斯 2003)。 此外,两种选择策略通常与ES一起使用,(mu;lambda;)和(mu;,lambda;),其中mu;是群体中个体的数量,lambda;是每一代产生的后代数量。 在(mu;,lambda;)-ES中,包含在下一代循环中的个体是从过去人口和后代的最佳解决方案中选择的。 相反,在(mu;,lambda;)中,lambda;后代替换了前一群体中的所有mu;个体。 其他
5.2、BP学习的演化策略
如上所述,我们的建议是将BP与进化搜索相结合。 目标是提供一种机制,通过这种机制,可以在网络培训期间在线自适应修改BP算法的主要参数。 对于这个任务,我们选择了(1 1)-ES,因为:这是众所周知的;
bull;这是众所周知的。
bull;它特别适合实值参数优化。
bull;实施起来非常简单,这使我们能够维护BP的基本结构不变。 从这下面
该方法不会显着增加训练ANN的计算成本。 简单明确考虑给出的结论广泛比较以前提出的进化论Cantuacute;-Paz和Kamath(2005)开展的方法。
该提议是混合学习过程,使得(1 1)-ES在指定数量的时期后自适应地改变BP参数,在该时期BP训练算法执行标准权重更新。(1 1)-ES表示最简单的进化搜索类型,缺乏其他基于种群的进化技术(如遗传算法或遗传编程)的内在平行性质。 因此,(1 1)-ES与其他启发式搜索方法密切相关,如模拟退火(Kirkpatrick等人 1983)。 尽管如此,该提案的目标是以最小的计算开销开发一种简单而强大的BP培训改进方法,并且,正如我们在结果中看到的,(1 1)-ES满足这些要求。
所提出的算法如下进行。 首先,用文献中常用的标准初始值生成BP参数向量x。在这种情况下,参数的数量取决于所使用的BP的版本。 例如,如果我们使用GD或GDA,那么x将只包含beta;参数。 另一方面,如果我们使用GDM或GDX,那么x将包含beta;和动量系数gamma;。 之后,随机生成名为Ax的ANN的初始连接权重,就像在标准BP中完成一样。 这导致(1 1)-ES的第一代(迭代)。在进化循环内,创建一个名为y的变异版本的x,对所有元素使用具有相同sigma;的高斯变异。 然后,制作Ax的副本,称这个Ay。 使用x中指定的BP参数训练Ax,总共有rho;个时期,对于参数值y,Ay也是这样做的。 在对两个网络进行训练之后,我们从每个网络中获得相应的收敛误差,误差值被用来确定哪个ANN和哪个参数向量将为下一代生存。 重复这个过程直到两个条件中的一个满足:(1)达到总代数; 或者(2)ANN的目标误差被实现。 在这个算法中有两个新的参数。 一个是每一代由rho;表示的时代数目。 另一个是高斯变异步长sigma;的值。 在这项工作中,sigma;被设定为0.2的恒定值,而rho;则使用下一节中描述的广泛的实验评估来设定。 应该指出的是,一些最先进,最成功的ES变体是那些通过将sigma;包
全文共7307字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[16188],资料为PDF文档或Word文档,PDF文档可免费转换为Word
