神经网络使用OP-ELM进行长期时间序列预测外文翻译资料

 2021-12-28 10:12

英语原文共 14 页,支付完成后下载完整资料


神经网络51(2014)50-56

内容列表可在science direct上找到

神经网络

杂志主页:www.elsevier.com/locate/neunet

使用OP-ELM进行长期时间序列预测

a.亚历山大·格里高利耶夫斯基,约安·米切,安妮-玛丽·文特拉,埃里克·谢维林,阿毛利·兰德斯

b. pyhajarvi研究所,sepantie 7,FI-27500,Kauttua,芬兰

c.阿尔托大学理学院信息与计算机科学系,芬兰,FI-00076

d.巴斯克科学基金会,西班牙毕尔巴鄂,48011

e.巴斯克国家大学计算机科学学院计算智能组,报道 1,伯尔尼市,西班牙

文章信息

文章历史:

2013年6月13日 于2013年10月1日收到

摘要

本文将最优剪枝极限学习机(OP-ELM)应用于长期时间序列预测问题。三种已知的长期时间序列预测策略,即将递归、直接和dirrec与OP-ELM相结合,并与基线线性最小二乘模型和最小二乘支持向量机(LS-SVM)进行了比较。在这三种策略中,dirrec是最耗时的,它在LS-SM等非线性模型中的使用需要调整多个超参数,导致计算量相对较大。结果表明,OP-ELM作为一种非线性模型,为dirrec策略提供了合理的计算时间。在所有的实验中,除了一个外,采用dirrec策略的OP-ELM在任何策略下都优于线性模型。与该算法相比,LS-SVM在不进行变量选择的情况下,表现出不稳定的特性。本文还表明,OP-ELM没有优越的策略:三种策略都可以是最好的。此外,预测精度OP-ELM合奏的研究显示,平均预测的合奏可以提高准确性显著(均方误差)。

爱思唯尔有限公司版权所有

关键词:时间序列预测,ELM,OP-ELM,LS-SVM,递归策略

1.介绍

时间序列预测(TSP)已经研究了很长时间,具有多种应用(Weigend amp; Gershenfeld,1993)。如气候预测、经济特征预测、股市预测、用电量预测、销售预测等。

由于时间序列预测在实际应用中出现的频率较高,因此人们开发了大量的时间序列预测方法。Gooijer和Hyndman(2006)对各种方法和未来的方向做了一个相对较近的概述。历史上,统计线性方法在TSP中占主导地位。特别是,基于ARIMA的建模在引人注目的嘘声之后被广泛采用(Boxamp;Jenkins,1970)。介绍了一套完整的模型选择、参数优化和预测方法,至今仍得到广泛应用。ARIMA将时间序列(或其差异)建模为以前的时间序列值和以前的噪声值(通常称为创新)的线性组合。然而,实时序列来自许多不同的来源,并且具有非常不同的属性。因此,对于时间序列建模,显然没有单一的最佳方法。不足为奇的是,出现了其他可能优于经典方法的方法。神经网络(NN)方法在时间序列预测问题上得到了广泛的关(Crone,Hibonamp;Nikolopoulos,2011)。神经网络是一种可以应用于时间序列的一般非线性回归技术。此外,他们能够放松一些经典方法的假设,例如。模型线性和高斯分布的噪声。与ARIMA(p,n,q)模型不同,ARIMA模型需要对模型超参数(p,n,q)进行微调才能获得良好的预测,而神经网络允许避免这种复杂性。因此,预测过程的方式可能会改变。没有领域知识的建模者能够应用神经网络并获得具有竞争力的结果,而不是统计学家(通常具有领域知识)花费大量时间来选择正确的模型和调整超参数。在某些情况下,密集的人工参与或大量的计算时间是负担不起的。我们和其他作者都没有声称神经网络通常是比经典统计方法更好的方法。

提出了一种局部线性小波神经网络,用局部线性模型代替隐层单元和输出单元之间的连接权。小波神经网络常用的学习算法是梯度下降法。但它的缺点是收敛速度慢,容易保持在局部最小值。提出了一种粒子群算法与自适应多样性学习和梯度下降法相结合的线性小波神经网络训练方法。时间序列预测问题的仿真结果表明了该方法的有效性,本文的主要贡献是:

(1)当模型样本稀疏时,线性小波神经网络在高维空间中提供了一种更为简洁的插值方法;(2)提出了一种新的小波神经网络和线性小波神经网络混合训练算法。论文组织如下。

第2节介绍了线性小波神经网络。第三节描述了一种训练线性小波神经网络的混合学习算法。第四节给出了时间序列预测问题的实验。第5节给出了一个简短的讨论。最后,最后一部分是结束语。但是这些和其他计算智能方法肯定已经显示了它的可行性(Crone等人,2011)。

在时间序列预测中,可以区分一步预测和长期预测。从这些名称中可以清楚地看出,在一步预测中,兴趣仅构成对下一个单个未来值的估计,而在长期预测中,需要对多个未来值的估计。由于误差的累积和不确定性的增加(Sorja-maa、Hao、Reyhani、Ji和Lendasse,2007年),长期预测本质上是一个更困难的问题,因此研究人员经常单独解决这些问题(McElroy amp; Wildi,2013年)、本·塔伊布、邦坦皮、阿蒂亚和索贾马(2012年)。本文考虑长期时间序列预测。

长期时间序列预测有三种通用策略:递归策略、直接和直接预测策略。最近,引入了另一个策略(Bontempi amp; Taieb,2011年),但我们不在此进行研究。第2节详细描述了预测策略。策略的不同在于我们如何利用过去的价值来估计未来的价值。正如本·塔伊布等人(2012年)和索贾马等人(2007年)所表明的,没有明确的迹象表明一种战略优于其他战略。早期的研究表明,需要变量选择来提高长期预测的准确性。例如,已经表明(Sorjamaa等人,2007年)使用的是具有变量选择的DirRec策略和K-最近邻(K-NN)模型是前向-后向算法。特别是,不重要的变量(特征)会降低对这些变量非常敏感的模型的性能,例如神经网络(弗里德曼,哈斯蒂amp;蒂比拉尼,2001)。变量选择方法可能非常耗时,尤其是如果我们考虑方法的包装类(Sorjamaa等人,2007)。因此,我们这种方法的动机是希望避免计算代价高昂的变量选择。

在本文中,我们建议使用OP-ELM模型,由于非本质神经元的内部剪枝,该模型对不相关或相关的变量具有更强的鲁棒性(Miche at al.,2010)。OP-elm的性能与支持向量机(SVM)、多层感知器(MLP)、高斯过程(GP)等常用非线性模型具有可比性。(Micheet al ., 2010)。此外,对于其他非线性模型微调hyperaparameters是必要的,例如,(C,sigma;)与高斯核最小二乘支持向量机。这通常是通过参数空间中的网格上的交叉验证来实现的。因此,到目前为止,网格上的每一个点都必须训练一个新的模型,并在一个验证集上计算精度,选择精度最高的参数空间中的点作为参数的最终值。因此,选择良好的价值观(C和sigma;)尽可能多的生物很多网格中的点,需要训练。此外,回到时间和许多著名的非线性机器学习模型可能成为不切实际的长期时间序列预测。OP-ELM模型在第3节中有更详细的描述。此外,我们还分析了由100个(Yu,Choi,amp;Hui,2011)专栏文章组成的团队所做的预测。结果表明,综合平均能显著提高预测精度。此外,实证研究还发现,当使用集合方法时,没有一种预测策略总是优越的。近年来,各种ELMs在时间序列预测或类似问题中的应用也得到了广泛的研究。一些参考文献是Ruksenaite and Vaitkus(2012),Sun,Choi,Au,and Yu(2008),and van Heeswijk et al.(2009)。然而,我们解决了长期时间序列预测的问题,重点是计算时间和预测精度。将基于ELM的模型与DirRec预测策略相结合的方法尚未得到研究。在下一节中,将详细解释时间序列预测中使用的三种策略。第三部分介绍了ELM和OP-ELM的概念。之后是实验4部分。

2.长期时间序列预测

如前所述,长期时间序列预测有三种主要策略。在这里,我们将对每一种方法进行概述。

2.1递归策略

长期时间序列预测的递归策略是一种简单直观的策略。我们的目标是建立一个模型,该模型使用r的前一个值来估计下一个值。这里的r称为回归量大小,是模型的超参数,可以通过交叉验证或本文中选择数据集的其他方法来确定。因此,在第一个步骤中,模型计算如下估计:为了预测第二个值,将第一个预测值引入模型:这个过程可以继续,直到我们预测出所需的任意多个值。很明显,t r 1值的预测只是基于估计,且不依赖于任何时间序列的初始值。由于每个谓词都有一定的误差,误差随谓词hrizon的增大而增大。在直接策略中,回归因子大小r也是模型的超参数。目标是直接预测p步使用回归本文后面的p称为预测层。因此,每一次未来的价值培训都需要一个单独的模型,即:

可以看出,预测量总是基于时间序列的真实值,但回归量与预测值之间的时间差不断增大。这常常导致预测错误的逐渐增加。此外,下一个预测值的训练样本数量减少。然而,直接策略通常比递归策略更精确(Sorjamaa et al.,2007)。

2.3.DirRec策略

DirRec策略已在Sorjamaa和Lendasse(2006)中引入,并结合了递归策略和直接策略。回归数不再是常数。在第一步中,DirRec策略与直接策略相结合,然后将所有预测值作为新的回归量模型增长。在数学形式中,它被写为:hellip;。正如在每一个未来预测的直接策略中,相应的模型需要被训练。因此,训练的复杂性与要预测的值的数量成正比P。已经证明(Sorjamaamp;Lendasse,2006年),通常带有变量选择的Dirrec策略具有当模型F是非线性的时候,比其他两种策略更具优势。

本文的目的是证明当采用F型操作ELM模型时,该语句不存在变量选择,其动机是操作ELM本质上在隐藏空间中执行变量选择。

3.OP-ELM时间序列预测

3.1.极限学习机(ELM)

ELM算法最初由Guang Bin Huang等人在Huang、Zhu和Siew(2006)中提出,它利用了单层前馈神经网络(SLFN),ELM背后的主要概念是对SLFN权值和偏差进行随机初始化,因此不需要调整输入权值和偏差,可以计算隐层输出矩阵和输出权重,得到的网络具有非常少的步长和很低的计算代价。考虑了一组带有Xi RD1和Yi RD2的M个不同样本(XI,Yi);然后将具有N个隐神经元的SLFN作为如下的总和来求出;ights,b i——偏差和beta;i——输出权重.elm的构造方式使其完全近似于给定的输出数据:它简洁地写为h b=y,with和b=(beta;1·····beta;n)和y=(y1····Moore Penrose将矩阵h的广义逆表示为h(Ranamp;Mitra,1972年)。原始论文详细介绍了ELM算法的理论证明和更深入的介绍(Huang,Chen,amp;Siew,2006年;Huang,Zhu E al.,2006年)。但是,当存在不相关或相关变量时,ELM往往会出现问题(Miche等人,2010年)。对于这一点,我们认为原因是,在OP-ELM方法中,建议通过修剪由ELM构建的SLFN的相关神经来修剪不相关的可变物。3.2。最佳修剪榆树(Op-Elm)

优化修剪极限学习机(OP-ELM)由以下算法总结的三个主要步骤组成:

算法1 op-elm

给出了一套训练集(十一,一),习作RD1,Yi RD2。

1:建立一个规则的榆树模型,最初有大量的神经元。

2:使用多响应稀疏再关联对神经元进行排名(如果输出是一维的,则为lars回归)。 3:使用“漏掉一个”验证来决定要修剪多少神经元。

OP-ELM方法的第一步是使用原始ELM算法和大量神经元(我们的实验中为100个)实际构建SLFN。第二步和第三步将在接下来的两个小节中更详细地介绍,旨在有效地修剪SLFN可能无用的神经元。在最初的OP-ELM算法中(Miche等人,2010年),建议使用三种不同类型内核的组合,以提高鲁棒性和通用性,其中最初的ELM建议仅使用Sigmoid内核。三种类型是线性、Sigmoid和高斯内核。将线性内核包含在网络中有助于解决问题。不均匀或接近于乙状结肠的神经元。由于初步试验表明,它们的使用并不能提高结果,所以不使用高斯神经元。乙状结肠的重量是从一个均匀分布的区间中随机抽取的,即间隔为[5,5]。这使得当输入数据用零平均值和单位变量归一化时,神经元可以在正确的状态下工作。NCE。3.2.1.多响应稀疏回归:mrsr

为了消除隐层中无用的神经元,采用了timo simila和jarkko tikka在simila和tikka(2005)中提出的多响应稀疏回归,算法的主要思想是用x=[x1·····xm]thn x回归矩阵表示,mrsr将回归矩阵的每一列逐个添加到yk=xwk模型中,其中Re yk=[y1·····yp]是模型的目标近似值,wk权重矩阵在mrsr的第k步有k个非零行,每一个新的步骤都有一个新的非零行,并且在模型中添加了一个新的回归矩阵列。mrsr算法的更具体细节可以从原始论文中找到(Similaamp;Tikka,2005)。

该算法的主要思想是:用X=[X1hellip;Xm] n x m回归矩阵。MRSR将回归矩阵的每一列逐个添加到模型Yk=XWk中,其中Yk=[Yk1hellip;为模型的目标近似。Wk权矩阵在MRS

资料编号:[3240]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。