一种新的基于混乱时间序列模拟技术和Apriori算法的风速预测策略外文翻译资料

 2022-11-25 02:11

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


翻译 13信工2班 20131309048 陈鹏飞

一种新的基于混乱时间序列模拟技术和Apriori算法的风速预测策略

Zhenhai Guo a,uArr;, Dezhong Chi a,b, Jie Wub, Wenyu Zhang

摘要:风能是近几年来发展最快的可再生能源。由于自然风的间歇性,风能是一种波动的电力来源。因此,为了最小化风能对电网的影响,准确而又可靠的风力预测是不可或缺的。本文中提到的一种新的基于混乱时间序列模拟技术和Apriori算法的风速预测策略已经被开发出来。这种新的方法由4部分组成:(1)通过K-means算法进行聚类分析;(2)通过Apriori算法来探索关联规则;(3)通过混乱时间序列模拟来预测风力;(4)通过之前发现的关联规则来更正风速预测数据。该步骤已经得到31天的每日平均风速预测案例研究的证实,该项研究采用了从分布在河西走廊的四个气象站采集的风速和其他气象数据。这些研究的结果表明混乱预测模型可以有效的提高风速预测的准确性,并且Apriori算法可以有效的发现风速和其他气象因素的关系。并且更正后的结果证实了当预测结果与关联规则所划分的类别不符的时候,Apriori算法发现的关联规则对更正风速预测值具有强大的能力。

  1. 简介

风能是发电的一种可持续能源,并且被认为是迄今为止最具有前景的能源之一。中国风能协会在2012年年底报道到中国(包括台湾)新建的和逐步搭建的风力涡轮发电机数量分别为7872和53764,对应的容量分别为12960MW和75324.2MW。随着许多国家设置了越来越高的风能容量目标以解决能源危机,还没有迹象表明风能的发展会减慢。

露天流动风的风能采集与风速的平方是成比例的。因此,风能预报的错误与风速预报的准确性是直接相关的。准确并可靠的风速预报长期以来都是一个具有挑战性的课题,并且近几年来对此进行了重要的研究,许多风速预测方法已经被提出。这些模型可大致被分为2类。由许多子模型组成的基于物理的预测方法能够将风在一点特定坐标点和模型层次的预测转换为在带开发地点的能源预测。该方法的核心思想是通过如粗糙度、山岳和障碍等地形参量来使数字气象预报精确化,通过对当地风的建模来佐证大气的稳定程度。例如,第一个为短期预测系统采集数据的风力工厂是由丹麦Ris国家实验室开发的Prediktor。两个德国研发的模型SOWIE系统和Priviento是由Eurowind GmbH和奥尔登堡大学研发各自的而Ewind模型是由美国的True Wind研发的。最新的数值程序模型是由NOAA、NCAR和其他超过150家研究所和大学共同研发的。数值预测方法是基于一个或多个确立了风速的历史价值和气象变量的历史和预测价值以及风速的测量的关系的模型上的。数值预测方法现在已经在许多风速和能源预测研究上得到应用。比如周俊逸提出了一种用于预测短期风速的最小二乘支持向量机模型参数的预测方法,张文宇采用粒子群优化算法对一阶和二阶自适应系数法进行参数优化,然后应用优化模型预测日平均风速,一种普遍的随机模型也由Bivona提出。为了解决提前24h预报问题,刘辉提出了小波理论、小波包理论、时间序列分析方法和人工神经网络理论这三种混合模型。同样,为了预测风俗,刘辉基于小波算法和两种智能优化方法,即粒子群算法和遗传算法进行了非平稳风速预测。基于人工神经网络(ANN)和马尔可夫链(MC),一种新的人工神经网络–MC模型是由Pourmousavi Kani和ardehali提出预测的短期风速。此外,不同类型的神经网络算法已被用于提供应收款的风速预测结果,例如由曹青等人所使用的递归神经网络。由于广义自回归条件heteroskedasticiticy(GARCH)模型是预测波动率模型的典型方法,采用自回归移动平均模型(ARMA)和GARCH模型构建了一个混合模型。命名为平均ARMA GARCH模型,这个模型也采用了刘和平的用来进行风速预测。

本文首先分析了给定风电场的历史风速数据应用到非线性时间序列建模技术。数值模拟结果表明,在风速时间序列中存在明显的混沌特性。这一发现激励我们模拟风速作为一个经常表现出混乱行为的非线性动态系统。根据薛何施,如果一个不规则运动的特征时间序列可以被看成是一种混沌现象一种高精度的预测可以配合混沌理论来解决系统的内部不确定性。

混沌时间序列预测作为研究复杂系统特征的重要方法,在过去的几年中引起了广泛的研究兴趣。一些chaoticprediction方法都基于动力学发展重建技术,如局域法,Lyapunov指数法和人工神经网络方法。在这些方法中,局部区域的方法似乎更有前途的风速预测。本文采用加权局部区域法对风速序列进行预测。

风速可以由许多因素和情况,包括压力梯度,罗斯贝波,急流,和当地的天气条件的影响。它与空气压力、气温、湿度等气象因子有关。关联规则是发现数据趋势规律的一种有效方法。关联规则表示项目或项目集之间的关系。利用风速和其他气象因子的相关性,本文采用Apriori算法,这是一个经典的数据挖掘领域中发现风速和其他相关气象因子之间的关联规则算法。本文在发现关联规则的基础上,提出了利用风速与其它气象因子之间的相关性,检验异常预测风速值或估计其它气象因子值范围的新思路。

本文的剩余内容组织如下。在2节中,风速和其他三个气象数据,包括气压、温度和湿度从位于中国河西走廊地区四个气象站采样,并展示。然后,在建议的风速预测过程中包含的四个阶段,在第3节一步一步介绍。第2节所列网站的个案研究结果载于第4节。在5节中,模型比较了混沌时间序列方法中,改进的混沌时间序列法、自回归移动平均(ARIMA)模型和神经网络模型。最后我们将在第6节总结全文。

  1. 气象站描述

本文中4个位于中国河西走廊的气象站被选为观测点。这四个站点的经度和纬度列于表1。河西走廊位于甘肃省西部,长达1000公里;这里地貌平坦,农田、草原、戈壁滩和沙漠交错。北方丝绸之路的运行西北黄河河畔的一部分,河西走廊曾经是从华北地区到新疆和中亚的商人和军队最重要的通道。河西走廊是一个风能资源丰富区,其独特的地貌和地理特征在中国乃至世界都是罕见的。

一般来说,风速数据可以隐式地体现气象因素,如气压、气温、湿度等的影响,即风速的变化受气象因素的影响。这也是为什么一些研究人员使用空气压力、空气温度的原因,湿度为风速参数预测的输入,就像yesilbudak等人在研究中采用的。因此,在本文中,2012年9月7日到2013年8月3日从中国河西走廊四个地点采集的四个日数据系列(气象要素包括气压、气温、湿度、风速),是用来执行提前31天的日平均风速预测研究的。图四显示了这四个数据序列在图1中的位置,风速、温度、湿度和压力图像分别显示在左上角、右上角、左下角和右下角。如图1所示,这似乎是温度和湿度数据系列的四个网站是非常相似的,而风速和气压数据系列是相似的站点2,站点3和站点4,但表现出相对较大的差异站点1。

三、风能预测新程序介绍

本文提出的新程序共分四个阶段:(1)裁剪,分阶段,将风速、风压、气温、湿度等数据分为不同类别的不同类别;(2)关联规则的发现,其中Apriori算法是关联规则学习的一个经典算法,用于发现的相关性之间的平均风速和其他气象三要素,即空气压力、空气温度和湿度;(3)风速预测,其中的混沌时间序列建模技术,即加权局部区域预测方法,用于预测平均风速的基础上重建相空间;还有(4)使用已发现的关联规则修正预测风速值。Fig. 2(a)–(d)为本文提出的四个步骤提供一个清晰的流程图。如图所示,第四阶段是在第一阶段到第三阶段的基础上进行的,因此,下面的小节将只呈现前三个阶段。

3.1k-means聚类算法简介

假设风速、气压、空气和湿度数据序列分别为将四个气象要素的N个观测分为若干个聚类分别为和每个群集都有一个唯一的标签,并且该系列中的每个数据都属于一个簇,并且有一个特定的标签。k-means聚类算法被用来分类的N观测到若干簇。

k-means聚类分析算法的目的是将n k个簇的观测,C = { C1、C2,。CK }(K 6 N),以尽量减少在群集E中定义的平方和的值,采用的公式为

其中是包含在群集Ci中的元素的平均值-给定一个初始系列该序列可以被指定随机或由一些启发式作为在K集群中心点的值。k-均值聚类算法是通过以下两个步骤之间的交替和终止时,分配不会改变:

  1. 实施步骤。分配每个观察到集群中,观测值的平均值最接近的观察,即,随着集群的eth;问THORN;我是根据以下规则,当迭代次数达到q重建:

b更新步骤。计算在每个群集的观测值的质心值,并设置它们作为新的中心点的值,在这些K集群:

是在集群观测的数目。

3.2运用Apriori算法发现关联规

关联规则的发现是一个重要的数据挖掘问题,目前数据挖掘对关联规则进行了大量的研究。关联规则算法主要用于确定在数据库中同步发生的项或特征之间的关系。实施关联规则算法的主要目的是通过分析数据得到同步的关系,利用这些关系作为决策过程中的参考。关联规则定义如下:

让每个元组提供一个项集D是数据库中的一系列交互,每个事务T是一个非空集合的附属元组。从元组上定义的关联规则为当X与Y间是否存在关联规则取决于2个标准:支持度和置信度。支持度是D中X的比例,支持度被用来评价D的重要性,支持度越高说明D出现的次数越多。每个规则还有一个标准为置信度,置信度用来表明D中Y与D同时出现的比例。给定一组的同意D、数据挖掘协会的规则是保重所有的规则,有一定用户设定的最低限度的支持度(称为minsup)和置信度(称为minconf)。根据Agrawal和Srikant,Aprior算法可以被用来发现关联规则,共包含2个步骤:第一步是检测支持度大于最小值的一项集,第二步是确保关联规则采用了最大项集。即

3.3基于混沌时间序列的风速预测方法

3.3.1相空间重建

通过分配一系列的离散元 xt及其s作为一个新的参考量,可以构造一新的矢量时间系列 该序列在与延迟或延迟时间是常数和D是确定的嵌入式三维。他们都是重建的参数,对数字时间系列,s是一个多元的样本区间的长度。重构后的纬度被认为是模拟模型的有效纬度并且没有打乱他的拓扑性质。s的一个合理的选择是与线性坐标无关的自相关函数的最小值。然而它是不有效的混沌线性时间序列。交互信息的衡量了每个序列的线性和非线性相关度。所以第一局部最小交互信息提供了更好的衡量s的标准。时间序列的交互信息已经由Fraser和 Swinney提出。该方法被用来证明本文中的延时冲突。

Grassberger–Procaccia算法通常用来计算动态系统的相关度。它可以通过互相关函数的积分来确定,积分定义为:

其中并且是Heaviside 函数,定义为

相关维d的确定方法为:

3.3.2最大lyapunov指数

随着复杂动态系统的运行,一系列观测点的值将会聚集或分散,lyapunov指数可以测量聚集度或分散度。最大lyapunov指数可以测量附近轨道的离散程度,可用来确定一个指数的混沌行为的存在。一个较大的lyapunov指数是混乱存在的强有力的标志。测量最大lyapunov指数的方法是基于平均化局部离散率或局部lyapunov指数。为了实现混乱,最大lyapunov指数必须大于0。尽管混乱是基本确定的,他依然无法通过短期间隔确定。一个混乱系统的准确预测的近似周期限制是最大lyapunov指数的一个功能。

3.3.3加权局部区域法

Yk的中心点在相空间中的一点。确定最近邻点Yki和Yk并计算它们之间的欧氏距离,i = 1,2,。,Q,是Yki和Yk之间的距离,dm是最短的距离。Yki的权重为

加权局域(WLR)线性拟合为

当A和B是需要确定的系数。

如图所示,当m = 1时,情况类似于m gt; 1时的情况。因此,只有当M = 1的情况下,进行讨论。在这种情况下,该公式可简化为一个在Eq.

最小二乘法找到最佳时,计算的平方残差的总和达到最低:

通过计算关于A和B的偏导数,给出

通过求解方程的值A和B可以得到

然后,用A和B在方程公式系列中的下一项预测可获得。

3.3.4预测的性能测量

要测量的预测值和实际风速值之间的差异,绝对相对误差(均)采用的是预测精度指数,并可以通过以下方式计算

此外,另一个被广泛使用的测量称为平均绝对百分比误差(MAPE)引入到验证的实际和预测的风速值之间的差异:

分别为实际值和预测值,n是整个预测数据的个数。

四、案例研究的结果

为了验证本文提出的新的程序的性能,在四节提出的第2节的风速预测进行。在新程序中包含的四个阶段的结果依次显示在下面的子部分中。

4.1聚类结果

首先,采用k-means聚类方法将风速、风压、气温和湿度数据聚类为合理、合适的聚类。四个数据系列的聚类结果列于表2。如表2所示,对于一个特定的因素,在不同的集群范围相互脱节。站点1,风速数据位于范围[ 4.76,6.55 ]是最与一定比例的35.65%,而站点2,站点3站点4,含有最多的风速数据范围为[ 5.65,8.02 ],[ 5.94,8.60 ],和[ 5.49,8.05 ],与一定比例分别为38.86%、35.24%和40.06%。相应的,对于四的网站包含最少的风速数据范围[ 9.16,13.73 ](聚

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[26336],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。