电动汽车过驱动故障识别的最优输入设计外文翻译资料

 2021-11-28 09:11

英语原文共 16 页

神经网络和M5模型树模拟水位-流量关系

摘要:

对河流流量的可靠估算是有效的洪水管理和地表水规划的关键组成部分。水文学家使用历史数据建立水位和流量之间的关系,这被称为评级曲线。一旦建立了关系,它就可以用于预测未来水位测量的排放。机器学习在水资源管理中的成功应用激发了对这些复杂关系建模的这些方法的适用性的探索。在本文中,水位–流量关系的模型是用人工神经网络(ANN)和M5模型树建立的。通过计算平均互信息来选择相关输入。将该模型的预测准确性与使用相同数据构建的传统评级曲线进行比较。结论是,ANN和M5模型树模型的精度优于传统模型。

  1. 简介

在水流管理中,重要的是可靠地估算河流中的流量。而流量的测量是耗时的、危险的,并且成本高。更便宜的替代方案是所谓的评级曲线,在现场测量的帮助下,其体现了水位(从基准测量时,称为阶段)与流量之间的函数关系。一旦有可靠的评级曲线可用,就可以使用观察到的水位从评级曲线估算流量。

通常,可以借助于多项式回归或基于自相关的统计方法(例如ARIMA)来构建评级曲线。水位和流量之间的功能关系是复杂的,并且不能总是通过这些传统的建模技术捕获。而这些通常限制了评级曲线的实际用途。

在所研究过程的大量数据可用的情况下,如在水位与流量测量的情况下,基于概念模型(例如评级曲线)的简化传统技术的使用,可能难以证明是合理的。为了获得最大的利益,利用可用数据是很重要的,这里显而易见的选择是机器学习方法,如人工神经网络(ANN)。

在机器学习技术中,人工神经网络被广泛应用于与水有关的研究的各个领域,特别是在水文学领域。我们的经验还表明,专门用于特定范围的输入-输出空间的模型委员会的使用通常是有益的。 属于这类分层模块模型(动态委员会机器)之一的就是M5模型树(MT)。它不像人工神经网络那样受欢迎,但它已经被证明非常有效和强大。

在本文中,在一个排放测量站中,将模拟水位-流量关系的ANN和MT模型与传统的评级曲线进行了比较。

  1. 评级曲线特征

理想情况下,为了建立水位和流量之间的关系,应建立测量站点的确定流动条件。这是通过适当控制流量的手段来实现的,该流量限制了在上游或下游方向上的流动状态变化的影响的传递。在理想条件下,水位-流量关系理论上与通道粗糙度和其他不受控制的环境无关。然而,由于实际原因,例如水文要求,进场道路的存在,土地的可用性等,天然河流中的流量测量点与所需条件存在相当大的偏差。

水位与流量之间的关系参数,描述了随时间发展并以随机波动为特征的过程。 离散或连续记录水位与时间的关系图称为水位水文图。在额定曲线的帮助下,可以使用水位水文仪进而得到流量水文图(流量随时间的变化)。

等级曲线是水文学家根据仪表观测来预测流量的有效工具。它减少了昂贵且耗时的流量测量的需要。流量预测的质量在水流管理、水量计算和水文设计中都至关重要。

最常用的水位-流量关系形式表示如下:

(1)

其中代表最低水位,低于该最低水位的流量是不可行的,h是水位,Q是流量。在检查历史水位数据的特征之后,水文学家通常选择的第一估计值,然后通过反复试验选择的最终值,用来得出最佳拟合效果。还需要选择回归系数a和b的值来最大化得实现对训练数据的拟合。

在不稳定的流动期间( ;其中u是流速,t是时间),水位和流量之间的关系不是唯一的。在洪水上涨期间,洪水波在传播中受到的阻碍比在洪水下落时受到的阻碍要小。在同一阶段,这会导致洪水上升期间的排水量高于洪水期间的排水量。 这种效应称为滞后现象; 它产生一个环路评级曲线,并证明水位和流量之间的关系不是一对一的映射,而是流量对过去水位和流量值的依赖。

为了考虑滞后效应,有时历史数据被分为两组:一组处于上升阶段的水位和流量数据,另一组处于下降阶段的水位和流量数据。然后为每组建立单独的形如(1)的回归模型。这种方法并非没有限制,因为数据分离通常是主观的,并且随后使用评级曲线需要专业知识并且容易出错。Jones的公式提供了一种替代方案,其中采用校正程序来考虑由于洪水的动态特性引起的滞后效应。

当某个位置的可用水位-流量数据十分有限,以至于无法绘制评级曲线时,则可以建立该河流区域的流动数学模型。圣维南方程(连续性和动量)描述了天然河流中的水流。随着加速度等假设几乎可以忽略不计,地表水坡度几乎与河床坡度平行,水流量可以用下面的运动波动方程近似[2]:

(2)

其中h是水深,t是时间,Q是流量,x是沿河水平面的坐标轴,bs的管道宽度由下式定义:以及A是河的横截面积。运动波方程是对流方程的另一种形式,描述了以速度平流的洪水波h(x,t)的变化。

(3)

采用有限差分数值方案,利用方程(2)可以求解,但它需要初始和两点(上游和下游)的边界条件(水位或流量)。如果水位或流量数据在感兴趣点的某些上游和下游位置可用,那么可以建立数学模型,并且可以利用在感兴趣的位置处可用的偶发水位-流量数据来校准。然而,数值模拟也会带来误差,除非感兴趣的数据不能用,否则这种方法不是水文学家的首选。

  1. 机器学习方法

在机器学习方法中,我们使用非线性参数函数逼近器。在函数逼近器中,从输入-输出数据对、一些选择的模型结构以及系统学习规则获得函数分解的系数。 一旦经过训练,机器学习模型就成为函数的参数化描述。通过尝试不同的模型结构和相关参数,从一组特定的训练样例中学习一般原理。在几种可能的方法中,我们考虑了人工神经网络,这是水部门中使用最广泛的方法,以及对于水部门几乎是未知的M5模型树。

3.1人工神经网络

人工神经网络是多层结构中使用最广泛的方法,实际上是涵盖各种网络架构的广义术语,其中最常见的是多层感知器(MLP)。Sucha网络通过所谓的错误反向传播方法进行训练,该方法是基于梯度的优化算法的专用版本。

每个目标矢量z是输入矢量x的未知函数f

(4)

网络的任务是学习函数f。网络包括一组参数(权重向量),其值被改变以修改所生成的函数,其由网络计算为尽可能接近f。 通过基于训练数据集训练(校准)ANN来确定权重参数。关于人工神经网络的更多细节可以在[15]中找到。

在解决与水有关的问题时,人工神经网络已被大量用于降雨-径流模拟,流量预测[22],模拟水位行为(不考虑排放)[32]。发现MLP-ANN在模拟水位-流量关系方面非常有效。在[30]中探讨了具有径向基函数的ANN的有效性,而在[9]中使用了模糊神经网络。

3.2模块化方法和M5模型树

通过将其分成许多简单任务并组合这些任务的解决方案,可以解决复杂的建模问题。 输入空间可以划分为多个子空间或区域,每个子空间或区域构建一个单独的专用模型。在机器学习中,这种模型通常被称为专家或模块;这些专家的组合-委员会机器[15]将这些机器分为两大类:(1)静态(由系综平均和增强表示),其中专家的响应由不涉及输入信号的机制组合,例如使用固定权重;(2)动态,其中专家使用取决于输入向量的权重方案组合。

动态委员会机器的类别可以进一步分为两组:(2a)统计驱动的方法,其输入空间的“软”分割由专家混合物表示[17,19],和(2b)方法,其不组合不同专家或模块的输出,但只显式地使用其中一个(最合适的一个)。(即当其他专家的权重为零时的特殊情况)。

与混合模型相反,该组的方法使用输入空间的“硬”(即,有或没有)分割成逐渐变窄输入空间区域的区域。 每个专家都对这些区域中包含的实例子集进行单独培训,最后只考虑一名专业专家的输出。 结果是层次结构,树(通常是二进制的),在非终端节点中具有拆分规则,在叶子中具有专家模型(图1)。 这种模型可以称为分层(或树状)模块化模型(HiMM)。 在[11]中考虑了它们的优化。

HiMM中的模型可以是任何类型,例如线性回归或ANN。为了解决数值预测(回归)问题,有许多基于决策树思想的分裂方法:

  • 如果一个叶节点与排序到它的实例的平均输出值(零阶模型)相关联,则整体方法称为Breiman等人引入的回归树。 [6]并在叶子中产生数值常数(零级模型)。
  • 如果需要输入变量的回归函数,那么通常使用两种方法:Friedman [11]在他的MARS(多自适应回归样条)算法中的方法,以及Quinlan的M5模型树算法[24]。

M5算法使用以下思想:将参数空间划分为区域(子空间),并在每个区域中构建局部专用线性回归模型。

MT中的分裂遵循构建决策树时使用的思想,但是它不是类标签,而是在叶子上具有线性回归函数,这可以预测连续的数字属性。 模型树概括了回归树[6]的概念,它们在叶子上具有常数值。 因此,它们类似于分段线性函数(因此非线性)。 模型树可以高效地学习,并且可以处理具有极高维度的任务 - 多达数百个属性。 模型树优于回归树的主要优点是模型树比回归树小得多,决策强度很明显,回归函数通常不涉及很多变量。

图1.专家(模型)的分层混合.是分裂节点,是模型

图2.通过M5模型树算法分割输入空间X1times;X2; 每个模型都是线性回归模型

Y=

M5算法用于诱导模型树[24],其工作原理如下(图2)。 假设可以获得训练样例的集合T. 每个示例的特征在于一组固定(输入)属性的值,并具有相关的目标(输出)值。目的是构建一个模型,该模型将训练案例的目标值与其输入属性的值相关联。模型的质量通常通过其预测未见案例的目标值的准确度来衡量。

基于树的模型是通过分而治之的方法构建的。集合T或者与叶子相关联,或者选择一些测试将T分成对应于测试结果的子集,并且相同的过程递归地应用于子集。M5模型树算法的拆分标准是基于将到达节点的类值的标准偏差作为该节点错误的度量,并计算由于测试该节点上的每个属性而导致该错误的预期减少量。计算标准偏差减少(SDR)的公式为:

, (5)

其中T表示到达节点的一组示例,Ti表示具有潜在集合的第i个结果的示例的子集,sd代表标准偏差。

在检查所有可能的分割(即属性和可能的分割值)之后,M5选择最大化预期误差减少的分割。当到达节点的所有实例的类值稍微变化或仅剩下几个实例时,M5中的拆分停止。无情的划分通常会产生过多的复杂结构,必须将其修剪回来,例如用树叶替换子树。在最后阶段,执行平滑处理以补偿在修剪树的叶子处的相邻线性模型之间不可避免地发生的尖锐不连续性,特别是对于由较少数量的训练示例构造的一些模型。在平滑中,相邻线性方程以这样的方式更新:对应于不同方程的相邻输入矢量的预测输出的值变得接近。该过程的细节可以在[24,34,36]中找到。

MT尚未像人工神经网络那样受欢迎,例如在水行业,其使用最近才开始。

  1. 实验设置

4.1研究区域

印度Bhagirathi河上的Swarupgunj流量测量站的数据已得到考虑。河流是单向的,靠近测量点的宽度约为320m,最大深度约为8 m。在数据收集期间(1990-1998年),观测到测量站上游的河岸线发生了微小变化,但在测量站附近,河岸线或多或少稳定。河床物质由粉细砂组成。

4.2输入输出变量的选择

构造足够的输入空间通常比选择学习算法更重要。为了在模型平均互信息(AMI)中选择正确的输入和输出变量,研究了变量之间的依赖性和相关的滞后效应。AMI是基于香农熵理论的,是对一组具有另一组数据知识的数据中可用信息的度量。从A和B组中提取的两个测量值和之间的AMI定义为:

(6)

式中,是测量值A和B的联合概率密度,产生值a和b,和是测量值A和B的单个概率密度。如果A产生值的测量值完全独立于b产生值的测量值,则平均相互信息为零。

图3.水位和流量之间的平均相互信息(AMI)

作为信息的衡量标准,与其他方法(如互相关)相比,AMI测量的优势在于它独立于任何预定义的功能。 对于离散测量,实际AMI值取决于用于计算概率密度的类间隔的数量[1]。在不同的滞后时间计算AMI测量所选位置的自身流量和在相同位置的水位的流量(图3)。AMI有助于从过去的流量和水位数据中找出有关未来流量的信息。从图3中我们看到零滞后的阶段对应于最高AMI(2.5)。但是,滞后1和2小时的水位数据也包含有关当前流量的大量信息。此后,信息内容对于增加滞后时间几乎保持不变。流量AMI的变化本身表明,滞后1h的流量具有关于现在流量的高信息含量。此后,AMI值几乎保持不变。根据这些AMI值,为模型选择以下输入参数:

:时间t处的水位

:时间t-1处的水位

:时间t-2处的水位

:时间t-1处的流量

输出:(时间t处的流量)

4.3训练

本次应用考虑了1990-1998年期间的水位和流量数据。前的数据被选择用于培训,其余数据被用于验证。培训和验证数据点总数分别为1364和621。

为了构建MT,使用了Weka软件[36]。ANN模型是用NeuralMachine建立的[

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。