研发一种基于马尔可夫的道路养护决策的加权报酬标准外文翻译资料-外文翻译网

英语原文共 14 页，剩余内容已隐藏，支付完成后下载完整资料

研发一种基于马尔可夫的道路养护决策的加权报酬标准

高辉，张雪晴，李亚帅

摘要

报酬标准是基于马尔可夫的道路维修优化模型中的一个重要决策因素。目前，普遍采用平均报酬准则或贴现报酬准则来优化道路养护的生命周期成本。然而，前者不能反映生命周期成本的时间价值，而后者往往忽略了决策层后期积累的成本。在此基础上，建立了基于马尔可夫的道路维修优化模型的加权报酬标准。它通过设置两个奖励的权重来衡量平均报酬和折扣奖励的折衷。此外，存在在两种情况下，在考虑和不考虑通货膨胀费用的情况下，通过两个算例证明了加权报酬准则下的最优方案。最后，将所提出的准则与平均报酬准则/贴现报酬准则进行比较，以检验折现率和通货膨胀率对最优计划的影响。

关键词：维修、决策分析、马尔可夫优化、加权报酬标准、生命周期成本

背景

为了提供和分配道路工程的期望服务，重要的是保持道路路面在其使用寿命中具有良好或至少可用的性能。由于道路使用和环境影响，道路的路用性能将随着时间的推移而逐渐恶化。在这种情况下，采取不同的养护措施来改善路面的使用性能。采取这些措施势必会产生相当大的成本。然而，政府机构的维修预算总是局限于这些维护行动。因此，道路养护决策是平衡路面性能和维护行动在道路工程的使用寿命上的支出的权衡。因此，这一决策将基于对道路工程在使用寿命中的路面性能变化进行建模的精确知识，以及评价养护措施对性能改善和成本的奖励的有效方法。

路段的路面衰变通常可以通过一个随机过程来模拟，该过程保持马尔科夫性质。马尔科夫性质表明：（1）在未来时间点的路段状态仅取决于其当前状态和要采取的维护动作；（2）路段的未来状态是其先前状态和维护动作的基础。特别地，转移概率矩阵描述了在保持一定状态时，道路段将保持在当前状态或在下一时间点转至另一状态的概率，并在当前时间点接收维护动作。基于路面衰变建模，可以根据马尔可夫决策过程（MDP）来确定道路养护决策。MDP是一个随机控制过程，它符合决策时期、状态、行动、转移概率和回报的关键方面。

目前，已经提出了一些数学模型来管理道路和其他基础设施资产。从MDP的角度在现有的道路维护MDP模型中，平均奖励标准或折扣奖励标准是寻找最优生命周期成本的常用报酬准则。一方面，平均报酬准则倾向于最小化服务寿命上的平均成本，而不能捕捉时间价值和通货膨胀对维护决策的影响。另一方面，贴现报酬准则考虑了时间价值，强调了早期成本，而忽略了在使用寿命中后期积累的成本。换言之，平均报酬标准适用于长期决策（例如超过50年），而贴现奖励标准适用于短期决策（例如3至5年）。然而，道路工程的使用寿命一般为20～30年，这是一个短期和长期的时间跨度。因此，在道路养护决策中，长期平均报酬与短期贴现报酬之间必须权衡。

在本文中，我们首先识别路面性能状态和维护行动。然后，在有限决策层和无限决策层的基础上，建立了基于平均报酬和贴现报酬的加权报酬准则，用于基于马尔可夫的道路维修优化模型。这些决策是在网络层面上做出的，在资源的最佳利用和规模经济方面取得了比单独为个人（CI等）更好的结果。此外，在说明性示例中考虑了考虑和不考虑决策层上的通货膨胀的两种情况。在两种情况下，进一步使用两种常用的奖励标准和所提出的加权奖惩模型进行比较。结果表明，加权报酬准则在道路养护决策中的有效性。最后给出了结论。

第1章道路路面性能的建模

1.1道路路面的性能指标与性能状态

粗糙度是路面表面变形的度量，它反映路面提供给使用者舒适乘坐的能力。因此，它被视为路面服务性能最重要的一方面。其结构缺陷和加速的路面劣化很大程度上是由于车辆的运行成本、安全性、舒适性和行驶速度。粗糙度传统上用国际粗糙指数（IRI）来衡量。然而，IRI的值取值范围无界，因此没有将IRI分类到一定数量的性能状态的基础。本文将IRI转换为平整度指标（RQI）来测量沥青路面的路用性能。基于RQI，通过五个分类的性能状态来表示路段的性能。一组可能状态表示为S= {s₁，s₂，s₃，s₄，s₅}，其中s₁＝优（4≦RQI＜5），s₂＝良（3≦RQI＜4），s₃＝中（2≦RQI＜3），s₄＝差（1≦RQI＜2），S₅＝不可接受（0≦RQI＜1）。表1给出了柔性路面各性能状态的RQI和相应IRI的代表值。

表1 每种性能状态的代表性RQI和IRI值

路面状态	RQI取值范围	RQI代表值	IRI代表值(m/km)
s1	4 le; RQI le; 5	4.5	0.683
s2	3 le; RQI lt; 4	3.5	1.784
s3	2 le; RQI lt; 3	2.5	3.405
s4	1 le; RQI lt; 2	1.5	5.544
s5	0 le; RQI lt; 1	0.5	8.202

1.2养护措施的影响

根据养护管理手册（公路部2001），主要的道路养护措施通常是重建、重修和日常维护（例如，裂缝密封和道路清洗）。本文在没有一般性损失的情况下，将所有道路养护行为标准化为上述三种类型。也就是说，假设在任何状态下，任何道路路段都有三种可替代的维护动作：a₁＝重建，a₂＝重新铺面，a₃＝不养护。养护措施集用A= {a₁，a₂，a₃}表示。不同的行为有不同的影响：“重建”可以改善道路段到良好的状态；“不养护”被认为对道路性能没有影响；通过IRI的减少可以估计重心铺面工作的效果。

第2章基于马尔可夫的基于加权回报准则的道路养护决策模型

2.1决策时期与决策周期

决策时期是做出决策的时间点。在MDP中，决策层级由决策历元划分为M个时期。如果M是无穷大的，则在无限的地平线上进行解析。否则，决策是在有限的地平线上，如果M是有限的。一般认为决策是每年作出的。也就是说，决策期是1年，决策时期是每年的开始。此外，我们假设所有的维护行动都是在每年年初进行的。

2.2加权报酬标准

加权报酬准则由平均报酬准则和贴现报酬准则的加权组合组成。决策者可以通过改变他们相应的权重来或多或少地强调长期回报与短期回报之间的关系，克拉斯等人给出了通式，如等式（1）所示，用平均报酬和贴现报酬来计算加权报酬。这个“加权回报”是一个平均回报和折扣奖励显性组合，随着他们的重量而改变。

式中，C_W＝加权报酬；C_E＝平均报酬；C_D＝折扣报酬；alpha;=平均报酬的权重；beta;=折扣报酬的权重，alpha; beta;＝1；和lambda;=（1＋r）^-1，alpha;＜1，r＝折扣率。

2.3基于加权报酬准则的优化模型

在这一节中，首先制定使用优化的加权回报标准的优化模型，以最小化预期的生命周期维护成本超过有限决策层。决策变量是与每个状态动作对相关联的路段分布（状态动作对（i，a）是指在有限的决策范围内，在每年年初时，当段处于状态i时采取维护动作a)。然后，无限时间模型将被开发，以扩展到无限决策层的优化。结果表明，当决策层趋于无穷大时，利用所开发的加权报酬准则的模型将使用平均报酬准则收敛到模型。

2.4有限时间优化模型

有限时间模型为每个状态-动作对寻求最优的路段分配，在有限的决策范围内最小化预期的生命周期道路维护费用。有限时间MDP模型的目标函数使用平均报酬和折扣奖励的标准如下：

式中：C_E（pi;）＝维护计划pi;的预期平均寿命周期成本；C_D（pi;）＝维护计划pi;的预期折扣生命周期成本；c_t（i，a）=在t年内与状态t对（i，a）相关的维护成本，；d_t（i，a）＝在年份t开始时对（i，a）路段的状态分布；t＝决策空间；n＝路段数；S＝状态空间；A=动作集。

根据公式（1），优化模型的目标函数是在有限的时间报酬标准，按下式计算：

式中：C_W（pi;）＝使用加权回报准则的维护计划pi;的预期生命周期费用。

有限时间模型的决策变量是在年初的每个状态动作对中的路段分布，这取决于初始状态分布。道路路段分布、状态转移、可用预算和性能要求的模型约束如下：

每个状态动作对中的路段分布应该是非负的：

状态i的初始路段分布被指定为：

式中：d₁（i）＝状态i的初始路段分布。

年t开始时所有状态作用对的路段分布的总和应等于1：

状态转换应满足以下方程：

式中：P_ji（a）＝当维护动作a被取时，道路段从状态j到状态i的转移概率。

预算约束（道路平均年度维护预算）：

式中：B_t=年度t的可用预算。

性能要求（道路维护的最小RQI）：

式中：R_t＝t年保持的最小RQI；R_（i）＝状态i的代表性RQI。

2.5无限时间优化模型

在一个无限时间维修优化模型中，在一个道路工程的使用寿命中，每年的维护成本是恒定的，路段的数量是N，决策层趋于无限。根据公式（2）和（3），使用平均报酬准则和贴现报酬准则的无限时间模型的目标函数可以写成如下：

式中：c（i，a）=与状态动作对（i，a）相关的年度维护成本；d（i，a）=状态作用对（i，a）中的路段的年度分布。

根据公式（1），在无限的时间使用加权报酬标准建立模型的目标函数由下式确定：

可以发现等式（13）和等式（11）中利用平均报酬准则建立的无限时间模型的目标函数相等。也就是说，当决策层趋于无限时，使用加权回报的模型等于使用平均报酬的模型。这一结果证明了有限时间模型的加权报酬准则是可行的，因为平均报酬准则对于无限决策层是最合适的。

2.6最优维修计划

每年年初决策层上的最优维修计划可以表示为pi;_t（i，a）的和。计算如下:

式中：pi;t(i, a)=在t年一开始时维护状态a的路段在状态i中的分布。

2.7说明性实例

在本文中，龙翔路作为香港7号高速公路的一部分，它的维护将被用来作为一个例子来说明所提出的决策模型。

2.7.1模型输入

①路段初始状态分布

所选路段的总长度为10公里。这条路有双车道三车道，每车道4米宽。每个路段占用三车道，每个路段的长度为50米。每个路段的面积为600平方米。路段的数量是400。路面是沥青混凝土路面。假定所有的路段都有类似的退化过程。表1所示的代表性RQI和IRI值用于计算路段的平均性能。道路段的初始状态分布列在表2中。路段初始RQI为4。路段对RQI值的年最低性能要求是3.5，假定在决策层上是恒定的。转移概率如表3所示。

表2每种状态的初始路段分布

lt;

全文共7511字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[15903]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

状态	s₁	s₂	s₃	s₄	s₅	总计
路段分布	60 %	30 %	10 %	0	0	100 %

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

研发一种基于马尔可夫的道路养护决策的加权报酬标准外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章