基于近似动态规划的交通网络微仿真模型及控制算法外文翻译资料

 2021-12-12 09:12

英语原文共 11 页

基于近似动态规划的交通网络微仿真模型及控制算法

摘要:提出了一种适用于分布式交通网络系统的自适应交通信号控制算法。该算法基于一个微仿真模型和一种增强学习方法,即近似动态规划(ADP)。通过考虑离散时间下的交通环境,建立了微观交通动态模型。特别地,作者利用元胞自动机理论探索了一个车辆跟随模型。这种车辆跟随模型从理论上对交通网络的加载环境做出了方便的贡献。为了使网络协调,考虑了队列长度和车道车辆权重的可调状态。在这种状态表示中,交叉口可以相互共享信息,并对交叉口协调进行联合动作。仿真结果表明,基于ADP方法的交通信号控制算法在不同的性能指标下都有较好的控制效果。通过与其他控制方法的比较,实验结果表明,该算法在交通网络控制系统的应用中具有潜在的应用前景。

  1. 介绍

努力缓解交通堵塞是必要的,特别是在旅游需求日益增长的今天。随着智能交通系统研究的不断深入,交通模型及其相关的交通网络控制方法越来越受到人们的重视。对于以仿真方式进行的交通网络控制,通常需要一个网络时变负载仿真模型。车辆在网络上移动,具有不同的速度、位置和方向。在微观上,最流行的网络加载方法是基于元胞自动机理论的。基于元胞自动机的模型可以对单个车辆的所有行为并行更新动态系统。给出了所有车辆在网络上运行的离散时间过程。研究表明,细胞自动机模型可以产生真实的行为[1,2]。通过一个微仿真模型,可以将交通网络控制算法作为相似的交通流进行研究环境在现实中。

另一方面,车辆在网络上的行驶时间和延迟取决于交叉口交通信号控制策略。低效的控制机制可能导致大量的交通延误,甚至交通堵塞。此外,对于大型网络问题,很难协调所有控制器来实现a全局最优决策由于计算量大、缺乏准确的信息。分布式交通网络系统可以采用自适应信号控制方法来克服这些问题。网络子系统相对容易控制。有时,一个独立的交叉口并不能很好地控制局部信息,因为一些影响来自于其他相邻的交叉口。基于协同多智能体系统的思想,交叉口(agent)可以实现信息的共享和协同行动。

本文首先对微仿真模型进行了研究,从理论上探讨了一种基于NaSch模型[3]思想的新型车辆跟随模型。然后,我们重点研究了近似动态规划(ADP)方法,设计了一种能够获得自适应和协调的交通网络控制策略的算法。该算法根据不同的交通场景,采用了可调状态的思想。在仿真实验中,与其它控制方法进行了比较。结果表明,该算法在实时交通网络控制中具有良好的性能。

本文的其余部分组织如下。第二节对相关著作进行了文献综述。然后,第三部分讨论了车辆跟随模型和可调状态控制模型。第四部分提出了基于ADP方法的交通网络控制算法。第五部分对仿真结果进行了实验分析,最后给出了本文的结论。

2.文献综述

为了寻求网络交通信号控制的解决方案,首先需要表征交通流或车辆特征的模型,交通动态模型有两种常见的类型,即宏观模型和微观(微仿真)模型。在宏观模型中,最早的动态网络加载方法主要是建立在运动波模型[4]的基础上,随后有许多学者对此进行了研究。这些模型假设交通行为像不可压缩流体,也就是说,它们是空间连续的。限制是发现,水动力类比只适用于高交通密度。其他宏观模型,如细胞传输模型[5]和其他用于流传输的空间离散模型[6],都得到了很好的应用,但不适合我们考虑单个车辆行为的优化研究。该微仿真模型可以在一个网络加载步骤中提供由单个车辆组成的交通流。

目前在高校和行业中开发的微仿真模型有很多,如PARAMICS、MITSIM、VISSIM等。这些模型使用了一些基本规则,使得车辆在网络上以相等的小时间间隔移动。在NaSch模型[3]中,基于元胞自动机理论,提出了交通高速公路车辆运动的基本规律。在[7]中,提出了一种新的基于元胞自动机的城市交通流模型求解方法。然而,在[8]中,它表明微模拟的成功使用通常局限于相对较小的网络规模。大型网络的应用可能会导致计算时间的增加。我们相信,在未来,随着计算技术的发展,这个问题将会得到解决。此外,分布式系统中的小型网络子系统,以及自适应交通信号控制离散时间过程的精确规划,非常适合基于微仿真模型的研究[9,10]。

对于交通信号控制问题的决策,近年来,强化学习理论[11]受到了广泛的关注,尤其是q -学习方法。强化学习通过与环境交互并从反馈中学习来优化系统行为。因此,增强学习有利于建立能够处理不可预测交通状况的自适应控制器。此外,多智能体强化学习在交通网络控制系统中得到了成功的应用[12,13]。由于局部交叉口的个体agent之间的行为并不协调,因此多agent协调交通网络控制的研究较多[14-20]。协调机制主要关注agent层次结构[16,17]、群体博弈学习[18,19]和协调图[20,21]。

另一种控制方法是ADP方法[22],它提供了一种状态空间和行为空间较大的马尔可夫决策过程(MDP)的近似最优解。ADP本质上是一种基于模型的函数逼近强化学习。在交通信号控制领域,ADP已被研究用于实时运行,具有良好的性能[23-25]。设计了ADP和强化学习的近似结构来估计动态规划算法中的值函数。相对于遍历值迭代中的所有状态,这可以实现计算效率。在[23]中,研究了带时间差分学习和摄动学习的ADP线性函数逼近问题。在[26,27]中,作者提出了一种基于函数逼近的交通网络控制强化学习方法,通过训练神经网络来逼近状态-动作值函数。在底层强化学习[28]中,在不同的交通网络场景中使用了具有时间消耗和队列长度等特征的线性函数近似。

研究表明,基于元胞自动机理论的微仿真模型能够较好地反映网络中个体车辆的行为。毕竟,基础网络加载支持交叉口自适应交通信号控制的so求解要求。然而,车辆跟随模型通常集中在高速公路上或应用于城市交叉口,只有结合一些简单和传统的信号控制策略。在控制方法上,通常考虑基于多智能体强化学习的协调交通网络控制。此外,函数近似强化学习可以使计算比q学习方法更有效地解决全状态表示。结果表明,ADP不仅能充分利用动态模型的特性,而且能高效地进行信号规划计算,具有较高的精度。此外,只有少数文献在一项研究中考虑了仿真模型与控制方法的结合[9,29]。在不依赖软件包的情况下,有必要建立一个网络加载模型。因此,本文的研究将首先从微观角度研究交通网络动态模型。利用线性函数逼近和协调约束中采用的可调状态,提出了一种基于ADP的交通网络控制算法,并给出了具体的性能指标。

3.交通网络动态模型

3.1网络配置和符号

交通网络模型包括路径选择机制和网络加载机制两个主要部分。重点研究了交叉口方向交通流的分割比例,简化了交叉口的路径选择。换句话说,单个车辆的方向(左转、直行和右转)以一定的概率分布。

图1a中描述了一个交通网的例子。在这个典型的网络系统中,共有5个交叉口和20个索引链接(仅包括入口链接和内部链接,出口链接除外)。每个路段包含两条车道,分别为左转车道和直右车道,由直进和直右转组成。个体车辆通过一些规则在车道上行驶。在两个车道的链路入口生成随机交通到达数据。位于每个交叉口的交通信号控制器与相邻交叉口协调,控制不同交通流的信号相位。根据交通信号相位的规划,将相容的交通流分组组合通过交叉口。经典的四相组合如图1b所示。注意相序是无序的。这意味着当前阶段可以跳转到任何一个需要通行权的阶段。

本文研究的交通网络控制系统是在离散时间下运行的。假设一个步骤间隔(int)是2s。表1给出了一些符号和定义,所有变量都假设为整数。

3.2跟驰模型

行驶在车道上的车辆i与pi,j、vi,j有关。在NaSch高速公路模型中,交通车道被划分为大小相等的单元,每辆车以整数速度行驶。车辆速度具有加速度、减速和随机性。在时间间隔内更新每辆车的新位置和速度。在城市交通网络研究中,相邻交叉口之间的连接距离不像高速公路那么长。因此,我们只考虑车辆速度的加减速。这里没有考虑随机化,它表示速度的概率取决于人类行为或外部条件的变化。为简单起见,该模型采用先入先出规则,链路中车道间车辆是独立的。

表1模型变量

变量

定义和符号

n

交通车道,N是十字路口的总车道数

m

交通路口,M是路口总数

Ll

链路l的长度,由单元总数定义

pi,t

车辆i在t时刻单位位置的位置

vi,t

车辆速度(位置/int)i,vi,tisin;[0,vmax]

∆pi,j,t

相邻车辆i与j之间的总空车位

∆vi,j,t

相邻车辆i和j的速度差

kt

车辆队列长度矩阵,维数Ntimes;M

ktilde;t

占用车道车辆总数Ntimes;M

xt

系统信号状态维数Ntimes;M,赋值元素xmt(n) = 1表示绿灯,xmt(n) = 0表示红灯

at

维度为Ntimes;M的系统行为,将元素t赋值给开关信号,否则赋值t (N) = 0

wt

队列长度为Ntimes;M维的交通到达信息

wtilde;t

车道交通到达信息,尺寸Ntimes;M

y

Ntimes;M车道上的交通发送率(veh/int),假设所有车道是否具有相同的值1veh /int,即1800veh/h

注意,车道上的位置是从Ll到1索引的,用于在交叉口的进入位置到接近位置。前后两辆车i和j的关系可以表示为

根据前车的距离和速度,后车可以加速、减速或保持恒定速度。在车辆跟随模型中,按顺序考虑两个基本过程。首先,后车i以与前车j相同的速度同时加速或减速。之后,后车考虑附加Delta;vi,j,t。注意后车i总是在安全距离内以最大相对速度Delta;vi,j,t移动。同时满足vi,tge;vj,t。安全起见,、Delta;vi j, t是所需的值,可以统一从最大减少到0取决于距离。获得Delta;vi post-vehicle和更新状态,总有四个病例讨论如下条件的队列长度和pre-vehicle的位置。

根据前车的距离和速度,后车可以加速、减速或保持恒定速度。在车辆跟随模型中,按顺序考虑两个基本过程。首先,后车i以与前车j相同的速度同时加速或减速。之后,后车考虑附加Delta;vi,j,t。注意,post-vehicle我总是在最大相对移动速度Delta;vi, j, t和安全距离。同时满足vi,tge;vj,t。为安全起见,Delta;vi, j, t是所需的值,可以统一从最大减少到0Delta;pi根据距离,j, t。获得Delta;vi, j, t和更新美国post-vehicle我,总共有四个病例讨论如下条件的队列长度kt和pre-vehicle j的位置。情形1:ktne;0,pj,t gt; kt。它表示有一个队列长度,而pre-vehicle j不在队列中。因此,post-vehicle i也不在队列中。假设距离Delta;pi, j, t确保Delta;vi, j, t可以从最大减少到0一致,如图2所示。因此,最低Delta;pi, j, tDelta;vi期间可以确定,j, t 1的步骤。此外,在移动车辆与安全距离(本文将是一个地方)当Delta;vi, j, t等于0,Delta;pi, j, t应该增加。因此,限制Delta;pi j t可以表示为

情形2:ktne;0,pj,t = kt。在本例中,pre-vehicle j是队列中的最后一辆车,post-vehicle i尚未添加,如图2b所示。与例1相同,最大相对速度Delta;vi, j,可以由Delta;pi t, t j。唯一的区别是安全距离为0。这意味着当Delta;pi, j, t = 0, post-vehicle我到达队列长度的结束。因此,我们有情形3:ktne;0,pj,t lt; kt。在这种情况下,pre-vehicle j和post-vehicle i都在队列中,如图2c所示。我们假设,如果n车道接受绿色信号,队列中所有车辆的速度都为1,否则为0。因此,我们可以得出结论,如果Delta;vi, j, t = 0和Delta;pi, j, t = 0时,车辆i和j在队列中显示相同速度的1或0。在这种情况下情形4:kt = 0。在这种情况下,Delta;p的关系和Delta;vi pre-vehicle j和post-vehicle我和例1是相同的。然而,在案例4中,队列中没有车辆。因此,我们需要定义第一个前车j的限速,保证第一个前车j在接收到红色信号时,至少可以均匀减速到停止线前速度为0。假设虚拟车辆j位于第一个位置前,红色信号为0,否则为1,如图2d所示。根据案例2,

资料编号:[5614]

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。