英语原文共 5 页，剩余内容已隐藏，支付完成后下载完整资料

基于强化学习的公交智能调度系统的开发

邹良¹，徐建民¹，朱凌翔²

（1.华南理工大学，广州510640）

（2.华南农业大学理学院，广州510642）

摘要：公交智能调度系统（BIDS）是根据公交运营状态（包括车辆位置和乘客人数）建立的，充分利用强化学习（RL）。有关车辆位置的信息可以通过安装在公交车上的全球定位系统（GPS）接收器获得。公交车上的红外线可以得到公交车上的乘客人数。我们使用一组RL代理，每个代理负责控制一条路线。最后，开发的算法实现了广州市十条公交线路。结果证明了RL在公交调度问题上的作用。

关键词：公交调度; 强化学习; 智能交通系统

引言

BIDS由三个子系统组成：信息采集系统，信息传输系统和调度系统。在公交车位置，短消息，移动通信和乘客数量的帮助下，系统可以实时将公交运行状态信息传送给调度系统。调度系统是系统的核心。根据公交车的位置和乘客数量，调度系统可以提出有效的调度指令。

自二十世纪五十年代末以来，西方国家大量的人力，物力和财力用于研究电脑辅助公交运营，并举行了一些特别的国际会议。经过40多年的艰辛努力，这项技术进入联盟阶段。特别是近年来，智能公交调度系统与智能交通系统相结合，实现了实时的公交调度系统[1]。公交调度系统使用公交跟踪技术监督公交运营。同时，通过无线通信技术在控制中心的公交车与调度员之间建立通信系统。控制中心诊断和处理公交车辆的前进，延误，间隔，串车和漏接等事务，确保调度指令及时发出。 A. Marques的论文介绍了自1993年以来一直是欧盟研究项目的SUPERBUS项目。该项目持续了30个月。论文介绍了如何整合应用动态时间表软件SUPERBUS来有效处理公交运营的紧急情况。 SUPERBUS的模块有两个主要部分。一个是制定公交车计划，包括时间安排，公交车调度计划和机组人员安排。二是实时调度，包括事故自动检测，提出调度方案，重新规划等。

本文组织如下。第2节描述了信息收集系统。在第3节中，介绍了公交调度系统。第4节描述了强化学习算法在公交调度中的适应性。第5节介绍了强化学习算法的开发自适应计算机实现的实验研究结果。第6节总结本文。

信息收集系统

自动收集车辆的位置对系统非常重要。该系统通过测量每辆车的实时位置并将信息传输到基站来工作。在控制中心，处理传输的信息，并将公交车的位置以图形方式显示在电子地图上。

全球定位系统：GPS是新装置中最常用的技术。根据Okunieff（1997）的说法，“只有在20世纪80年代或更早的90年代采购他们的系统的机构或者正在升级他们现有的路标系统的机构才会选择路标技术。 GPS利用从24颗卫星星座发射的信号，以及安装在每条巴士顶部的接收器。总线读取信号并将其经度和纬度传输给基站。通过比较公交车的经纬度与记录的公交车站的纬度/经度来确定停靠站的到达或离开时间。为了获得更高的准确度，可安装门传感器，以准确确定门何时打开和关闭。由于卫星信号不能到达地下，并可能被高层建筑阻挡，所以GPS必须补充路标或指南针/里程表以确定车辆在一些地点。为了获得高精度，必须使用“差分GPS”（DGPS）。在DGPS下，接收器被放置在知道的位置。精确位置和GPS测量位置之间的差异用于提高车辆位置确定的准确性。 GPS的优点如下：

它可以在卫星信号到达的任何地方工
它不需要现场基础设施。由于卫星在轨道上就绪，GPS技术的应用只涉及在巴士上安装接收器。

自动乘客计数器是一种自动收集乘客登机和下车的时间和地点的数据。有关技术的深入回顾，请参见波义耳（1998）。数据可以实时地或稍后地用于不同的应用。自动乘客计数器具有以下优点：

（1）减少了数据收集。

（2）减少了数据处理的时间和精力。

（3）提高了运行效率。

（4）乘客信息系统的增强数据。

红外光束是最常见的技术。两条红外光束横穿乘客的路径。当乘客登机和下车时，他们以特定的顺序中断波束，从而激活自动乘客计数器装置。

3 公交调度系统的全局描述

我们研究的公交车调度系统是一个有20个站和15个公共汽车的模拟路线。每一站的旅客到达被假定为泊松，到达率在一天中变化。我们假设每个乘客都知道他的目的地，然后他就下车了。

系统动力学由下列参数近似：

（1）加速时间（关闭门和加速时间）：30秒。

（2）减速时间（减速时间和打开车门时间）：30秒。

（3）停止时间（以最大速度移动一站到下一站的时间）：3分钟。

（4）公共汽车容量：75名乘客。

（5）载客时间（一个乘客进入或离开公共汽车的时间）：从第二十阶截断的Erangon分布的随机变量，范围从0.6到5秒，平均1秒。

公交调度系统的状态空间由公交位置、乘客人数和公交运行方向三部分组成。我们让

sj  (s0, j , s1, j ,hellip;, s20, j , s21, j )表示总线位置，si, j 表示站点i和站点i -1 之间的公交数量，如果i=0，则代表场站1的公交车辆数目，如果i=21，则代表场站2的公交车辆数目。我们也可以让sj  (s2, j ,hellip;, s20, j )代表公交的位置，si, j表示站点i和站点i-1之间的乘客数量，让j代表公共汽车行驶的方向，如果j=0，则代表公交行驶方向为上行，如果j=1，则代表公交行驶方向为下行。所以s  (s0 , s1, s0 , s1) 代表整个状态空间。

公交调度系统的动作集非常简单，只有两种可能性。让a表示行动，如果a=1，将让公共汽车从一个场站出发。如果a = 0，则表示没有公交车可以离开。系统将每分钟选择一次。

公交调度系统的性能目标可以通过多种方式来定义。一个可能的目标是最小化平均等待时间，这是乘客到达公交车和乘客之间的时间。另一个可能的目的是最小化平均系统时间，这是等待时间和旅行时间的总和。第三个可能的目标是将等待时间比某些不满阈值（通常为10分钟）的乘客的百分比最小化。另一个共同目标是最小化平方等待时间之和。

4 强化学习算法的适应性

强化学习是交互学习的同义词。在学习过程中，适应性系统会尝试对其环境采取一些行动，然后通过接受其行为的标量评估（奖励）来加强它。强化学习算法有选择地保留随着时间的推移最大化收到的奖励的输出。强化学习任务通常在不连续的时间步骤中进行处理。在每个时间步t，学习系统接收到环境状态s的一些表示，它采取行动a，并且一步之后它接收标量奖励r，并发现自己处于新状态s。背后强化学习的两个基本概念是试错法搜索和延迟奖励。

强化学习的一个关键方面是开采和勘探之间的平衡。为了积累大量奖励，学习系统必须倾向于最有经验的行动，但是，它必须尝试新的行动，以便为未来发现更好的行动选择。

强化学习的核心思想是时间差（TD）学习。 TD方法是通用学习算法，可以对动态系统进行长期预测。它们基于估算价值函数和状态函数V（s）或动作状态对Q（s，a）估计

学习系统在特定状态下有多好或是采取某种选择机制，平衡勘探和开发的政策，以便随着时间的推移获得最大的回报，并让学习系统达到其目标。 SARSA算法是一种通过自举机制学习动作值函数的TD方法，即通过基于先前的估计进行估计。在每个时间步骤，SARSA算法都会更新动作值函数Q（s，a）的估计。使用五元组（s，a，r，s，a）来估计动作值函数Q（s，a），这引起了算法的名称。 SARSA是众所周知的Q学习算法的政策上的版本[5]。以下是用于估计动作值函数的SARSA算法的描述：

第1步：初始化 Q（s，a）值函数

第2步：初始化环境，设置状态

第3步：选择遵循特定规则的行动（例如：电子贪婪）。

第4步：采取行动、观察奖励r，找到下一个状态s ，然后选择下一个动作a。

第5步：更新估计值Q(s, a)：Q(s, a)Q(s, a) TDerr，其中TDerr=r  Q(s, a)Q(s, a)是时间的差异错误，是步长，是一个折扣奖励因素。

第6步：让s  s。

第7步：转到第3步，直到状态s是最终状态。

第8步：重复第2步到第7步至一定数量集。

生态环境

随机行动选择

传感器

输入

模块

TD 单元

图1基于TD学习的增强学习系统

图1显示了基于TD学习的RL的主框架。计算这里的增援会带来一个问题，因为它似乎需要了解所有等候乘客的等候时间。处理这个问题有两种方法。模拟器知道每个乘客等待多久。它可以使用这些信息来确定什么可以称为无所不知的增援。另一种可能性是仅使用在线实际系统可用的信息。这样的在线强化只是假设每个队列中第一位乘客的等待时间已知。如果每个队列的泊松到达率估计为该队列的最后一次按钮间时间的倒数，伽马分布可用于估计后续乘客的到达时间，直到第n次到达时间的伽马分布(n, 1/ )。

由于公交调度系统事件在连续时间内随机发生，因此分支因子实际上是无限的，这使得需要明确预测的算法的使用变得复杂。因此，我们采用了一组离散事件TD学习代理，其中每个代理负责控制一个总线方向。在并行架构中，代理共享一个网络，允许他们互相学习经验，并迫使他们学习相同的策略。在完全分散的架构中，代理商拥有自己的网络，允许他们专门制定控制策略。无论哪种情况，没有任何代理人明确地访问其他代理的行为。必须通过全球强化信号间接学习合作。每个代理面临着增加的随机性和非平稳性，因为它的环境包含其他学习代理。

计算机实现与实验评估

在本节中，为了计算测试公交调度系统描述的有效性和本文提出的强化学习算法的适应性，实现了前面章节讨论的强化学习算法在公交调度问题中的适应性。该算法采用C 编程语言实现，在广州市公交网络上进行测试，包含471条航线和1040个站点。我们选择10条路线进行测试。

下表1描述了通过强化学习算法的实施计算的平均等待时间，平均等待时间，系统时间以及等待超过10分钟的乘客的百分比。如表1所示，最小平均等待时间为4.34分钟，最大平均等待时间为6.12分钟。表1还显示，最小系统时间为193.99分钟，最大系统时间为244.18分钟。数值结果表明，本文提出的公交调度系统的描述和强化学习算法的自适应是有效的。

表1 广州市十条航线的培训结果

剩余内容已隐藏，支付完成后下载完整资料</t

资料编号：[23817]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

路线	平均等待（分钟）	平方等待（分钟）	系统时间（分钟）	百分比gt; 10 分钟（％）
1	5.45	451	200.54	1.12
2	4.34	483	258.62	1.74
3	5.78	445	202.89	0.76
4	6.12	471	224.67	0.89
5	5.26	456

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于强化学习的公交智能调度系统的开发外文翻译资料

引言

信息收集系统

3 公交调度系统的全局描述

4 强化学习算法的适应性

计算机实现与实验评估

您可能感兴趣的文章

登录

注册

找回密码

引言

信息收集系统

3 公交调度系统的全局描述

4 强化学习算法的适应性

计算机实现与实验评估

您可能感兴趣的文章