[6085]使用生存模型来估计公交行程时间和相关的不确定性外文翻译资料

 2021-12-08 10:12

英语原文共 17 页

使用生存模型来估计公交行程时间和相关的不确定性

关键词:公交车行程时间预测;加速失效时间生存模型;公交车行程时间可靠性;实时交通信息系统

摘要

交通机构通常提供旅行者到接下来到达的站点的行程时间的点估计,来提高公共交通系统的感知可靠性。预测模型能够估计点估计和与这些估计相对应的不确定性(比如行程时间差异),也许能够通过调和用户的期望来帮助未来提高预测的真实性。在这篇文章中,提出了加速失效时间生存模型来提供这种实时预测。使用宾夕法尼亚州立大学 - 大学公园校区的公共汽车路线的数据,用预设的生存模型和传统的线性回归框架作比较,用以估计公交车行程时间。总的来说,这两种方法的点估计的准确性,分别使用均方根误差(RMSE)和平均绝对误差(MAEs),得到了类似的结果。这说明两个模型均能很好地预测行程时间。然而,生存模型被发现在描述与预测相关的不确定性上更为准确。此外,生存模型估计被发现它的估计的平均不确定性较小,特别是当预测的行程时间很短时。随着时间的流逝,对可移动性的测试显示,模型并没有过度拟合数据群,并使用历史数据验证了已经建立的预测模型。总而言之,生存模型预测方法看上去是一个更有希望的用以预测期望的公交行程时间和与这些行程时间相对应的不确定性。

1.介绍和背景

旅行时间可靠性是公交服务质量的关键指标,对交通乘客的影响很大((Paine等,1967; Golob等, 1972; Prashker, 1979)。过往的研究显示,行程时间可靠性也许比交通乘客自身的行程时间具有更高的价值(Bates等, 2001; Brownstone and Small, 2005)。此外,关于不可靠的交通服务的不良体验使用户不再继续使用公共交通(Carrel等, 2013)。所以,保持行程时间可靠性对提高交通竞争力是非常重要的。

不幸的是,交通机构在保持稳定的行程时间方面曾经有过一段困难的时期,因为公共汽车运输系统本质上不稳定。导致这种不稳定性的机制是乘客到达和服务过程,公交车站在当前和前一班巴士到达该站时,服务乘客的时间通常会有所增加。为此,一个巴士晚于预测时间到达将花费更多的时间服务乘客,导致该车将更晚到达下一站点。对于早到达的巴士来说,情况恰恰相反。这积极的反馈循环使得公交车线最终配对成线。各种各样的控制策略被提出来抵抗这种不稳定性。这些包括了直接预防具束的操作策略(Daganzo, 2009; Delgado et al.,

2009, 2012; Xuan等, 2011; Bartholdi and Eisenstein, 2012),以及个别交叉口的更优的交通方式(Stevanovic等, 2008; Xuan等, 2009, 2012; Christofa and Skabardonis, 2011; Guler and Menendez,2014; He等, 2014; Ma等, 2014; Ahmed and Hawas, 2015),或者沿着走廊(Viegas and Lu, 2001, 2004; Eichler and Daganzo, 2006; Viegas等, 2007; Guler and Cassidy, 2012; Guler等, 2016)。

交通机构也强调,公共交通稳定性需要对实时巴士操作情况的高质量信息的要求。从用户的角度来看,这有助于提高总线系统的感知可靠性。这类信息,通常被包含在使用自动车辆定位(AVL)和自动乘客技术系统(APC)中,给交通使用者提供最新的实时交通操作情况的一个快照。一些服务也会提供基于AVL和APC数据得到的实时车辆到达时间预测。有关示例,请参见图1。这一类型的实时交通信息已经被验证能提高感知可靠性和上下车乘客量(Ettema and Timmermans, 2006; Watkins等, 2011; Tang and Thakuriah, 2012)。

各种各样的方法已经被用来提高公交车行程时间估计。理论排队模型已被用于描述经过连续车站的公交车行程(Vuchic, 2007)。这种方法已经被用来学习公交车交通系统的稳定性((Islam等, 2015)和汽车行程时间(Helbing, 2003)。这些排队模型具有深刻的洞察力,建立在强大的理论假设之上,通常需要无法实时获得的信息,这让其在实际生活中应用和预测变得困难。相反,这篇文章主要研究点在应用于经验数据的统计方法,它易于重现,并且需要最少的建模假设。

总的来说,对巴士行程时间的实证研究可以分类为三组:基于速度建立的模型(Sun t等, 2007; Chen等, 2011),经典回归模型(Frechette and Khan, 1998; Patnaik et al., 2004),和人工神经网络(ANN)模型(Chien等, 2002; Chen等, 2007)。基于速度建立的模型把公交车线路分成不同部分,并且针对不同部分单独估计平均速度,根据各个部分的车辆位置的历史数据和实时速度数据:当车辆行驶在这一部分的开始部分时,历史速度数据获得更大的权重,反之亦然。卡尔曼滤波器通常被用于在实时和历史信息之间提供适当的权重。经典回归模型在行程时间和相关的因素间构建了清晰的关系。然而,选择独立变量和为模型中的变量找到合适的变换通常很困难。过去的研究创建的回归模型使用平均流量,平均交通公交车流量,重型车辆的比例,行程距离,平均停留时间,站点数量,以及每天的时间段作为单独的变量,来做出比较正确的预测。线性回归模型似乎是最集中使用的方法,用以估计估计文献中的公交车行程时间。最终,人工神经网络是一个强大的工具,用于建模的输入和输出之间关系不明确的复杂问题(也就是说,没有明确的理论规定独立变量和因变量之间的关系应该如何相关)。一些使用动态算法的ANN模型被发展起来,并且被用来对公交车行程时间预测进行测试。尽管ANN模型比线性模型在文献预测能力方面表现得更好(Jeong and Rilett, 2004; Yu等, 2011),但是ANN模型的模型形式使它难以估计和解释。

不幸的是,过去的实证研究一般都使用非常小的样本(Chen等, 2011,使用样本时间为一个月;Frechette and Khan, 1998,使用时间为45小时;Sun等, 2007,使用时间为两周),这限制了模型对未来目标的可适用性。此外,这些现有的经验方法通常仅提供关于预期公交车行驶时间的点估计(如图1所示),没有任何与预测相关的变量的暗示。然而,连续行驶的公交车行程时间也许会因为不同的因素变化很大,比如交叉口交通控制,中间站的乘客需求,以及其他模型的干扰(Mazloumi等, 2009)。依赖于对公交车行程时间进行点估计的使用者能等待更长的时间(对于相对于预测迟到的公交车),或者完全错过公共汽车(对于相对于预测更早到达的公交车),两种情况都会产生对公交车交通系统的不好的使用体验。提供与预测相关的不确定性的指示可以帮助减轻这些负面结果并提高这些估计的感知可靠性。这可以变得很简单,比如预示行程时间估计有多少可靠性(比如非常可靠或者不是非常可靠),或者是具体的东西比如提供行程时间估计的下限和上限(即置信区间)。

鉴于这些已确定的文献和当前实践中的差距,这篇文章的目的是建立一个模型框架,使其能够同时估计期望公交车行程时间的时候,能够提供与预测相关的不确定性的提示。拟设计的使用生存模型的框架,在交通中被广泛使用,用以描述时间的分布情况,直到事件的发生。先前应用的例子包括:基础设施服务时间估计(Guler and Madanat, 2011),城市交通拥堵持续时间建模(Stathopoulos and Karlaftis, 2002),事故持续时间建模(Chung, 2010),城市行程时间分析(Anastasopoulos等, 2012),选择汽车共享车辆(Jian等, 2015),住房搜索(Rashidi等, 2012),以及乘客行程时间(Moylan and Rashidi,2016)。在这篇研究中,被用于建模的事件是当公交车到达下游站点。生存模型尤其适合于同时估计行程时间和相关的不确定性,因为他们假设误差项是从作为预测变量函数的分布中得出的。生存模型计算结果和传统线性模型的估计结果进行比较,因为后者是一个各普遍使用和简单的用来预测公交车行程时间的方法,并且很容易由运输部门重现。

生存模型和线性模型结构都被应用在从宾夕法尼亚州立大学的交通机构获得的数据中。该数据集代表了大量的实时数据样本,这些数据通过AVL和APC系统等新技术越来越多地向运输机构提供。结果的比较发现,线性和生存模型在期待公交车行程时间估计方面表现相近,即,他们在预测公交车行程时间方面表现都一样好。然而,生存模型的错误方面的增加的流动性使它比同时使用线性回归模型提供了更加准确的量化的不确定性。此外,从生存模型获得的不确定性往往比使用线性回归预测的更小。这些结果说明,生存模型可以被用来提供给乘客更高质量的公交车行程时间信息,这能有助于进一步提高公共交通的可靠性。

本文的其余部分安排如下。第二部分描述用于开发的行程时间模型数据,以及如何对数据进行筛选和处理。第三部分描述用来开发行程时间模型的方法建模框架,包括生存模型和线性回归模型。第四部分阐述了所有的估计结果。第五部分比较了生存模型和线性模型的变现,并且讨论了可转让性问题。最后,第六部分是一些结论和评价。

2.数据

2.1 数据来源

本文使用的数据来自一条4.1英里的环形公交线路 - 称为蓝环,为宾夕法尼亚州立大学的宾夕法尼亚州立大学(PSU)主校区提供服务。 蓝环连接大学宿舍,指导大厅,公共汽车转运中心,学生通勤停车场和州立学院市中心;见图2。这个路线在工作日的早上四点四十五到中午十二点半,和周末的早上九点到周末十二点运行。然而,在本研究中仅使用了从上午8点到下午7点的工作日数据。所选择的时间跨度涵盖了蓝圈服务的最繁忙的时期,此时需求最高,系统最不稳定。周末数据是没有包括进来的,因为周末行程需求模式明显不同,且大多数周末经历明显低于出行需求。蓝圈使用基于车头时距的车辆运行,定期派遣公共汽车并尝试保持正常的车头时距。在研究时段运行的两到四辆公交车,其预定的车头时距为5至10分钟。我们采用了一种简单的控制策略,即在约旦东停车场6号车站举行早期公交车,以帮助维持预定的车头时距。

蓝环的所有公交车都装备有APC系统追踪每个站点登机和下车的人数,以及当前的乘客占用情况。除此之外,AVL系统也被用来追踪地点和车辆的变动。这条路上的站点被定义为在公共汽车站区域周围使用地理编码的“停车区”。当一个公交车进入了(一个“驶入”调动)和出去(一个“驶出”调动)到停车区。一个单独的停车报告自动生成,并被记录在数据库里。这些数据由中心区域运输管理局(CATA)收集和存档,以评估运营绩效和运输服务质量。为了这个研究,CATA提供了2013年八月至2014年十二月这段时间所有蓝圈公交车的APC和AVL数据(特别是在宾夕法尼亚州立大学学期2013年的秋天,2014年的春天,和2014年的秋天)。该数据集附有从宾夕法尼亚州气候学家获得的历史天气信息(宾夕法尼亚州气候学家,2015年)和国家气候数据中心(国家海洋和大气管理局,2015年)去研究天气对行程时间带来的影响。在表1中提供本文中使用的变量的描述。

蓝圈是是州立学院最繁忙的巴士路线之一,也是一个理想的案例研究,用于模拟由于各种因素导致运行不稳定的行程时间不确定性。首先,高的公交车到达频率和校园设置导致需求量大,因此,停留每个站点的时间都在变化。这归根于被大学课程表驱使的需求,这造成了明显的全天频繁的需求变化。这个路线还混合了交叉口控制策略,停车标志和交通信号,这导致在交叉路口路段的无法预测的等待时间。最后,最行人活动量大和行人过街量大的地方导致沿途的几个地点频繁出现公交车延误。所以,与其他路线相比,蓝圈提供了一个最差的情况,导致整体预测能力差。在这篇文章中研究出的方法当应用于需求模式变化较小的非校园路线时可能会提供更精确的预测,更一致的交叉口控制和更少的公交车和行人的交互。

2.2 数据库分析和数据问题

这篇文章的目的是预测公交车到达时间和未来相关的不确定性(下游)站点鉴于也许能够获得的实时信息。理想情况下,应建立沿路线所有停靠站之间的行程时间的模型,每个观察都包括了公交车操作情况、天气数据,这些应当被认为是实时可用的信息(独立的变量),以及“当前站点”到下游任何站点之间的行程时间应该从存档数据计算并用作因变量。

然而,特定数据集中的错误排除了这一点。这最基础的错误包括了在蓝圈中行程时间是怎样计算的。正如在这个数据来源部分所提到,在这个数据中的每一个观察都是为在某一个特殊站点“驶入”和“驶出”而创立。这个观察包括了“驶入”时间和停留时间,这等同于驶入和驶出之间的时间差异。在很多情况下,停止区实际上是重叠的,特别是当相邻的站点靠近时(比如站点3-5,14-15,见图2)。因此一辆公共汽车在技术上“驶出”另一辆公共汽车之前已经“驶入”一站。这会产生沿蓝环的相邻停靠站之间不切实际的负面行程时间。

因为这篇文章的主要目的是比较具有生存模型的线性模型以模拟公交车的行程时间,一个单独的站对被选用作模型的调整:站点9(尼塔尼社区中心)到站点15(沃克大厦)。这个特别的1.2公里的部分避免了停靠点6处的持有位置,使其足够长以能消除负的行程时间问题。它也代表了线路混合使用交通控制设备的最复杂的部分(停止标志和交通信号灯),以及大量的人性横道。在接下来大多数的分析中,只使用了在站点9的观察,站点9至站点15的公交车行程时间也被考虑作分析的单独变量。第5.3节讨论了对不同站点对进行建模的扩展。

当模拟这个站点对之间的行程时间时,下列独立变量带入考虑:

车头时差:之前的研究表明,延误的公交车将比早到的公交车或者可能甚至更晚到达的公交车服务更多的乘客(Newell and Potts, 1964)。因此,具有正偏差值(代表延误的公交车)的公交车预计拥有更高的行驶时间。

预定的车头时距:蓝圈存在五个预定的时距

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。