不同交通条件下地铁客流预测外文翻译资料

 2021-12-05 06:12

不同交通条件下地铁客流预测

摘要

客流预测对于城市轨道交通(地铁)系统的运营、管理、效率和可靠性至关重要。在这里,我们使用中国主要城市深圳的大规模地铁智能卡数据来预测地铁网络中的动态客流。分析了四种经典预测模型:历史平均模型、多层感知器神经网络模型、支持向量回归模型和梯度推进回归树模型。通过使用基于密度的噪声应用空间聚类(DBSCAN)算法,识别每个地铁站的普通和异常交通状况。分析了各预测模型在正常和异常交通条件下的预测精度,以探索不同预测模型的高性能条件(正常交通条件或异常交通条件)。此外,我们还研究了每个预测模型可以提前多长时间准确预测客流。我们的发现强调了选择合适的模型来提高客流预测精度的重要性,并且客流的固有模式对预测精度的影响更加显著。

介绍

公共交通在现代大城市中起着不可或缺的作用。发展公共交通被认为是解决无处不在的交通拥堵问题的最有效途径[1,2]。地铁被认为是城市公共交通的骨干,其特点是速度快、方便、流量大,以[3-7]为特色。尽管许多大城市的地铁服务不断改善,但升级后的供应通常无法满足更快增长的人口流动需求,特别是在发展中国家。与开通新线路或提高列车运行频率相比,智能运营是提高服务水平的更智能、更经济的方式。这就要求对客流进行准确而稳健的预测,以指导更好地利用地铁网络的容量。尽管已经提出了一些客流预测模型,我们还是从两个新的角度重新审视了这个重要问题。

首先,我们分析了不同预测模型在不同客流(交通)条件下的性能。一般来说,交通状况可以分为普通状况,例如典型工作日的早晨通勤,以及异常状况,例如由于大型商业或娱乐活动而导致的特定地铁站的客流突发。此外,拥挤状态下的行驶时间的变化显著大于自由流动状态下的行驶时间的变化[8]。我们使用基于密度的噪声应用空间聚类算法(DBSCAN)来识别每个地铁站的交通状况,并探索不同交通状况下的高性能客流模型。

其次,以前的研究很少探索每种预测模型能提前多长时间很好地预测客流。大多数模型通过输入在一个时间窗口收集的数据来测试,以预测下一个相邻时间窗口的客流。然而,这种类型的输入数据设置在实践中很难实现,因为智能卡数据的收集通常有延迟。此外,对于一些实际应用,例如防止可能导致危险拥挤情况的大规模人群聚集,在实现高密度拥挤之前很长时间预测客流是重要的,因为很难安全和快速地疏散高密度人群。

在下文中,我们简要回顾了现有的交通预测模型,这些模型大致可分为三类:(1)数学分析模型;(2)交通仿真模型;(3)知识发现模型。

早期交通预测模型大多基于数学分析方法。时间序列模型是典型的例子,包括自回归模型、移动平均模型、自回归移动平均模型和自回为整合滑动平均(ARIMA)模型。1927年,尤尔发展了氩模型来研究沃尔夫太阳黑子数[9]的周期。在这种AR模型中,时间序列的曲线通过观测到的历史值的线性组合来拟合。沃克于1931年在AR模型的基础上发展了MA模型[10]。移动平均模型使用历史随机干扰和预测误差的线性组合来获得当前预测值。同年,沃克提出了ARMA模型,将AR模型和MA模型相结合。1970年,Box和Jenkins提出了ARIMA模型[11],该模型在ARMA模型中引入了差分过程(数据值被当前数据值和历史数据值的差异所取代)。

尽管时间序列模型有着悠久的历史,但它在1979年被艾哈迈德和库克首次用于交通研究[12]。他们使用ARIMA模型预测高速公路的交通流量;然而,预测的准确性并不令人满意。在20世纪80年代,斯蒂芬尼和奥库塔尼分别将历史平均模型和卡尔曼滤波模型应用于[明尼阿波利斯街和名古屋市的智能型交通信号机。最近,旺格[15]发展了一种基于随机宏观交通流建模和扩展卡尔曼滤波的高速公路交通状态实时预测的通用方法,李研究了基于区间型模糊集理论的交通流预测。由于高可用性模型受到随机干扰的显著影响,卡尔曼滤波器模型每次都用来调整卡尔曼增益权重,导致计算负担较重。交通状态的时间序列有时表现出明显的周期性变化(季度、月、周等)。因此,威廉和霍尔于2003年开发了季节性ARIMA (SARIMA)模型来捕捉交通状态的周期性变化。他们将SARIMA模型应用于高速公路交通流量的预测,发现它优于高可用性模型。最近,希姆宾斯基金[18]提出了一种新的交通流预测模型,称为拓扑正则化通用向量自回归(TRU-VAR),其性能优于ARIMA模型。此外,雪金[19]提出了将时间序列模型与交互式多模型(IMM)算法相结合的混合模型来预测短期公交乘客需求,优于时间序列模型。梅塔尔[20]使用地理和时间加权回归(GTWR)模型来确定建筑环境对公交乘客的时空影响。

随着计算机在科学研究中的普及,交通仿真模型得到了广泛的应用。2001年,Chroboketal[21]提出了一种基于微型模拟器预测北莱因-威斯特伐利亚高速公路网交通流量的方法。2010年,麦克瑞阿[22]提出了一种新的混合方法,它结合了交通模拟模型和线性系统理论的优点。在他们的模型中,首先使用连续体数学模型来模拟交通动力学,以获得路段的相关交通参数,并将获得的参数用作用于交通流预测的贝叶斯模型的输入。在同样的预测精度要求下,混合方法比贝叶斯网络模型提高了计算效率。

近年来,知识发现方法在交通预测中的应用越来越频繁。代表性方法包括非参数回归分析、人工神经网络、支持向量机、小波分析和梯度增强决策树[23]。1991年,戴维斯和韩妮应用非参数回归预测高速公路的交通流量;然而,预测的准确性低于线性时间序列方法[24]。十二年后,克拉克应用多元非参数回归方法来预测高速公路的交通状况。该方法简单且易于实施,仅需要适度的数据存储,并对交通流量和环路占用率(以环路被车辆覆盖的时间百分比)做出相当准确的短期预测。

人工神经网络诞生于20世纪40年代,并于1993年首次被Vythoulkas引入交通流预测。他使用人工神经网络来预测城市道路网的交通状况。两年后,多尔蒂总结了神经网络在交通研究中的应用。20世纪90年代,交通研究界对神经网络的兴趣激增。已经提出了多种神经网络模型来预测交通状况。代表性的例子包括多层感知器神经网络模型[28],径向基函数神经网络[29,30],谱基人工神经网络[31],延时神经网络[32]和递归神经网络[33]。将神经网络与其他因素相结合的模型例如时间序列[34]、遗传算法[35]、模糊逻辑规则[36]、经验模式分解[37]等也进行了研究。

支持向量机于1995年正式发表,支持向量回归的研究始于1997年[39]。支持向量回归用于行程时间预测[40,41]。五谷[40]验证了在行程时间预测中应用支持向量回归的可行性,在测试数据集中,不同行程的平均相对误差小于5%。Vanajakshietal[41]发现当实测数据较少或实测数据有很大变化时,支持向量回归的性能优于人工神经网络。最近,江[42]将集成经验模式分解与灰色支持向量机相结合,对高铁(HSR)短期客流进行预测,混合模型的平均绝对百分比误差约为6%,优于SVM模型和ARIMA模型。

小波分析发展于20世纪80年代,通常用于将一组原始交通流信号分解成不同时间序列的信号,以反映和区分交通流的内部变化趋势和随机扰动。希塔尔[43]提出了一种基于小波分解和重构结合时间序列模型的交通量预测方法。并且具有不同特征的处理后的信号可以与动态神经网络[44]、支持向量机[45]和其他方法相结合,以预测交通流量。

本研究使用了600多万地铁乘客的智能卡数据和深圳地铁网络的地理信息数据。我们分析了四种经典的预测模型:历史平均模型、多层感知器神经网络模型、支持向量回归模型和梯度增强回归树模型。与以往的研究不同,我们探索了不同交通条件下的高性能模型,并研究了每个预测模型能够提前多长时间准确预测客流。

论文组织如下:第二节描述了本研究中使用的地理信息数据和乘客移动性数据。第三节介绍了客流预测模型和算法,用于对客流交通状况进行分类。第四节对不同模型的客流预测结果进行分析和讨论,识别不同交通条件和不同模型实施条件下的高性能模型(客流预测提前多长时间)。第五部分总结了研究结果,并讨论了未来的研究方向。

材料和方法

数据

深圳地铁乘客的地理信息系统数据和智能卡数据均由深圳市交通局提供。数据收集于2014年进行;智能卡数据的收集时间为2014年10月1日至2014年12月31日。2014年,地铁网络由118个地铁站组成。由于缺少新站点的智能卡数据,2014年后开通的站点未被考虑。一旦地铁乘客在进入或存在地铁站时使用他/她的智能卡,时间、卡标识和地铁站标识被记录下来。在三个月的数据收集期间,共生成了2.62亿条乘客记录。有几天,数据丢失了几个小时或一整天,因此,本研究仅使用记录完整的天数(总共80天)。

三个月的观察期分为7680个时间窗,每个时间窗持续15分钟。考虑到深圳地铁的运营周期,每天的数据采集时间为上午7:00至晚上10:30,因此每天只有62个时间窗口用于实测数据和测试数据。不考虑从晚上10:30到早上7:00的时间窗口,因为在深夜期间几乎没有智能卡数据可用。我们计算了在每个时间窗t期间进入地铁站的乘客数量,乘客流入年(s,t),以及在每个时间窗t期间离开地铁站的乘客数量,乘客流出年(s,t)(图1A和1B)。在研究的地铁网络中观察到客流的不均匀分布(图2A和2B)。乘客流量可以通过大和小两种不同的拟合函数来近似(绘制灰色虚线以引导研究):

fit1:当Nin(s,t)小于等于150人P (Nin(s,t)) = 0.017 (Nin(s,t))-0.304

fit2: 当Nin(s,t)超过150人时P(Nin(s,t))= 0.009 exp(0.006 Nin(s,t)).

对于大的和小的客流,也可以用两种不同的拟合函数来近似(绘制灰色虚线来引导研究):

fit3: 当 Nout(s,t)小于等于150人P(Nout(s,t)) = 0.017 (Nout(s,t))-0.384

fit4:当Nout(s,t) gt; 150人时,P(Nout(s,t))= 0.005 exp(0.004 Nout(s,t))。

大约58.47%的乘客流入年(s,t)和50%的乘客流出年(s,t)小于200乘客/15分钟;对于一些车站,客流超过1000人/15分钟。在接下来的章节中,测量的进客流年(s,t)和出客流年(s,t)被用作地面实况数据来训练客流预测模型并验证预测结果。

用过的地铁智能卡数据被分成两部分。数据的第一部分记录了2014年10月和11月期间产生的地铁乘客出行,用作实测数据集。数据的第二部分记录了2014年12月期间产生的地铁乘客出行,用作测试数据集,实测数据集用D= {(x1,y1),(x2,y2)...(xn,yn)}表示,其中xnRd代表实测数据的输入特征,而ynRl代表实测数据的输出结果。样本大小等于59,因为实测数据集中有59天的智能卡数据。数据尺寸和数据分别表示模型中使用的输入和输出特征的数量。

预测模型

当在时间窗目标期间预测地铁站的客流时,地铁站称为目标站,时间窗目标称为目标时间窗。我们评估了四种预测模型在不同模型实现条件下的性能;在目标之前,在不同数量nstep的时间窗口中进行预测nstep =1,2...7、8个。这里,我们简要介绍本研究中使用的四种预测模型的有利和不利特征。HA模型在实践中易于实现,但是在意外的流量条件下性能很差。研究中使用的多层感知器(MLP)神经网络是使用反向传播来训练的。总的来说,MLP模型在捕捉复杂和非线性关系方面工作良好;然而,它通常需要大量数据和复杂的实测程序。对于所采用的SVR模型,使用线性核函数来预测客流;然而,最佳核函数的选择是科学界尚未解决的问题。最后,GBRT模型使用损失函数的负梯度作为残差的估计。总的来说,GBRT模型在探索复杂和非线性关系方面也很有效;然而,它不能与训练数据相提并论。

在生成的高可用性模型中,训练数据集中所有日期的目标时间窗口目标期间的平均客流量(或平均客流量)被用作测试数据集中所有日期的目标时间窗口中的预测结果。显然,HA模型无法捕捉客流的随机扰动,因此具有最差的预测精度,可作为与其他三种模型进行比较的基准模型。对于MLP模型、支持向量回归模型和GBRT模型,实测数据集中所有天数的时间窗内的客流Nin(s,t)被用作输入,实测数据集中所有天数的目标时间窗内的客流Nin(s,t)被用作输出,以适应预测模型;目标时间窗口目标之前的nstep时间窗口。在测试数据集的给定日期,乘客流量Nin(s,t)被用作预测Nin(s,t)的输入,其中在目标时间窗口t目标之前设置时间窗口。参数nstep决定提前多久进行预测。类似地,生成模型是为了预测目标。生成MLP模型、支持向量回归模型和GBRT模型的方法将在以下小节中简要描述。请参考文献[46–49]了解这些型号的更多详细信息。

实测数据集= {(x1,y1),(x2,y2),...(xn,yn)}、xnRd、ynRl用于MLP模型、奇异值分解模型和GBRT模型。参数和数据分别表示x和y的尺寸。本文选择参数d=1,l=1,因为只有车站本身的客流被用作预测车站客流的模型输入。D参数表示样本大小(即实测数据集

英语原文共 24 页

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。