共享单车系统紧急情况的预测外文翻译资料

 2022-06-12 08:06

英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料


共享单车系统紧急情况的预测

作者:Luca Cagliero1 · Tania Cerquitelli1 · Silvia Chiusano1 ·Paolo Garza1 · Xin Xiao1

摘 要

共享单车系统是具有环保性的交通系统,在智能城市环境中广泛应用。监控和分析系统站点的占有率对于保证提供服务的质量起着至关重要的作用。先进的数据挖掘解决方案适合于共享单车,需要进行数据分析以支持系统管理人员对那些可能造成服务中断的紧急情况作出反应(例如车站没有车)。本文提出站点占用预测器(STOP),一种通过贝叶斯和关联分类器去预测不久将来站台占用水平的数据挖掘框架。这种预测方法是基于当前和过去站点占用值和与预测时刻有关的时间信息。基于在每一个站点收集到的数据建立一个分类模型来帮助专家了解潜在的东西。该模型允许预测短期的站点占用水平和评估系统使用情况来支持中期的计划维护活动。作为案例研究,STOP已经基于从纽约共享单车系统得到的真实数据进行了全面的评估。结果证实了STOP系统的有效性。

关键词:城市数据挖掘,分类,共享单车系统

  1. 绪论

城市计算是一个新兴的跨学科领域,它研究如何获取,整合和分析城市空间多种来源产生的复合数据。在城市地区,共享单车系统正在变成越来越受欢迎的交通系统。它们允许市民在任何一个配备有固定数量插槽的站点租借自行车,并将他们退还到任何一个有空闲插槽的站点。使用这些系统的好处有:1.保护环境,因为自行车是环保的交通方式,它保护了城市的空气质量;2.避免交通拥堵,因为需要短途旅行的人可以避免使用汽车或其他车辆;3.有助于人们的健康,因为骑自行车是保持或提高身体素质的好方法。这是一项重大的研究工作致力于优化共享单车系统提供的服务。在共享单车系统中,要监控的关键性能指标是每个车站占用的插槽数量,这与停放自行车数量相对应。监控车站占用水平可以突出显示可能会导致服务中断的危急情况。在本文中,我们着重于预测和描述车站占用率相对较低的紧急情况,即缺乏停放自行车的情况。这些情况是令人不愉快的,因为用户很可能在车站没有自行车可以租用,因此它们必须去另一个车站。所以,这种服务中断可能阻碍市民使用共享单车。

本文提出了STATION Occupancy Predictor(STOP),一种新的数据挖掘系统,旨在分析共享单车系统的车站占用率水平并预测危急占用水平。对于每个车站,STOP都以给定的采样率获取占用的插槽数。然后通过分类技术分析历史数据,以建立旨在在给定时间点,预测在未来某个时间点车站的占用水平(即紧急或非紧急)的模型(即在时间,其中y是有限的时间范围)。预测的占用水平将利用来帮助专家制定短中期的适当决定和规划维护活动。

例如:通过STOP系统分析当天凌晨和前一个月的不同时间点中占用的插槽数,在早上提前预测危急情况。这种预测可以让系统管理员提前发现这种危急情况,从而防止服务中断。例如,系统管理人员可以规划车站自行车的重新平衡或调整系统中可用自行车总数。

由于所获得的测量结果在时间上彼此相关,STOP系统利用时间信息丰富所收集的数据,该时间信息处于与执行预测的时刻相关的不同的颗粒度级别。

例如:回顾前面的例子,事实是在高级数据分析过程中值得考虑的是预测执行时间在早上,因为在特定时间段或时间段内可能会更频繁地发生危急情况。这些信息对于专家的针对性的维护行动的计划也很有意义。例如,可以在工作日的每天早上安排自行车重新平衡或者是在周末下午。为了实现占用水平的预测,STOP系统集成了两种最先进的分类算法:1.贝叶斯分类器,即AODEsr分类器;2.一个关联分类器,即Live和Let Live(L3)分类器。AODEsr分类器是一种基于统计学的算法,针对每个候选占用水平,基于历史数据的条件后验概率。因此,这种分类器可以预测在短期内是否会出现严重的占用水平,如果是,它会输出事件发生的概率。L3分类器是一个关联分类器,它依赖于关联规则。为分类目的值得考虑的关联规则(以下称为分类规则)是影响前后关系----类标签,前后关系是占用值或时间特征值的组合,而类别标签是在即将到来的时刻中预测的占用水平(紧急或非紧急)。L3分类器由最有趣的分类规则的子集组成的容易解释的模型。因此,基于规则的模型也可以和产出预测一起进行探索。首先根据既定的质量措施选择规则,然后他们可以用来(i)预测短期车站占用水平;(ii)描述了中期危急情况的时间分布。短期预测使管理人员能够及时对某些车站糟糕占用水平作出反应,但中期数据特征描述允许他们根据最常发生紧急情况的时间段或时间段优化维护工作的时间安排。

例如:规则(时间段,从上午10点到11点)→(类别,紧急)可以从历史数据中提取。在短期内,这个规则可以被L3分类器利用来识别在特定时段的车站内发生的紧急占用水平。另一方面,即使该规则不用于短期占用预测,专家也可以在中期数据表征过程中考虑它。例如,系统管理员可以针对特定站点安排定期的重新平衡操作,对重大紧急事件出现的研究有重大意义。

作为案例研究,我们分析了从纽约市共享单车系统获得的数据。结果表明:(i)贝叶斯AODEsr分类器在预测准确性和F1分数方面表现最佳,而贝叶斯分类器并非针对大量经过测试的分类算法;(ii)L3分类器产生了高质量的规则,这对于表征危急情况的时间分布很有价值。此外,其在占用水平预测方面的表现非常好。与以前的方法不同,它所提出的框架将预测模型的准确性与关联分类器的可解释性结合起来。

本文组织如下:第2节和第3节介绍了STOP系统,并且讨论了现实城市环境下的系统开发,第4节用实验数据评估STOP系统性能,第5节将我们的方法与相关的方法进行了比较,第6节得出结论并提出改进。

  1. 站点占用预测器(STOP)

共享单车系统是由遍布整个城市的车站构成的。骑自行车的人可以在任何一个车站租自行车,然后归还到任何有空闲位置的车站。因此,为了保证服务的质量,系统管理员还要不断检测每个站点占用的插槽数量。

站点占用预测器(STOP)是一种新的数据挖掘框架,旨在分析共享单车系统站点的占用率水平并预测危急情况。主要的体系结构块,如图1所示:1. 数据收集和准备,其中每个站在不同的采样时刻获取被占用的插槽的数量,把收集到数据存储库中,并准备下一个数据挖掘步骤;2. 数据建模,其中获得的测量值被标记为紧急或非紧急,并且生成包括占用值和时间信息的训练数据集;3. 站点占用预测,从训练数据中生成每个车站的分类模型,然后应用于预测不久将来的站点占用水平(紧急或非紧急)。下面给出每个版块的更详细的描述。

图1 STation占用预测器架构

2.1数据收集和准备

车站占用率测量是以给定的采样率在共享单车系统中的所有车站采集的,然后储存到唯一的数据存储库中。

设S是自行车共享系统中的一组站, 是车站的容量(即可用槽的总数)。对于每个车站,STOP框架考虑以下两个数据特征:(i)在时间戳处占用的插槽数量,其对应于给定时刻停放的自行车的数量并且表明该站的使用水平;(ii)获取时间点(日期和时间)的占用率测量值。

被占用的插槽数量是一个值得关注的特征,因为较低的值意味着车站缺乏停放的自行车,因此可能会造成服务中断。例如,计划从几乎空荡的车站出发的骑自行车的人在抵达时可能找不到免费的自行车出租。这些问题可以通过安排有针对性的维护行动来解决。例如,自行车可以在车站之间重新平衡。

时间点值得考虑去预测潜在的危急情况,因为每个台站占用的插槽数量可能会暂时相互关联。

在监视占用的插槽数量的同时,可能会漏掉一些数据。为了解决这个问题,已经提出了各种方法,用可靠的估计来替换缺失的数据值(例如,平均值,模型)。STOP系统将采集数据中出现的缺失值替换为所有采样时刻的平均测量读数。

2.2数据建模

在此阶段,站点占用预测器框架将数据准备到下一个分类过程。每个采样的测量结果都标有一个类别标签(紧急或非紧急)。接下来,应用加窗技术以根据对应的时间点来采样所获取的测量结果。然后,车站占用测量值被转换成相关数据表示,以支持随后的分类阶段。

2.2.1占用分类临界

根据(分析师提供的)占用阈值thr,将在给定时刻获得的车站占用率分类为相应的占用率级别(紧急或非紧急)。更具体地说,每个工作站占用的插槽数可以标记如下:1.紧急,如果一个车站的占用插槽百分比低于给定的(分析员提供的)占用阈值thr;2.非紧急,如果被占用的插槽的百分比等于或高于给定的(分析员提供的)占用阈值thr。在共享单车系统中,每个车站的紧急占用等级(即缺少自行车)可能表明系统使用不理想,这可以通过规划目标维护行为或通过增加系统中的自行车数量来解决。

2.2.2数据窗口

STOP框架针对共享单车系统中每个车站的未来占用级别(紧急或非紧急)进行预测。

让我们考虑系统中的一个站我们将预测时间定义为STOP系统中车站预测在随后的时刻的占用水平(紧急或非紧急)的时刻,预测范围定义为时间间隔。

每个车站占用的插槽数量可能会暂时相互关联,因此,对于每个站和预测时间,我们不仅考虑当前被占用的插槽数量,而且还考虑在先前时刻获取的占用数据。这个过程允许考虑占用插槽数量的时间演变,同时预测一个车站的未来占用水平。更正式地说,给定一个站和一个预测时间,我们定义一个时间窗,其中包括一个WL时间戳的有序序列。该序列包括在之前的预测时间和WL-1个时间戳,即,,...,。对于窗口中的每个时间戳,考虑车站占用率的测量值。为简单起见,以下我们将假设一致地采样时间窗口,即是采样间隔是固定的。

采用的窗口方法需要定义下面列出的两个参数。(i)确定学习时间段宽度的时间窗口大小(WL)。通常,中等窗口尺寸是优选的。一方面,太小的窗口可能会影响预测的质量,因为只考虑最近的占用率测量。另一方面,太大的窗口也可能包括过去的采样时刻,这与预测时间几乎不相关。(ii)预测范围(gamma;),其定义为采样时间窗与必须预测车站占用等级的时刻之间的时间距离。小/中gamma;值是优选的。事实上,考虑到大的gamma;值使得预测任务更加复杂,因为未来的占用值与过去的占用值不太可能相关。

2.2.3数据丰富

车站占用水平(紧急和非紧急)可能与各种因素有关,如这天的类别(假日或工作日),星期几和每日几点。为了在占用水平预测和表征期间考虑不同粒度级的时间信息,在STOP系统中,执行预测的时刻利用表征其时间前后的附加信息来丰富。

创建一个时间层次结构来将时间和日期信息聚合到更高级别的概念中。时间被推广为1小时间隔,2小时间隔和4小时间隔。 4小时间隔将每日时段划分为上午(上午4-8点,上午8-12点),下午(上午12点至下午4点),(下午4点,下午8点))和晚上((晚上8-12点),(晚上12点至凌晨4点))。2小时和1小时是将每个4小时时间进一步划分到更短的时间段。日期被概括为一周中的相应日子以及工作日或节日。节日包括周末和最重要的节日(例如圣诞节,复活节,元旦)。

2.2.4数据表示

该阶段将车站占用数据转换为适合后续数据分析的格式. 为了达到这个目的,对于系统的每个车站,车站的占用率测量和时间信息在2.2.1,2.2.2和2.2.3节中给出,这3节被建模为关系数据集.

关系数据集是一组记录。记录是一组数组,其中一对(attribute_name,value)。虽然attribute_name是特定数据特征的描述,但value是收集的信息。在我们的文章中,每个记录对应于系统中站的不同预测时间戳。记录结构如下。

定义1(关系站记录)令为任意台,为给定的预测时间戳,设为车站和时间戳的大小WL的时间窗口,假设,,...,是W中有序的时间戳序列,与预测时间戳相对应的记录由以下属性表征:

------预测时间戳

------描述在时间窗口的不同采样时刻处的车站占用的属性,即在时间戳,,...,的插槽占用数量

------类别,它表示在不久的将来,即在时间戳的站的占用类别(紧急/非紧急)。

------描述时间戳处的时间前后的属性,即每小时,2小时和4小时间隔,一周中的一天,日类别(节日,工作日)

让我们考虑与车站的预测时间戳相对应的示例记录。通过考虑长度为WL= 2的窗口大小,记录存储在预测时间和前一个时间戳获取的测量结果。这些值被存储在被占用的时隙和被占用的时隙数量的属性数量中。class属性表示在时间戳的未来占用类别(紧急/非紧急)。剩余的记录属性描述的时间前后。例如,相应的数组(属性,值)是(1小时间隔,[4,5 pm)),(2小时间隔,[4,6 pm)),(4小时间隔,[4,8 pm)),(星期几,星期一),(日期类别,工作日)。

出于分类目的,当类别属性的值已知时,车站记录是训练记录。相反,任何在即将到来的时刻车站占有率水平未知的新车站记录都称为测试记录。表示车站的车站占用的历史测量的训练记录的子集称为训练数据集。

定义2(关系训练数据集)与站相关的关系训练数据集是所有考虑在内的预测时间对应于站的所有训练记录的集合。

2.3车站占用预测

这一步有两个目的:(1)训练阶段。对于每个车站,通过对车站占用的历史测量的集合应用分类算法来生成分类模型。(2)预测阶段。通过应用分类模型来预测每个站的将来的占用水平(即,类别属性的紧急或非紧急标签)。训练阶段应用于训练数据集中收集的所有训练记录(参见定义2)。相反,预测阶段适用于所有新记录,称为测试记录,车站占用率未知。为了生成分类模型,文章中可以使用许多不同的技术(例如贝叶斯分类器[16],关联分类器[2],支持向量机[3],决策树[17])。为了实现占用水平预测,STOP系统可以直接整合许多分类算法。为了选择最合适的分类算法,我们考虑了以下两个相互补充方面:(i)分类

全文共19047字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[11101],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。