利用GPS数据来检测交通方式和活动集中的先进估算算法外文翻译资料

 2022-08-25 21:14:26

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


附录B 译 文

利用GPS数据来检测交通方式和活动集中的先进估算算法

1. 简介

全球定位系统(GPS)技术在采用GPS功能的智能手机和GPS独立装置的采集活动旅行数据的应用近年来呈指数级增长。 Rasouli和Timmermans(2014年)记录了来自世界各地最近研究的投资组合。虽然大多数应用程序都关心收集一天或两天的活动旅行数据,但是其他一些项目的目标更加雄心勃勃,因为数据已连续数周收集(Moiseeva,Jessuren和Timmermans 2010)或上下文的国家旅游调查(Marchal和Pham 2013; Feng和Timmermans 2013b)。鉴于对GPS技术应用的巨大兴趣,对于运输模式和活动发作检测的插补算法的相对性能,人们知之甚少。光标中已经报道了不同程度的准确度,但是这些数字难以比较,因为空间设置与GPS信息的辨别力有着直接的关系。高密度,拥挤的城市高层建筑物的痕迹,相对于农村,不成熟地区的痕迹,更有可能存在错误。同样,在拥挤的城市地区,不同交通方式的速度和加速度差异也会更小。因此,在这些城市环境中,检测活动 - 旅游模式是非常困难的。虽然提示召回调查已被用于验证估算的活动 - 旅行数据,但这些调查涉及额外的努力,也有可能导致人为错误(Bonsall等,2011; Feng和Timmermans,2013a)。因此,改进GPS数据估算算法是非常必要的,并检查其相对性能。

GPS数据插补的主要目的是检测运输模式和/或活动情节。在文献中提出了不同的程序来识别活动 - 旅行模式。一种常见的方法是以分离的步骤检测活动和旅行。首先,检测到行程结束,将完整序列划分成段,然后推断每个行程段的运输模式(Stopher和Wargelin 2010)。停留时间通常用于识别跳闸端。该顺序过程涉及检测跳闸端的任何错误可能传播到模式检测过程的风险。作为替代方案,人们可​​以同时检测运输模式和活动情况。活动情节与旅行事件有不同的模式,因为活动发作的特征是接近零速度(Schouml;nfelderet al。2005; Tsui and Shalaby 2006)或束的GPS点(郑和谢2008)。本文比较的方法同时检测运输方式和活动情况。文献报道的插补算法随着非正式的特殊方法(Wolf,Guensler,Bachman,2001; Chung和Shalaby 2005; Du and Aultman-Hall 2007),先进的机器学习方法,如神经网络,模糊逻辑回归,支持向量机(SVM)和贝叶斯信念网络(Byon,Abdulhai和Shalaby 2009; Schuessler和Axhausen 2009; Moiseeva,Jessuren和Tim-mermans 2010; Rudloff和Ray 2010; Byon和Liang 2014)。所谓的基于特征规则的方法通常涉及基于一些显露的模式或相关性的顺序过程,这些方法是从具体数据经验提取的。这些方法的一个常见问题涉及到什么程度的问题从一个案例获得的规则可以推广到另一个案例。 设计规则可能会随着问题的维度及其复杂性的增加而成为一个问题。 该制度对任何新的规则都可能变得非常敏感。 此外,不能保证采用最优规则,而规则可能不是排他性的和详尽的(Bohte和Maat 2009)。 作为一种替代方案,机器学习算法在处理这些复杂问题方面潜在地更加灵活。 一些学习算法可以很好地表示输入和输出变量之间的复杂的非线性关系(Mehri 2013)。

在GPS数据插补研究中已经应用或讨论了几种代表性的机器学习算法,包括神经网络(Gonzalez et al。2008),BN(Moiseeva,Jessuren和Timmermans 2010; Feng和Timmermans,2013b),模糊Logis回归(LR)(Tsui和Shalaby 2006; Schuessler和Axhausen 2009)和决策表(DT)(Zheng and Xie 2008)。 Byon,Abdulhai和Shalaby(2007)采用神经网络模型,使用速度,加速度,2d坐标(HDOP)的平均水平精度和平均卫星数等变量来检测四种类型的运输模式。 Gonzalez等人(2008)开发了基于神经网络的移动应用。使用具有反向传播算法的多层感知器模型来区分汽车,公共汽车和步行。

其他研究人员使用模糊逻辑算法进行运输模式检测。 Tsui和Shalaby(2006)应用了仅使用GPS和GPS与地理信息系统数据的组合的模糊逻辑模型。同样,Schuessler和Axhausen(2009)也使用模糊逻辑方法进行模式识别,并将其结果与瑞士旅游行为数据的微观普查数据进行比较,其中包括旅行距离,旅行持续时间和模式分布。 Biljecki,Ledoux和Oosterom(2013)也使用模糊专家系统。这些基于模糊逻辑的模型的缺点是需要专家规则来推断概率。因此,我们决定不将这些模型纳入本研究。

用于GPS数据插补的算法已经在不同的上下文中应用,导致报告的预测精度的变化。大多数研究报告平均准确率在70%至85%之间(Biljecki,Ledoux和Oosterom 2013)。预测精度的差异不仅取决于算法,还取决于识别传输模式的数量,输入变量的类型,城市设置以及用于验证算法的数据。使用基于速度和速度的指标(Schuessler和Axhausen 2009; Rudloff和Ray 2010),基于空间位置的变量(如距离公路和/或公共汽车站)进行了估算(Chung和Shalaby 2005; Bohte和Maat 2009)和/或个人资料(Moiseeva,Jessuren和Timmermans 2010)。

许多这些决定取决于该方法的具体哲学。例如,Trace Annotator系统(Moiseeva,Jessuren和Timmermans 2010)是基于最少量的信息和快速的在线处理上传的踪迹而建立的,以便参与者可以等待估算的活动 - 旅行日记并立即如果需要,改变它们。原则上,人们会认为通过添加详细的特定信息可以改善积分。

研究的交通方式也有所不同,从三种模式(Gonzalez et al。2008)到更为完整的11种模式列表(Feng和Timmermans,2013b)。 此外,准确性取决于插补结果如何验证。 估值可以基于估算数据与个人日记或历史旅游调查数据的比较。 如果没有所谓的地面事实(主要是同一个人的提示召回数据),则与综合水平的历史调查数据进行比较(例如,Schuessler和Axhausen 2009; Feng and Timermmans 2013b), 尽管这些数据中存在各种错误的来源。 更重要的是,总体比较不允许在个人层面捕捉准确性。 因此,在相同的上下文中对不同算法的性能进行彻底的检查是非常必要的。

最近文献中的几篇论文涉及到插补算法性能不同的问题(Zheng and Xie 2008; Rudloff and Ray 2010; Stenneth et al。2011)。例如,郑和谢(2008)应用了决策树模型来检测使用蜂窝电话数据的四种模式,因为模型相对于其他三种算法的优越性。然而,Rudloff和Ray(2010)选择了一个LR模型,因为它为每个模式生成概率,即使它的预测精度略低于其他方法。然而,这些研究涉及数量有限的交通模式(Zheng和Xie 2008; Stenneth et al。2011)或有限数量的输入变量(Rudloff和Ray 2010)。因此,本文系统地评估了GPS数据插补算法的相对性能。包括九种运输模式和活动情节。比较了文献中应用和/或讨论的七个代表性算法:朴素的贝叶斯分类器(NB),BN,LR模型,多层感知器(MP)网络,SVM,DTs和C4.5算法(C45 )。使用荷兰收集的GPS数据样本比较这些方法的插补结果。本文的其余部分组织如下:第2节讨论每个算法的基本原理。然后,第3节介绍用于比较算法的GPS数据源。第4节介绍了结果。最后,第5节总结了本文。

2. 算法

一般来说,活动情节和运输模式的估算可以看作是非线性分类问题。 可以应用许多用于分类的算法。 在这里,我们选择七种类型的算法进行比较。 输入和输出变量之间的相互关系在这些算法中以不同的方式建立。算法列表如表1所示。在下一节中,我们将简要介绍这些算法。 因为目的是检测运输方式,运输方式是具有离散值y的因变量。 我们使用向量Y来表示因变量,X表示N个独立变量。

Xn = (, . . . , ), n N.

假设y具有K个可能的值,表示为y,k [K,其中K是运输模式的总数。 独立变量是基于GPS跟踪和可能的其他数据源的输入变量。 每个独立变量可能具有不同数量的类别。

2.1. 天真的贝叶斯

朴素贝叶斯算法是基于贝叶斯规则的分类算法,其假设输出变量Y的概率等于某一值yk取决于X,p(Y = yk | X)的概率。 朴素贝叶斯算法假定属性(x1,x2,...,xn)在给定Y的情况下都是有条件的彼此独立的。这个假设的值是它显着地减少要估计的参数的数量。 一个幼稚的贝叶斯分类器将所有这些特征都视为概率。 分类器的概率模型是依赖关系的条件模型。

表1.算法和参数设置列表

具有少量结果或类的类变量Y,取决于几个独立变量X1至Xn。

那么Y的概率可以表示为Y将符合贝叶斯规则的第k个可能的值

问题是如果特征N的数量很大或特征可以承担大量的值,那么将这样的模型基于概率表是不可行的。因此,使用贝叶斯定理,更易于处理的模型可以是 重新制定如下:

朴素贝叶斯模型中的参数可以使用最大似然法估算。

2.2. 贝叶斯网络

BN是包含条件概率表集合的概率因果信息的图形表示。 通过放宽独立分布的假设,BN可以认为是增强的朴实贝叶斯模型,BN认为属性与其父属性的联合概率,而朴素的贝叶斯假定所有变量是独立的。 因此,BN代表所有被认为与观察特定结果相关的因素。

该模型通过定向非循环图定性描述,其中节点和边缘表示变量和变量之间的依赖关系。 边缘起源和终止的节点分别称为父节点和子节点。 由于BN对于概率推论的统计特征,当其他变量的值已知时,可以计算每个值的每个值的概率。 在贝叶斯网络中,考虑到其父母的状态,每个变量有条件地独立于其非后代。 也就是说,如果Xi是父母父母(Xi)的变量,所有不是Xi的代表的变量都有条件地独立于Xi给予父母(Xi)。 由于变量之间的独立性被明确定义,因此不需要计算贝叶斯系统中的所有联合概率,这为计算后验概率提供了有效的方法。

BN认为属性与其父属性的联合概率。 假设BN中的变量集合是(X1,X2,...,Xn),并且父节点(Xi)表示BN中节点Xi的父节点集合。 然后,可以从节点的个体概率的乘积计算(X1,X2,...,Xn)的联合概率分布:

网络被表示为有向图,以及相关的一组可能性表。 在我们的例子中,贝叶斯网络衡量空间和时间因素(输入)和活动 - 旅行模式(输出)之间的相互关系,即运输模式和活动发生。 所有的输入变量都被认为是MODE的子节点,它标识一个活动事件或一个传输模式。 当确定网络结构时,使用最大似然法估计参数。

2.3.逻辑回归

Logistic回归是一种回归分析的一种形式,用于基于一个或多个预测变量来预测分类因变量的结果。描述单个试验的可能结果的概率被模拟为使用逻辑函数的解释变量的函数。逻辑回归假定分布p(Y | X)的对数形式,并从训练数据直接估计其参数。在过去,不同类型的模型已经被开发为基本的LR模型的扩展。多项式LR模型是通过允许两个以上离散结果来概括LR的模型。也就是说,它是一个模型,用于预测一个分立的依赖变量的不同可能结果的可能性,给定一组自变量。在线性分类规则的一般情况下,类k,k [K,除了最后一个类别之外的概率等于

其中w是要估计的权重参数,w [W,W =(w0,w1,...,wn))。 最后一班有概率

可以看出,当Y取K可能值时,制定K-1不同的线性表达式来捕获Y的不同值的分布。最终的Kth,Y的值的分布被计算为1减去概率 的第一K-1值。 为了估计LR模型的参数,(负)多项对数似然可以表达为:

然而,在实践中,覆盖训练数据是LR中可能出现的问题,特别是当数据非常高的维度和训练数据稀疏时。 减少过滤的一种方法是创建修改的对数似然函数,其惩罚大的W值。惩罚对数似然函数可以表示为:

脊是需要在对数似然函数中预先给出的参数。 为了找出L最小化的矩阵W,使用准牛顿法来搜索m *(k-1)变量的优化值。

2.4. 多层感知器

MP是一种前馈人工神经网络模型,将输入数据集合映射到一组适当的输出。 MP由有向图中的多个节点组成,每个层完全连接到下一个节点。 除了输入节点,每个节点都是具有非线性激活功能的神经元(或处理元件)。 MP利用称为反向传播的超级学习技术来训练网络。通过根据输出中的误差量与预期结果相比,在每个数据处理之后通过改变连接权重在知觉中发生学习。

其中d是目标值; d是感知器(函数)产生的值; e是第l次迭代中的错误; e是用于与阈值进行比较的总量误差。由于具有一个隐层的神经网络原则上能够模拟所有类型的非线性问题,我们在网络模型中设置了一个隐藏层。 活动函数使用Sigmoid函数,如下所示:

其中yi是第i个节点(神经元)的输出,vi是输入突触的加权和。由于通过迭代计算过程获得权重,因此需要提前配置一些参数。 这里我们把动量和学习率分别设定为0.2和0.3。 训练时间设为500,这意味着当时代数达到500时,计算停止。本文获得的最终模型结构在隐藏层中有25个神经元。

2.5.决策表

DT是一个二维表,显示了一系列相关决定后要采取的行动。 通常,DT由行和列组成,呈现为矩阵。 每一列都对应一个规则,这些行定义了规则的条件和动作。 可以使用不同的算法和基础统计标准

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[485610],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版