基于台湾收费站的历史和实时数据,利用机器学习和大数据方法来预测行车时间外文翻译资料

 2022-08-10 05:08

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


基于台湾收费站的历史和实时数据,利用机器学习和大数据方法来预测行车时间

Shu-Kai S. Fan1 Chuan-Jun Su2 Han-Tang Nien1 Pei-Fang Tsai1 Chen-Yang Cheng1

摘要 随着自动化和计算技术的发展,交通数据可以很容易地从多个来源收集,如传感器和监控摄像头要从大量可用数据中提取价值,需要处理和提取大型数据集中的模式。本文以台湾地区高速公路电子收费站的数据为基础,利用随机森林法和Apache Hadoop,构建了一种嵌入大数据分析平台的机器学习方法来预测公路行驶时间。然后,根据历史和实时数据,开发各种公路行驶时间预测模型,为司机提供估计和调整的行驶时间信息。

关键词 大数据·随机森林·电子收费(ETC)·出行时间预测·Apache Hadoop

简介

为了避免交通堵塞和提高整个公路网的利用率,需要有及时预测行车时间的能力(Chien和Kuchipudi 2003;2003年;范皮棉2006;Yildirimoglu和Gerolim- inis 2013;Vlahogianni et al。2014)。预计的旅行

Communicated by Y. Ni.

时间将司机作为影响其旅行计划的聚合交通信息提供。旅行时间的可靠预测需要满足以下三个目标:准确性、稳健性和适应性(van Lint 2006)。高速公路上的交通数据通常可以通过固定位置的监视设备收集,如射频传感器(Chien和Kuchipudi 2003)、环路检测器(Zhang和Rice 2003;van Lint2006;Yildirimoglu和Geroliminis 2013),甚至相机(Innamaa 2005)。各种预测方法被用于处理这些交通数据,如时间序列方法(Fei等。2011),回归模型(Wu等人。2004;乔等人。和机器学习方法(Innamaa 2005;Khosravi 等人。2011)。关于旅行时间预测的研究,可以在Vlahogianni等人那里找到更详细的描述。(2014)。对于之前的旅行时间预测,感兴趣的读者可以参考Li和Chen(2013, 2014),以及Gal等人。(2017)。

现代传感器电子产品实时产生大量数据。例如,一个单独的飞机涡轮每30分钟将产生10tb的数据,谷歌每天处理超过24 pb的数据,而Facebook每小时接收1000万个帖子。大数据的出现与社交媒体、移动通信技术、云计算和新数据分析技术的发展相吻合,这些技术的出现极大地改变了我们的生活、工作和互动方式。移动通信和社交媒体正在改变着个人参与度,并产生新的安全期望,以及对安全感的新期待,信任,以及作为个人信息回报的价值。

B Shu-Kai S. Fan morrisfan@mail.ntut.edu.tw

1国立台北工业大学工业工程与管理系,台北市10608

2元泽大学工业工程与管理系,桃园市32003

云计算正在改变IT和业务流程。大数据分析正在产生新的资源,这些资源将改变商业和工业的范式转变。数据量的这种指数增长已经超过了大型计算机系统的存储和处理能力以及现有的技术(Chen等人。2014;

Kalambe et al。2015)。大数据大多是非结构化的,包含了多种格式和内容,这意味着它可以包括多种形式,如传统数据、元数据、流媒体、视频、媒体、交易、数字图像、传感器和音频、社交媒体数据等。

本文通过对台湾高速公路电子收费系统(ETC)数据的大数据分析,建立了两种高速公路行车时间预测模型。该系统的目标是为司机提供准确的旅行时间预测,以应对实时交通状况。基于高速公路历史数据,建立了单目的地旅行时间预测模型(OTTP)和自适应旅行时间预测模型(ATTP)。对两种模型在不同场景下的性能进行了评估。本文旨在利用大数据技术对高速公路行车时间进行预测,并在Apache Hadoop框架下搭建了一个大数据分析平台。

随机森林和Apache Hadoop

随机森林

随机森林是一个构建多个决策树的分类器集合。树预测器的组合被创建,这样每棵树都依赖于一个随机向量的值或独立采样的特征,并假设森林中所有的树都具有相同的分布(Breiman 2001a, b)。迄今为止,随机森林模型已广泛应用于各个研究领域(Greenhalgh和Mirme- hdi 2012;陈和霍华德2016;Mistry et al。2016;徐等。2016;Joshi et al。2017)。对于分类任务,是随机的

默认数字m是许多开源软件中m的平方根。

  1. 要构建树,从所有N个可用的训练用例中选择一个包含替换的训练集k次。这些数据集中的每一个都称为引导数据集。数字k表示要训练的树的数量。
  2. 对于每个树节点,随机选择m个变量,在该节点上做出决策。根据训练集中的m个变量计算最佳分割。
  3. 每棵树都完全长大了,没有修剪。

在单个决策树的每个节点上,根据随机变量选择最佳分割。本文采用“基尼指数”计算基尼值,确定最佳分割点。随机森林算法使用了取自分类与回归树(CART)的基尼指数。建立决策树的学习系统。gini impu- rity表示从集合中随机选择的元素,如果根据子集中标签的分布随机标记,则该元素被错误标记的频率。如果数据集包含两个类的元素,则gini指数定义如下(Harris和Grunsky 2015):

其中p j为数据集T中类j的相对频率,n为数据集中的类数。

如果将一个数据集T划分为两个大小分别为N1和N2的子集T1和T2,则该数据集的基尼指数定义为

Gini(T) = N1 Gini(T) N2 Gini(T)(2)split12

森林通常能提供高精度和快速的分类

时间。随机森林分类器需要使用大型数据集进行训练,由于ETC数据的性质和范围,我们的研究中很容易获得这些数据集。随机森林也可以处理成千上万的特征向量,如果训练良好,还可以产生分类精度高的分类器。因此,本文将采用随机森林进行高速公路出行时间预测。

对于每棵树,特征选择都是随机进行的,因此根据特征选择的不同,分裂节点也会因树而异。随机森林算法的基本步骤如下:

  1. 令训练用例数量为N,分类器中的变量数量为M(即,特征的数量)。
  2. 确定输入变量的个数m(即用于在树的节点上确定决策;m应该比m小很多。一般来说,

随机森林算法流程图如下(图.1):

Apache Hadoop

Apache Hadoop是由Doug Cutting和Mike Cafarella在2005年提出的。它是一个开源软件框架,支持数据密集型的分布式应用。Hadoop是为存储数据和运行在商用硬件集群上的应用而设计的。它为任何类型的数据提供了巨大的存储空间、巨大的处理能力以及处理几乎无限并发任务或作业的能力。它可以在多台计算机上独立工作,处理非常大的数据量。Hadoop有两个主要核心:Hadoop分布式文件系统(HDFS)和MapReduce。文件分发是通过HDFS和MapReduce作业来处理的。Hadoop系统具有一个主节点和多个从节点的特点。HDFS是其中的一个存储层

.1随机森林算法程序

开始

是的

达到了多少棵树?

否有

每个变量都被选中了吗?

是的

每个节点都有停止条件?

是的

否有

结束

构建下一个分割

选择训练数据子集

计算每个分界点的基尼指数

选择变量子集

按变量排序

样本数据

计算预测误差

选择最好的分叉

每个数据文件分布在多个节点上。MapReduce是Hadoop编程模型的处理层。本研究构建的主节点和从节点各1个的Hadoop架构如图.2所示。

      1. MapReduce

MapReduce是一种编程模型和软件框架,它构成了Apache Hadoop的核心。它允许在Hadoop集群中的数百或数千台服务器之间进行大规模的可伸缩性。Hadoop MapReduce库将计算分为两个阶段:Map和Reduce (Dean和Ghe- mawat 2008)。map阶段分解单个数据

元素到元组(即。键/值对)。第二个处理步骤是reduce阶段,它将map的输出作为输入,并将这些数据元组组合成一个更小的元组集合。这是MapReduce的两个阶段,如图.3所示。

      1. Apache Mahout

Apache Mahout是一个开源项目和可伸缩的机器学习库(Jain和Jain 2014)。与Hadoop平台一样,Mahout也是一种很有前途的技术,它可以分析和解决数据密集型问题,内置库可解决 K-均值、模糊 K 均值、Dirichlet、

关于Apache Hadoop和random forest的集成,感兴趣的读者可以参考Rio等人(2014)和Singh等人(2014)。

Hadoop的核心节点

主节点

从节点3

任务追踪器

数据节点

从节点2

任务追踪器

数据节点

从节点1

任务追踪器

数据节点

MapReduce

框架

工作追踪器

HDFS

名称节点

提出的方法

单目的地旅行时间预测(OTTP)

图.2 Apache Hadoop架构

Map ()

Reduce ()

Map ()

Reduce ()

Map ()

输出数据

输入数据

图.3 . Map和reduce阶段

Random 等分类问题森林和其他(库尼亚等人,2015年)。它可以用于应用多个算法,与Hadoop并行运行。

在单目的地行车时间预测模块中,研究的高速公路通过龙门架分为k段。每个部分(从机架到机架)包含一系列有用的交通信息,包括时间(按小时计算)、日期、车辆类型、交通流、旅行时间和空间平均速度。所有的交通信息都由安装在龙门架上的传感器记录下来。图4提供了OTTP模块中高速公路部分的示意图。

OTTP模块是为

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238069],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。