城市车流量预测方法研究外文翻译资料

 2021-12-02 10:12

英语原文共 7 页

摘要

网络物理系统通常由随着时间的推移与其他实体互动的实体组成。同时,作为工业过程持续数字化的一部分,各种传感技术的部署,使我们能够记录这些实体的时间变化属性(例如,时间序列),从而产生相关的时间序列。为了准确预测这种相关时间序列,本文提出了结合卷积神经网络(CNN)和循环神经网络(RNN)的两种模型。第一种模型在每个单独的时间序列上使用CNN,并组合卷积特征,然后在最终的卷积特征之上应用RNN使之预测。第二种模式将额外的自动编码器转换为单独的CNN,使第二种模型成为多任务学习模型,提供准确和健壮的预测。对两个真实世界相关时间序列数据集的实验表明,所提出的两个模型在大多数情况下都是有效且优于基准的。

该报告通过提供额外的实验结果,将“使用多任务深度神经网络的相关时间序列预测”的论文扩展到ACMCIKM 2018中。

1引言

复杂的信息物理系统(CPS)通常由多个相关联的实体组成。 随着持续数字化,各种传感器技术被部署来记录这些实体的时间变化属性,从而产生相关时间系列。例如,在城市污水系统中,部署传感器捕获污水处理厂中不同化学物质(例如NO3和NH4)随时间变化的浓度水平。 由于生物和化学过程,不同的化学物质相互影响,从而使不同的化学时间序列相关。 又例如,在车辆运输系统[6]中,交通传感器(例如,环路检测器和蓝牙)能够捕获不同路段的时变[10]交通信息(例如,以平均速度的形式),产生交通时间序列[9]。由于路段上的交通影响其他路段的交通,不同路段的交通时间序列相互关联[2,22]。

准确预测相关时间序列有潜力去揭示CPS潜在的整体系统动态,包括找出趋势,预测未来行为[23]和检测异常[13],这对于实现CPS的有效操作非常重要。 例如,在污水系统中,时间序列预测能够识别不同化学物质的变化趋势,对高浓度有毒化学物质的早期预警,以及预测事故(例如干旱或者下雨)的影响,这使污水系统能够更有效和有目的地运行。同样,在智能交通系统中,分析交通时间序列可以实现旅行时间预测,拥堵预警和预测事故的影响,从而有益于驾驶员和车队所有者。

为了实现准确和健壮的关联时间序列预测,我们提出了两种基于深度神经网络的新型非线性预测算法 - 卷积循环神经网络(CRNN)和自动编码器卷积循环神经网络(AECRNN)。 在CRNN中,我们首先独立地考虑每个相关的时间序列,并将每个时间序列反馈到一维卷积神经网络(CNN)中。 CNN的使用有助于我们学习每个时间序列的功能。 接下来,将卷积的时间序列特征合并在一起,然后将其反馈到循环神经网络(RNN),目的是在考虑不同时间序列之间的相关性的同时学习序列信息。

在AECRNN中,我们在CRNN中添加了额外的自动编码器。该卷积时间序列的输出不仅合并在一起以传入RNN。 此外,每个卷积时间序列也被重建回原始时间序列。然后,目标函数将RNN的预测误差与自动编码器的重建差异相结合,使AECRNN成为一个多任务学习模型。 使用自动编码器使CNN也学习每个时间序列的代表性特征,但不仅仅是用于预测未来值的不同特征。 换句话说,自动编码器可以作为额外的正则化,避免过度拟合,忽略异常值,从而提供更强大的预测。

据我们所知,这是第一项将CNN和RNN结合在一个统一框架中的研究,借助多任务学习,可以对相关时间序列进行准确预测。 来自污水处理厂的大型实字化学浓度时间序列和来自Google Trends的时间序列数据集的实验提供了所提出的方法准确且健壮的证据。

2准备

时间序列X (i) = lt;x1(i),x2(i),hellip;,xm(i)gt; 是按时间排序的测量值序列。测量值xk(i)记录在时间戳tk处,并且我们有tj lt; tk if 1 le; j lt; k le; m。通常,两个连续的测量值之间的时间间隔是恒定的。即tj 1 minus; tj = tk 1 minus; tk ,1 le; j,k lt; m

相关的时间序列集合表示为X = lt;X(1),X(2),hellip;,X(n)gt;的时间序列和其他时间序列相关联。比如,在污水处理的例子中,我们有X = lt;X(1),X(2),X(3)gt;。其中X(1), X(2), 和 X(3)分别代表NH4,NO3,O2的时间序列。表1表示了重要的符号

问题描述:给定一个相关的时间序列集合X = lt;X(1), X(2), hellip;, X(n)gt;,我们旨在预测对于X的一个具体的目标时间序列的未来测量值。一般的,选择第一时间序列

X(1)作为目标时间序列。更具体的说,我们假设给予的x的时间序列具有包含l的时间戳的窗口[ta 1,ta l],并且我们的目标是预测时间序列X (1)的在一个未来的窗口[ta l 1,ta l p]中的测量值。我们把这种问题称为提前p步预测(p-step ahead forecasting)

3.相关工作

我们总结了表2中关于时间序列预测的相关研究。

考虑二维 - 线性VS非线性预测以及单个VS多个时间序列。

我们首先考虑单时间序列的线性方法。 这里,诸如指数加权移动平均法(EWMA)[21]和自回归整合移动平均法(ARIMA)[11]等方法对于线性时间序列建模是简单而有效的,现在通常用作基准方法。

也存在多时间序列的线性方法,例如,多元线性回归(multiple linear regression)[17],时空隐马尔可夫模型(spatio-temporal hidden Markov models )[23],多层链模型(multi-level chain model )[15]。

神经网络(NN)能够模拟非线性关系,于是通常用于启用非线性预测模型。 例如,循环神经网络(RNN)和长短期记忆(LSTM)[8]能够提供非线性时间序列预测。 ARIMA与RNN相结合的混合模型[5,26]也被提出。 混合模型从ARIMA开始,以识别线性相关性,并将得到的残差反馈到一个捕获非线性动态的RNN。一种使用RNN的增强方法[1]也被提出。 在另一篇论文[14]中,提出了一个新颖的模型作为经典LSTM的扩展。 该模型首先构建一个LSTM自动编码器,它自动从瓶颈层(bottleneck layer)中提取特征。 提取的特征与原始输入数据合并,这些输入数据一起反馈到另一个LSTM以进行预测

在本文中,我们的目标是提供能够支持多个时间序列的非线性预测模型,即表二 2中的右下单元格等等。 多变量时间序列卷积神经网络(MTCNN)[18]被提出,它使用CNN从多变量时间序列中提取特征,然后将结果传递给相连接的神经网络层,与常规CNN相比,它提供了更好的预测精度。

我们提出两种模型,名为CRNN和AECRNN,他们在大多数情况下都胜过已有的方法。与MTCNN类似,我们首先使用CNN从多个时间序列中提取特征。但是,我们在CRNN和AECRNN中使用RNN。另外,AECRNN还集成了自动编码器,可实现有效而健壮的预测。这同样让AECRNN成为一个多任务学习模型。另一种类似的方法是ConvLSTM [19],它将CNN与LSTM结合起来,以便预测一系列2D雷达地图。

还存在非深度学习方法。 例如,一种使用生物学中的Lotka-Volterra方程的非线性预测算法[16]被提出。 它假设多个时间序列相互竞争有限资源,例如竞争食物的捕食者。这个假设限制了可以应用该方法的范围,因此我们在实验中不与它进行比较。

与AECRNN类似,T2INet [12]也是一个多任务学习模型。 它采用CNN和自动编码器来实现分类和聚类,但不用于预测。

4模型

4.1卷积循环神经网络(CRNN)

我们提出了一种CRNN,它利用卷积神经网络(CNN)和循环神经网络(RNN)的组合来实现对一组相关时间序列的p步预测。 通过学习图像的特征和模式,CNN成功地被用于分类图像。 RNN能够捕获一系列值的依赖关系,因此能够很好地预测未来的值。 这促使我们首先使用CNN来提取每个相关多个时间序列的独特特征,然后在CNN的组合输出之上应用RNN。

具体而言,CRNN将多个时间序列作为输入,其中每个输入时间序列包含l个测量值。 图2的A部分显示了|X| = 3,3个相关时间序列X (1),X (2), 和 X (3)作为输入反馈给CRNN。 CRNN输出单个时间序列,比如Z = lt;z1,z2,hellip;,zpgt;,包含p个测量值,其是在不久的将来的目标时间序列X (1)的预测p个测量值(参见图2的部分G)。

在CRNN中,我们首先独立地处理X中的每个时间序列。特别的,我们将每个时间序列视为1times;l矩阵,如图2的B部分所示。接下来,我们在卷积层的每个时间序列上应用卷积(参见图2的C部分)。特别地,我们应用alpha;,例如图二中的3,使用滤波器以进行卷积,提取各个输入时间序列中的独立的特征。这产生了1times;l的alpha;矩阵。接下来,在池化层(参见图2的D部分)中,对于每个矩阵,我们应用最大池操作符,通过使用步长设置为2s的1times;2窗口捕获时间序列中最具代表性的特征为1times;l/2矩阵。因此,我们为每个输入时间序列获得大小为1times;l/2的总计alpha;个矩阵。注意,我们可能会多次应用卷积和池化层。卷积和汇集后,我们有|X|个尺寸为alpha;times;1times;l/2的立方体作为汇集层的输出(参见D部分图2-D)。到目前为止,CNN的工作已经完成

接下来,|X|个立方体连接成n维向量(参见图2的E部分),其中n = |X| times;alpha;times;1times;l2被送入RNN(见图2的F部分)用于预测目的。我们获得Z作为目标时间序列的近期测量值(参见图2的G部分)。

CNN的目标函数时

这里,Error(·,·)是一个误差函数,它测量在时间戳a l i处预测的测量zi和地面实况测量之间的误差(例如,均方误差)。

注意,RNN可以轻松扩展,以便能够预测所有时间序列的未来测量值,而不仅仅是单个目标时间序列。

4.2自动编码器CRNN Auto Encoder CRNN (AECRNN)

在AECRNN中,我们在每个CNN中加入了一个自动编码器(见图1)。 AECRNN背后的本质是使用自动编码器来学习健壮的特征并忽略代表异常值的特征。自动编码器还可用作额外的正则化,用来保证所有输入时间序列学习最具代表性的特征,并且不会过度拟合特定于预测训练数据中目标时间序列的特征。

在池化层之后,我们不仅连接池化层的输出立方体,还将输出立方体反馈到另外的解卷积层(参见图1的E部分)。 特别地,每个立方体被解卷积成具有与C部分中的矩阵相同大小的alpha;矩阵。然后,我们获得|X|组矩阵,其中每组具有alpha;矩阵。

接下来,我们用Sigmoid激励函数对每个矩阵组以产生1times;l矩阵。 这对应于| X | 重构的时间序列

附加自动编码器的目标函数是

它测量重建测量与原始地面实况测量在所有| X |时间系列上的第(a i)时间标记之间的差异。

AECRNN的最终目标函数是j=j1 j2。这使得ARCRNN成为一个多任务学习模型,其中一个任务是预测目标时间序列(即j1)的p未来测量值,另一个任务是重建|x|时间序列L个已知测量值(即j2)。

5实证研究

5.1实验设置

数据集:我们在实验中使用两个时间序列数据集。 第一组数据由丹麦奥尔堡的污水处理中心提供。 污水处理中心有6个水箱,每个水箱配置3个不同的传感器,用于测量三种不同化学物质NH4,NO3和O2的浓度,每2分钟测量一次。 数据总共涵盖3年。

我们将来自特定储罐的三种化学品的三个时间序列视为相关时间序列。 我们在3年期间选择多个窗口来测试所提出的方法。对于每个窗口,我们使用前84%的数据进行训练,剩下的16%的数据用于测试。在学习所提出的模型时,我们使用滑动窗口进一步将训练数据分成多个训练案例。特别是,在每个段中,我们使用一系列l次测量作为建议模型的输入数据,并使用紧随其后的p测量值作为地面实况目标数据来计算预测误差(即J1)以启用反馈。图3说明了该过程。最后,对保留的16%测试数据进行了学习模型的评估。

第二组数据来自Google Trends。 时间序列表示关键字在过去14年中的月度搜索流行度。 对于这个数据集,由于它们的高相关性,我们选择了关键词马铃薯和红糖。

参数:我们在实验中改变了三个问题参数。具体来说,我们改变时间序列的数量,即相关时间序列集的基数|x|,从1、2到3。当|x|=1时,我们只考虑一个时间序列,它也是目标时间序列。然后,我们再对目标时间序列增加1和2个相关时间序列分别。接下来,我们在

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。