一种深度学习的航班延误预测方法外文翻译资料

 2022-01-26 09:01

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


一种深度学习的航班延误预测方法

摘要-深度学习在图像识别、语音识别、机器翻译等各种机器学习任务上都有了显著的改进。在该范例取得巨大成功的启发下, 人们尝试将深度学习算法应用于具有大数据的数据分析问题,包括交通流量预测。然而, 并没有试图将深度学习算法应用于空中交通数据的分析。本文研究了深度学习模型在空中交通延误预测任务中的有效性。通过结合基于深度学习范例的多个模型, 建立了一个准确而稳健的预测模型, 从而能够对空中交通延误的模式进行详细的分析。特别是递归神经网络 (RNN) 在序列数据建模方面表现出了很高的准确性。单个机场的出发和到达航班延误的日常序列已经由长短期记忆 RNN 体系结构建模。结果表明, 随着体系结构的深入, RNN 的精度得到了提高。本文还讨论了构建深 RNN 体系结构的四种不同方法。最后, 对所提出的预测模型的精度进行了测量、分析, 并与以往的预测方法进行了比较。与所有其他方法相比, 它显示出最佳的准确性。

1.介绍

根据先前的一项研究[1], 国家空域系统 (NAS) 的飞行延误导致了大量的费用。2007年, 这对乘客、航空公司和国家航空局其他地区造成了约330亿的直接或间接费用。为了降低浪费成本, 人们对空中交通延误的分析和预测进行了各种研究[2],[3],[4]。在这些分析的基础上, 可以制定更有效和更缓解压力的空中交通管理战略。

以前的许多分析都依赖于建模和仿真技术。通过定义一个模型, 模拟系统中组件的实际行为, 并且需要通过计算机模拟,重新生成需要分析的场景。这种基于仿真的方法很有价值, 特别是当我们需要找到组件之间的交互并分析远期未来的情景时。基于仿真的分析的缺点通常是模拟速度慢和可能不适当的建模假设。已经有了几项研究用于提高模拟速度[5],[6], 但仍很难为分析的质量选择适当的抽象级别。

另一方面, 出现了另一组使用数据分析和统计机器学习的分析,他们的技术在许多领域取得了成功。Tu 等人[7]使用统计方法分析了空中交通延误的长期和短期模式。徐等人[8]提出了一种估计延迟传播的贝叶斯网络方法。Rebollo 等人[9]使用具有空中交通网络特征的机器学习技术预测空中交通延误。Choi 等人[10]提出了结合天气数据的机器学习模型。但是,在准确性方面仍有改进的余地。

同时, 受人类感知等级结构启发的深度学习范式也很普遍。在许多机器学习任务中,如图像识别、语音识别、机器翻译等,深度学习可以显著提高分类和回归的准确性[11]、[12]。此外, 它现在还被用于地面交通流量预测[13]。特别是考虑到目前深度学习算法的改进, 评价深度学习体系结构在飞行延误预测中的适用性和性能具有重要意义, 该模型是空中交通数据分析的一种应用。

目前存在许多深度学习架构, 包括堆叠自动编码器、卷积神经网络和递归神经网络。在本研究中, 由于递归神经网络捕获了数据中存在的顺序和时间关系, 因此选择了递归神经网络作为日常延迟状态预测任务的体系结构。直观地说, 前一天航班的延误状态会影响随后几天的航班延误。第二部分解释了本研究中使用的深度学习算法, 第三部分解释了在研究中训练的网络的体系结构。第四部分介绍了利用深度学习模型的实验结果, 并在第五节给出了结论。

2.深度递归神经网络

递归神经网络(RNN)是一种利用隐藏状态对动态系统行为进行建模的人工神经网络。长短期记忆(LSTM)网络是一种比标准RNN更快、更准确的RNN体系结构实现。在本节中, 介绍了RNN和LSTM网络的一般体系结构。然后讨论了堆叠这些网络的好处, 并讨论了使用RNN使架构更深入的方法。

  1. 递归神经网络

给定输入序列 x = (x1, x2,..., xk,..., xT), RNN 计算隐藏状态的演变h = (h1 h2,..., hk,..., hT)和输出序列 y = (y1 y2,..., yk,..., yT) 。此计算对于从是t = 1 到 T 的时间跨度,迭代地求解以下方程。在这里, xk、hk 和 yk 可以是任何任意大小的向量, 这些向量表示为输入空间、隐藏空间和输出空间的维度。

其中 Whh 表示从上一个时间步长到当前时间步长的隐藏状态转换的权重矩阵, Wxh 表示输入到隐藏图层的权重矩阵, Why表示隐藏图层到输出的权重矩阵。bh和by捕获每个方程的偏差。phi;h和phi;o分别是隐藏状态和输出的激活函数[14]。对于这些激活函数, 通常将饱和非线性函数(如逻辑S形函数或双曲正切函数等)应用于给定的向量。

  1. LSTM

LSTM架构使用存储器单元来替代标准RNN架构的phi;h和phi;o来存储隐藏层信息,并且它显示出比传统RNN架构更好的长距离序列性能。在这项研究中, 使用了 Alex Graves 等人提出的 LSTM 记忆细胞[15]。通过重复此单个存储单元以重现模型。它具有输入门 (i)、忘记门 (f)、输出门 (o) 和单元激活向量 (c), 所有这些都与隐藏的向量 h 大小相同。以下公式表示模型的计算:

其中是逻辑S形函数。图1说明了 LSTM 模块的单元结构。

  1. RNN的深层体系结构

从过去的研究[15],[16]中可以看出, 深层和分层模型在表示某些函数方面比浅层模型更有效、更准确。在这一假设的启发下,为飞行延误预测任务设计了深层模型结构。为了使 RNN 模型更深入, 存在着四种不同的方式, 即深度输入到隐藏、深度隐藏到输出、深度隐藏到隐藏的转换和隐藏状态的堆叠,每一个都以不同的方式加强模型。首先, 深度输入到隐藏体系结构具有非线性维数约简的作用, 这将揭示结果与原始输入变化相关的潜在因素。深度隐藏到输出体系结构可能有助于消除隐藏状态下的变化因素, 从而更容易预测输出。深度隐藏到隐藏的转换体系结构允许 RNN学习连续隐藏状态之间的高度非线性和非平凡过渡。最后, 隐藏状态的堆叠使模型能够捕获不同时间尺度的状态转换。

对于这项研究, 应用了深度输入到隐藏功能、深度隐藏到输出功能和堆叠 RNN。图3也说明了它们。在深度隐藏到隐藏过渡的情况下, 这里不使用它, 因为它可以被看作是 LSTM 的重复。过渡的非线性已经被 LSTM 体系结构所覆盖。深度输入到隐藏和深度隐藏到输出转换的方程只是增加了更多的仿射层和非线性变换层, 因此本文将不再使用这些工具。堆叠 RNN 的数学公式如下:

其中 是在时间t的第l级的隐藏状态。当l=1时,使用xt而不是 计算状态。所有级别的隐藏状态从底层l = 1递归计算。

3.网络训练

拟议的模型采用两个阶段的方法。第一阶段是使用深度RNN预测日延迟状态。下一阶段是利用每日延误状态预测个别航班的延误, 其输入为第一阶段的输出, 历史实时性能数据和天气数据。为了培训该模型, 收集了商业航空公司航班的历史准时性能数据和美国十大机场的历史天气数据。然后, 按机场对历史数据进行分组, 以便将特定机场抵达和离开航班的日常序列输入到模型的第一阶段。通过按顺序计算隐藏状态, 将后续日期的延迟状态预测作为输出。对于第二阶段, 来自第一阶段的每日状态被用作模型的输入, 以预测个别航班的延误。本节详细介绍了实际网络配置的信息和用于网络培训的方法。

  1. 日常延迟状态模型

第一阶段的目的是获取日常延迟状态模型。从美国交通部的 Transtats 数据库[17]中, 收集商业航空公司航班的准时性能数据,包括航班时刻表、始发机场和目的地机场, 所有可用的数据属性都从数据库中收集。表1显示了所使用的飞行数据的详细情况。所有的出发延误和每一天的所有抵达延误都是平均值。平均值用于表示一天的延迟状态。通过将阈值应用于平均延迟值来获取未延迟或延迟的二进制状态。测试了几个不同的阈值, 以分析最有效的阈值。

我们假设, 始发地和目的地机场的天气状况是预测任务的重要因素。因此, 与飞行数据有关的所有天气数据都是从国家海洋和大气管理局 (NOAA)的综合表面数据库(ISD)中收集的[18]。与历史飞行数据类似, 所有可用的数据属性都是从天气数据库中收集的。然后, 对一天的天气数据进行平均。对于飞行数据和天气数据, 没有对可用数据属性进行预筛选。通过使用深度输入到隐藏的体系结构, 可以实现模型最重要的特征自动提取。为预测任务选择的天气属性列表如表1所示, 根据飞行和天气输入数据, 计算延迟类别作为输出。然后, 在机场的随后几天重复这种分类。在飞行状态的顺序中, 前几天的延迟将影响随后几天的延迟, 这可以体现回归神经网络的特性关系。图2以亚特兰大机场的出发延迟序列为例, 说明了该模型的概念。

B.日常延迟状态 RNN 模型的深层体系结构

为了正确了解空中交通航班延误的顺序性质, 采用了上一节描述的深层架构。将深度输入到隐藏功能、深度隐藏到输出功能和堆叠的 RNN 体系结构合并到设计的模型中。图3说明了网络的体系结构。

C.个别航班延误模型

一旦获得一天的延迟状态, 就将其输入到第二阶段模型中。第二阶段是分层神经网络 (NN) 模型, 其使用给定的飞行日延迟状态和具有历史天气数据的历史延迟等级来计算一个特定航班的延迟等级。对于每个深度, 双曲切线函数 (Tanh) 非线性变换层后面都有一个完全连接的线性层。在最终深度处, 使用逻辑 sigmoid 函数而不是 Tanh, 因为最终输出应该是一个二进制类, 即0和1。表2汇总了该模型的输入和输出。图4也说明了为这一阶段构建的网络。NN 模型的每个图层中的层数和节点数可能会有所不同。第四节将讨论这些数字的影响。

D.正则化

如何防止日常延迟状态和单个延迟预测神经网络模型的过度拟合, 是需要适当处理的最重要问题之一。随着模型的复杂性随着深度的增加而增加, 该模型更容易过度拟合。它导致模型的精度严重下降。在Hinton等人提出的研究中采用了丢失技术[19]。已经证明,通过在训练期间从神经网络中随机丢弃单元 (及其连接), 丢失技术提高了深度学习模型的准确性[20]。由于随机丢失, 丢失样本来自指数数量的不同 '稀疏' 网络的样本。在测试时, 只需使用一个权重较小的不稀疏网络, 就可以很容易地近似平均所有这些稀疏网络的预测效果。这大大减少了过度拟合, 并与其他正则化方法相比有了重大改进。

E.训练方法

为了训练所设计的模型, 采用了随机梯度下降 (SGD) 算法。与传统的梯度下降算法 (称为批处理梯度下降) 不同的是, 它在训练优化的每个迭代步骤中只使用一个样本数据。通过一次只使用一个随机样本, 它显著减少了用于训练的计算时间和存储空间[21]。有时, 由于单个数据点的噪声, 该算法不会收敛到局部最优的直接下降方向。但是, 当大量数据可用时, 这不是问题。此外, 通过在每个迭代步骤中添加随机抽样程序来选择样本数据, SGD 是防止过度拟合和提高一般性能的另一种有效方法。小批量梯度下降算法介于批量梯度下降和 SGD 之间。它为每次迭代使用一个数据子集, 因此缩短了收敛时间。对于研究中的一些模型, 还采用了小批量梯度下降算法。

4.实验

利用实现的日常 RNN 模型和单个航班 NN 模型, 进行了深入体系结构有效性分析的实验。首先, 使用不同的深度RNN设置训练今日延迟状态模型, 然后通过不同的参数对单个航班延迟模型进行了训练和测试。在这两个实验中, 使用了亚特兰大机场的历史数据。最后, 为评价该模型的泛化性能, 将从亚特兰大机场的日常模型实验中获得的一个设置应用于其他主要机场, 并对其准确性进行了分析。

A.日常延迟状态模型

在第一次试验中, 利用了亚特兰大机场的出发延迟状态。使用两组不同的序列长度和延迟阈值。一个是7天的序列, 阈值为 15分钟, 另一个是9天的序列和30分钟的阈值。对于这两种情况, 模型根据不同的体系结构而变化, 这些体系结构都是深度输入到隐藏,堆叠的 RNN 和组合体系结构, 如第二节所述。组合的体系结构使用了深度输入到隐藏、堆叠的 RNN 和深度隐藏到输出架构。作为一个参考模型, 还对浅层模型进行了测试。浅层模型包括一个 LSTM 层, 输入和输出直接链接到 LSTM 层。表3显示了 RNN 不同深层体系结构的精度。我们在日常延迟状态预测方面实现了约90%的准确性。这意味着我们可以在一天内获得相当准确的延迟状态。另一个观察结果是,深层架构正在提高模型的准确性。在这两种情况下, 深度输入到隐藏的体系结构略微提高了准确性。而且, 通过合并所有深层架构,与浅层相比,我们可以提供3-5%的精度。

但是, 堆叠的 RNN 并不总是保证改进。在后一个实验案例中, 它显示出一种改进, 但在第一种情况下并不显示。可以分析其复杂性给模型的计算带来了困难,在具有长序列的 RNN 体系结构中, 人们普遍观察到这种情况。通过堆叠多个 LSTM 单元, 模型的复杂性增加了太多, 造成了数值上的困难。即使对于某些其他参数设置, 堆叠的LSTM 也不会在数字上收敛。该实验的最后一个观察结果是, 该模型对于较大的延迟阈值是更好的预测器。这可以看出, 较小的阈值比较大的阈值更嘈杂, 因此更难以预测较小的阈值延迟。换句话说, 较大的阈值是用更明确的标准对延迟天数进行分类。

B.个别航班延误模型

通过结合一天的延迟状态、历史飞行数据和天气数据, 对模型进行了训练。并且使用了第三节和图4所述的网络。在深层分层完全连接的节点中, 各层的层数、每个层的隐藏节点数量、时期和批次大小各不相同, 并对其准确性进行了测试。一个时期意味着通过训练集的一次完整训练。在每次迭代中, 用于训练的样本数量都是批量大小。表4显示了针对不同设置获得的准确度。从结果看, 深度模型的准确度高达86%-87%。这也表明, 层数的增加有助于提

全文共6431字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[497]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。