一种用于海上轨迹预测和数据挖掘的自动识别系统外文翻译资料

 2021-12-20 09:12

英语原文共 12 页

一种用于海上轨迹预测和数据挖掘的自动识别系统

(AIS)数据库

毛伯波1,恩梅图1,*,张光浩2,Lily Rachmawati3,Eshan Rajabally4和黄光斌

2

1罗尔斯·罗伊斯@NTU企业实验室,南洋理工大学,新加坡

{斯布毛,EMTU} NTU.EUTU-SG

2新加坡南洋理工大学电气与电子工程学院

GJAU9009E.SUT.EUU-SG, EGbHuang-ntu.EdU.SG

3计算工程团队,先进技术中心,

劳斯莱斯新加坡私人有限公司LILI.RCHMAWATAYLROSS 4罗尔斯·罗伊斯公

司战略研究中心Erhan.Rjababale:Loop-

RoSeC.com

摘要:近年来,海上安全和效率在全世界变得非常重要。自动识别系统(AIS)通过机载收发器和地面和卫星基站跟踪船只移动。AIS收集的数据包含广播运动信息和静态信息。它们都可用于海上异常探测和船舶航线预测,这是海上情报的关键技术。本文致力于构建海上轨迹学习,预测和数据挖掘的标准AIS数据库。在该AIS数据库上测试了基于极限学习机(ELM)的路径预测方法,测试结果表明该数据库可以用作不同轨迹预测算法和其他基于AIS数据的挖掘应用的标准化训练资源。

键词:自动识别系统(AIS)数据库,海上轨迹学习,数据挖掘。

1.介绍

在现代全球化经济中,海运成为长途运输商品的最有效方法。世界经济的持续增长导致海上运输需求的增加,船舶容量更大,航行速度更快[1]。在这种情况下,安全保障成为海上运输的关键问题。与使用人类导航的传统海上导航系统相比,使用自动识别系统(AIS)数据的智能海上导航系统以更低的成本提高了海上安全性

*通讯作者:恩梅图,HeloLoTMeHymail

AIS是国际海事组织(IMO)实施的海上安全和船舶交通系统。自动广播的AIS消息包含运动信息(包括船舶位置,速度,航向,转弯率,目的地和预计到达时间)和静态信息(包括船名,船舶MMSI ID,船型,船舶大小和当前时间),可以转化为智能海上交通操纵的有用信息,例如船舶路径预测和避碰, 从而在未来的自主海上导航系统中发挥核心作用。在过去几年中,从船只和海岸电台收到AIS信息变得越来越普通。

尽管可以从许多数据提供者那里获得足够的AIS数据,例如Marinecadastre(MarineC。)[3]和Sailwx [4],据我们所知,海事研究领域没有现有的标准AIS基准数据库,这使得它成为可能。对于该领域的研究人员和从业人员来说非常不方便,因为收集可用的数据集将花费大量的时间和精力。此外,随着智能海事系统的迅速发展,许多研究人员提出了异常检测和运动预测算法,拥有一个可以作为比较不同方法和算法性能的基准的数据库是非常重要的。例如,在2008年,B.Ristic等人。[9]提出了一种基于AIS数据中运动模式统计分析的异常检测和运动预测算法。2013年,Premalatha Sampath根据原始AIS数据生成了船只轨迹,并分析了确定新西兰水道船舶运动模式的轨迹[10]。因此,在本文中,构建了一个即用型标准AIS数据库,用于海事路径学习,预测和数据挖掘。本文的其余部分组织如下:第2节描述了AIS数据类型和数据源。第3节描述了构建AIS数据库的详细过程。然后在第4节中总结和描述了我们的AIS数据库的结构和静态信息。最后,我们在AIS数据库上进行了基于极限学习机(ELM)的实验,以显示它在第5节中的用处。

2.AIS数据库的属性

本节介绍AIS数据的属性,并介绍一些流行的AIS数据提供程序。AIS数据具有一些特殊属性,这些属性会导致海上轨迹预测与其他领域的路径预测之间的差异。

2.1 AIS数据属性

AIS技术以规则的时间间隔广播船舶信息和航行信息。该信息可以由车载收发器和地面和/或卫星基站接收。AIS数据有一些重要属性:经度,纬度,地面速度(SOG),地面航线(COG),船舶水上移动服务标识(MMSI),基准日期时间,船舶类型,船舶尺寸,转弯率( ROT),导航状态和标题。在本文中,标准的AIS

数据库包含经度,纬度,SOG,COG,MMSI和基准日期时间,它们是海上轨迹学习和预测的最有用的属性。

AIS数据来源

有许多现有的AIS数据提来源,例如海洋交通(海洋T)[12],VT探险家(VT E.)[13],FleetMon [16],Marinecadastre(MarineC。)[3]和Aprs [7]。在 这些来源中,MarineC可以免费下载,并且根据数据完整性和位置精度具有良 好的数据质量。因此,在本文中,MarineC被选中在线收集AIS数据。MarineC包 含美国2009年至2014年的历史记录,每隔一段时间。我们可以选择并下载特定 月份和特定兴趣区域的AIS数据文件。我们在UTM第十区下载了2009年2月的AIS 数据。但是,从MarineC下载的AIS数据包含一些数据丢失。为了解决这些问题, 我们使用线性插值,稍后将在本文中介绍细节。

3.AIS数据库建设

本节介绍数据处理工具以及构建我们提出的标准AIS数据库的详细信息。整个过程包含四个部分:原始数据预处理,原始数据选择,候选数据清理和缺失数据插值。

3.1原始数据预处理

构建 AIS 数 据 库 的 第 一 步 是 从 dbf 格 式 下 载 原 始 数 据 库 文 件http://www.marinecadastre.gov/ais/. 在线下载原始数据之前,需要选择感兴趣的区域。如图1所示,第十区位于美国西海岸,它包含相当数量的船只。这些AIS 数据是开源的。在本文中,区域10被选为感兴趣区域,因为它包含足够数量的AIS数据。图1中的阴影部分是所选择的感兴趣区域,其经度为-120到-126度, 纬度为30到50度。

1. UTM区域地图和数

为了预处理AIS数据并挑选出有用的数据,需要一个可以将带有dbf格式的原始数据库文件传输到csv(逗号分隔值)格式的应用程序,因为csv格式文件由表格数据记录行构成并且研究人员更容易处理。Arcmap是最常被引用的地理信息系统(GIS)软件,主要用于查看,编辑,创建和分析地理空间数据。由于Arcmap被选为我们的数据转换软件,因此使用名为“导出要素属性为ASCII”的工具将要素类坐标和属性值导出为空格,逗号或半分数限制的ASCII文本文件。导出结果如第12节的图12所示。

3.2原始数据选择

在原始数据预处理之后,有必要从Excel格式的原始数据中选择候选数据。 数据选择包含两个步骤。首先,为了便于以下操作中的操作,整个原始数据按 递增的时间顺序排序,然后通过MMSI再次排序。一个MMSI代表一个单一的容器。因此,通过这种方式,每艘船的轨道可以按时间顺序显示并且更容易处理。第 二步是计算路线复杂性和最长导航持续时间。

最长的导航时间

如果船舶的SOG值满足以下不等式,我们称该船舶处于航行状态。

SOGne;0

因此,最长导航持续时间被定义为导航条件中AIS消息的最长连续非零SOG序列。作为海上轨迹预测和数据挖掘的标准AIS数据库,一条单一路线应包含大量信息。因此,具有短持续时间的路线包含用于训练和测试路线预测和数据挖掘算法的足够数据。根据我们的经验,该属性的选择要求是轨迹数据包含超过500 条AIS消息。路线复杂性

2.路线复杂性的样本

对于每条单一航线,计算每个船舶位置的costheta;,路线复杂度的定义是costheta;的平均值,可通过以下等式计算

3.3即将录入数据清理

在获得候选数据之后,需要基于轨迹的进一步选择。所有候选数据轨迹均由MATLAB绘制。在所有轨迹中,我们定义了三种噪声轨迹类型,如下所示。(从图3到图6显示,水平轴是经度,垂直轴是纬度),然后我们将它们全部移除:

  • 不连续的轨迹如图3和图4所示。
  • 松散的轨迹如图5所示。
  • 缠结的轨迹如图6所示。

3.不连续轨迹样本-1

4.不连续轨迹样本-2

5.松散的轨迹样本

6.纠结的轨迹样本

因为这些嘈杂的轨迹具有一些固有的缺点。路由预测和数据挖掘算法无法学 习路由模式。嘈杂路线的形状并不典型。一旦识别出噪声轨迹,就应将其移除。最后,保存了包含403599个AIS记录的200个有用轨迹并用于构建标准AIS数据库。图7显示了我们数据库中的一些典型轨迹(水平轴是经度,垂直轴是纬度)。

7.预留轨迹样本

3.4缺失值插值

在我们的数据库中,不连续性导致的数据缺失值可能会影响学习算法的性能和数据库的数据挖掘质量。此外,原始数据还包含错误的速度数据。在执行插值之前,我们必须检测并删除错误数据。每条AIS记录代表船舶的位置。数据库中有403599个船位。速度误差的检测基于SOG跳跃(当前SOG与先前SOG之间的差异)。如果跳跃大于我们提前设置的阈值,我们使用最新速度计算两个消息之间的距离,并测试该距离是否与Haversine公式[18]给出的消息之间的实际距离一致,即计算得出如果速度跳跃正确,距离应该接近小阈值内的实际距离。如果不是这样,则将最新速度视为错误并设置为先前速度。Harversine配方如下所示。d是经度和纬度两点之间的距离,r是地球的半径。

图8中的第二行是不正确的SOG跳跃的示例。为了有效地插入缺失值,应该提前校正所有具有速度误差的AIS记录。

对于路径插值,有三个步骤:检测数据丢失,判断是否需要插值并进行线性 插值。当两个连续消息之间的时间间隔大于一个所选间隔时,会发生数据丢失。我们选择一分钟作为本文的阈值间隔。一旦检测到,这两行数据被定义为丢失 的数据对。丢失数据对的样本如图9所示,其中两个连续消息之间有5分钟的间 隔。然后将缺失的时间段定义为缺失数据对与由Haversine公式[18]计算的缺失 数据对之间的大圆距离之间的时间范围。计算出的距离除以较早位置的SOG(km

/ min)。除法结果大于2,需要线性插值[26]。图10和图11示出了插值之前和之后的轨迹示例(从图10到图11,水平轴是经度,垂直轴是纬度)。

8.错误的SOG跳跃示例9.缺失数据对的例子

10.插值前

11.插值后

线性插值的原理是我们假设船舶在缺失时间段内处于均匀线性运动中,并且速度被认为是较早位置的SOG。缺失数据的计算和插值基于这两个假设。

4.AIS数据库的描述

在本节中,我们将我们构建的标准AIS数据库分为两部分:数据库的结构和统计信息。

4.1结构

整个AIS数据库包含200个csv文件5中存储的200个清晰轨迹。每个文件由MMSI 命名,并按递增的时间顺序排序。每个csv文件包含单艘船的纬度,经度,SOG, COG,ROT,时间和MMSI。图12以一个xlsx文件的一部分为例。

<stron

资料编号:[4338]</stron

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。