用于时空大数据的集成GIS平台架构外文翻译资料

 2021-10-27 20:59:33

英语原文共 13 页

用于时空大数据的集成GIS平台架构

摘要

随着智能设备应用的增加,时空数据呈现出指数级增长。为应对由数据增加而引起的挑战,我们需要一个可以存储、查询、分析和可视化时空大数据的,具有可扩展性且高效的架构。本文描述了一种云终端集成GIS平台架构,旨在满足处理和分析时空大数据的要求。云终端集成GIS是根据架构开发的。利用实时数据集在内部组织集群上部署的大量实验表明,超图GIS时空大数据引擎取得了优异的表现。

1、介绍

随着信息技术的进步,对时空大数据处理、分析和可视化的需求已经大大增加。在这个大数据时代,地理信息系统(GIS)正面临新的挑战。为了克服大数据带来的困难,GIS必须发展它的技术以应对庞大的数据量。

GIS的一些挑战包括分析和处理时空大数据、聚类和分布空间大数据、索引和管理大数据、计算和在保持高水平的同时可视化系统中的大数据表现。目前,流行的大数据平台(如Hadoop和Spark)没有能力执行空间分析,空间计算或空间数据挖掘。为了识别分布式存储和管理,分布式空间计算,实时大数据处理和可视化的大规模空间数据的突破和创新,GIS必须集成一般的大数据技术。

面对数据量的增加和数据类型数量上的增加,传统的关系数据库很容易出现瓶颈问题,如低存储效率、羸弱的同时访问能力、以及水平缩放的难度。开发新的空间数据存储技术势在必行。容器技术(如Docker)有利于GIS的快速和大规模部署。负载平衡中的最佳同步和发现机制为GIS服务的动态扩展和灾难恢复提供支持。

如果GIS系统试图使用数据来执行查询或生成地图,必须转换来自Spark的输出数据转移到GIS平台。这个过程通常是时间和存储消耗。另外,仅传统的GIS系统执行作业队列中的计算任务,无法处理流数据。传统的GIS软件和独立的处理架构无法分析大量(例如,超过10亿条记录)的时空大数据。此外,这些集成过程需要高规格的计算机硬件和重写大数据的大多数算法GIS。

在本文中,我们专注于一个的设计和实现用于时空大数据的集成GIS平台架构。该论文分为四个部分。说明了相关工作在第2节。第3节介绍了我们的集成GIS平台建筑。第4节讨论了它的实现。案例测试和结果见第5节。

2.相关工作

像Hadoop-GIS这样的Hadoop扩展和使用MapReduce框架这样的SpatialHadoop支持空间查询。但是,这些扩展的问题在于它们将中间结果保存到磁盘,从而降低了效率。

Spark的框架优于Hadoop的一个优点是它的速度。基于内存的并行计算架构形式比Hadoop中的MapReduce模型更好。通过使用RDD,分布式计算可以将性能提高两个数量级。此外,Spark为大数据计算提供了更多支持,其增强的流处理,图形计算和机器学习子系统是多功能的。这些是本研究选择基于Spark框架的原因。一些处理空间数据的解决方案,如GeoSpark,SpatialSpark,LocationSpark和Simba,在Spark中提供有限的功能。

Spark有两种方式来执行GIS功能。首先让GIS计算在Spark之外运行,这使得管理任务单和可视化分析的输出。另一种方法是让它在内部运行。使用这种方法,我们可以执行各种任务,包括生成空间索引,执行空间查询以及执行空间分析和计算。考虑到GIS核心功能和应用,我们更倾向于使用后者:直接在Spark框架内运行GIS以便充分利用其潜力。

大多数大数据框架,如Spark、HDFS、MongoDB和ZooKeeper的运行是基于Linux系统的。在Windows环境中这些框架主要用于研究和学习的目的。因此,使GIS和大数据框架无缝协作的最佳方法是建立跨平台的GIS系统。跨平台GIS系统可以直接从其核心功能支持Linux,但也可以在Windows环境中工作。GIS功能必须是跨平台的。

在时空数据计算中,系统需要处理大量数据并管理动态变化。基于SpatialHadoop的实时数据的空间在线分析处理是可行的,可以通过Apache Storm或Spark Streaming进行改进。此外,云计算需要高处理性能和管理能力动态变化。充分利用优化云计算,支持虚拟机或Docker快速部署的能力对于确保此时空分析引擎的高效率也至关重要。

我们的研究开发了一个集成的GIS平台架构可以对时空大数据进行存储,处理,可视化和分析。

3.用于时空的综合GIS平台架构大数据

各种大数据平台产生了低空间数据存储,空间分析和时空可视化性能。我们提出了一种用于时空大数据的集成GIS平台架构(图1),它包含大规模虚拟存储,分布式计算框架,云计算和集成,流数据处理,3D和虚拟现实,可快速应用于多终端,开放源社区,容器和持续交付。

图 1

3.1大规模空间虚拟存储

在大数据系统中,关键问题是数据存储。作为数据正在生成具有高数据类型和低价值的数据密度,传统的文件系统和数据库在继续满足大数据存储要求的同时不再能够保持高性能。近年来,虚拟存储的技术和解决方案已经出现,其中许多已被互联网平台广泛使用。对于地理空间数据,还需要将传统文件系统和关系数据库存储的解决方案发展为分布式,虚拟和软件定义的存储系统,以便存储可扩展性和处理能力可以应对未来的挑战。

虚拟存储系统可以分为三类:分布式文件系统,分布式关系数据库和NoSQL/NewSQL存储系统。分布式文件系统主要用于解决存储空间有限和单机系统的高成本的问题。运行具有多个复制副本的并发I/O不仅增加了计算带宽,而且增强了系统的负载平衡,容错和动态可扩展性。该系统可以部署在云计算环境中,支持大文件大小,内存缓存,空间共享和REST Web服务。一种流行的数据库是Hadoop;其他类似系统包括Ceph和IPFS。分布式关系数据库主要通过在传统数据库中添加新分布式集群和分布式事务处理功能来实现(实现示例包括PostgreSQL集群,MySQL集群和基于Docker技术的CrateDB)。因为与原始数据库的高兼容性,这些系统可以更好地支持SQL和事务处理。由于大多数这些系统都是开源的,因此成本相对较低; 这一点非常重要,尤其是在需要在多节点集群环境中部署系统时。 NoSQL / NewSQL存储系统专注于减少ACID事务的数量,从而显着提高其数据处理性能。 在管理各种非结构化数据时,该系统不仅简化了开发和维护流程,还降低了总运营成本(TCO)。 这种解决方案已广泛应用于许多互联网平台,如MongoDB,HBase,Cassandra,Redis等。

今天,许多不同的虚拟存储系统存在于各种环境中并且以各种方式使用。我们如何充分利用每个系统的优势,同时实现系统之间的资源共享和转移?怎么样提供统一的访问,读写数据的方式能够在不同平台中存储数据以便存储数据变得更有价值?为了解决这些问题,我们基于SDX 中的多源空间数据和GDB-CLI中的接口的无缝集成,设计并开发了一个虚拟时空综合服务系统- DaaS(数据即服务)。我们实施了统一的REST服务框架,可以轻松连接多种类型的数据存储系统,同时与现有的连接数据库系统配合使用。这个系统支持分布式,多级空间数据库存储一个门户中的服务和云/本地数据管理。通过使用它的统一数据接口,系统可以与Hadoop连接存储生态系统,MongoDB存储系统,PostgreSQL集群,MySQL集群和其他现有数据库(图2)。

随着存储空间需求的增加而增加维护成本增加,数据的价值一直在下降。如果我们可以在合理的时间内使用数据,它可能会成为更宝贵的资产。相反,如果数据没有使用得当,它可能会成为企业的负担。例如,如果没有足够的在数据安全方面的投资,公司就会存在泄漏敏感数据的风险,这可能对公司有害。简单地拥有数据并不会使企业受益。事实上,如何高效地使用数据决定了它的价值。我们消费越多的数据,就可以从中获得更多的价值。因此,建立连续的数据处理基础设施以满足应用程序的需求至关重要。另外,维护和应用数据价值是开发大数据系统的关键方面。

3.2分布式计算框架

当摩尔定律到达极限时,很难追求通过提高CPU的时钟速率来进一步提高处理器速度。取而代之,多核CPU成为新常态。通过使用多线程和处理技术来管理和并行处理任务或使用图形卡的CUDA和OpenCL并行计算机制,系统可以在单个CPU中突破计算能力的限制。在超图8C中,多线程支持、多进程服务和空间基于OpenMP的分析算法,CUDA显着提高空间数据处理和模型分析的效率。它使对象可视化功能能够实时运行。随着大数据的融合,计算能力遇到了它瓶颈。多核CPU和大规模集群系统需要适应变化。

图 2

Hadoop中的MapReduce模块专为批处理而设计,被认为是新一代分布式计算的先驱。但是,它有许多缺点。这些弱点包括缓慢的启动速度,复杂的部署和无法执行回归计算。建立在分布式内存计算模型和Flink上,更好地支持流计算,模块已经开始被Spark取代。由Apache软件基础领导的Hadoop / Spark开源生态系统已成为大数据领域的标准。基于该框架建立了许多业务解决方案。(这些业务解决方案包括来自Databricks,亚马逊,IBM和Oracle的大数据服务云。)

随着GPS系统,卫星图像,无人机摄影和智能测量设备的发展,对空间数据存储和处理的要求迅速提高。因此,将GIS功能导入Spark框架以构建集成的分布式空间和时间数据处理平台已经具有了新的重要性。最新的超图GIS平台为Spark计算框架提供全面支持。它以三个主要方式建立了完整的大数据解决方案组件、GIS核心引擎、客户端SDK和应用程序系统。GIS核心引擎既可以作为Scala导入Spark环境,也可以通过支持Python在不同的前端大数据分析软件中实现。通过将用于Spark服务的iObjects集成到iServer产品系列中,可以通过REST公开分布式空间分析模型计算服务。 在使用iObjects,iDesktop,iDesktop Cross,iMobile,iClient和其他2D / 3D链接客户端的应用程序中,可以轻松地使用和显示其返回结果(图3)。

将GIS核心功能从单核CPU转移到分布式计算框架是一项巨大的进步。通过此举,GIS系统将能够充分利用现代计算硬件和数据中心带来的大规模存储,分布式内存,集群管理及其部署的功能。此举还将解决传统GIS软件中的问题:例如缺乏存储和计算能力不足。这使得建立大规模应用系统或以高精度水平进行空间关系研究成为可能。我们可能会看到许多类型的应用和地理空间模型或算法的突破性发展。 它不仅将GIScience和地理科学提升到一个新的台阶,而且还将提高环境管理,灾害管理,城市规划等的效率。

图 3

3.3云计算集成

云计算提供了一组用于共享计算资源的模型和方法。动态分配计算资源,不仅可以提高系统利用率,还可以在很短的时间内收集大规模的计算能力。亚马逊,谷歌,微软和IBM都提供大规模的云数据中心服务。在中国,阿里云,百度云和腾讯云也提供多样化的云计算服务。近年来,许多初创公司已开始提供基于Docker技术的服务,如七牛云和青云。所有这些云计算平台都允许用户管理计算资源,根据需求租用资源并快速建立大规模云计算集群。过去,传统的服务器租赁服务是主要关注点。如今,基于Hadoop / Spark的分布式云计算集群已成为大型数据中心的标准服务。随着Docker容器技术的快速发展,它所基于的云计算服务可以进一步降低维护成本,并为分配和部署资源提供更灵活,更灵活的解决方案。使用Docker技术,服务在不同数据中心之间或公共云和私有云中心之间的迁移也变得非常容易。综上所述,云计算服务已经从基于虚拟机的服务器租赁服务转向基于如Docker,Hadoop / Spark等近期技术的分布式集群服务和微服务。

在Docker中,云服务可以由业务组件封装为微服务,并且可以在部署期间根据需求进行组装。Docker实例可以根据需要在公共云,专用云,行业云和私有云中以简化的方式进行开发,测试,运行和部署。这将大大降低云计算服务的维护成本和开发难度。GIS云计算集成基础架构必须与Docker技术完全集成,并基于微服务概念模型设计,开发和部署系统。超图iServer,iExpress,iPortal和iManager已经支持Docker;基于其技术标准和微服务结构的服务可以部署到各种云计算数据中心。其他功能,如不同类型的计算基础设施之间的集成以及自动管理系统的功能也都包括在内。此外,企业用户和个人用户可以通过Dituhui或在线门户直接访问这些服务(图4)。

图 4

通过实现基于Docker的微服务基础架构,可以将GIS系统部署为云计算模块,实现多云集成和管理。 我们还可以将地理空间大数据完全集成到云计算基础架构中。所有这些功能已成为现代数据中心的核心功能,甚至已成为智能城市,环境资源和许多其他行业中必不可少的系统组件。它还提供以下核心功能:地理空间数据管理,空间模式分析,地理空间数据可视化,API共享和其他应用程序服务。

3.4流式数据处理

随着GIS技术的发展,GIS系统的数据源发生了巨大的变化。过去,数据主要来自传统的地图数字化和测量输入,通过平面表,全站仪等设备。常见的数据格式是静态矢量图,缺乏更新精度和货币。新的测量工作广泛使用摄影测量方法来收集原始数据。主要数据源包括图像,视频,雷达和GPS数据,这些数据来自卫星,飞机,无人机和测量车辆。诸如全景相机,街景相机,观察卫星和LiDAR系统的最新设备能够检索全向图像和空间信息。其中一些设备支持流服务,因此可以将数据动态传输给用户。如今,传统的静态数据存储,静态制图和计划数据更新方法变得不那么重要了。它还导致传统数据存储,处理,分析和使用方法发生的巨大变化。

LiveGIS - GIS的一项新功能-能够通过流式传输生成、处理和使用实时数据。由于数据类型的变化和处理数据量的增加,GIS系统结构不断发展以适应这场革命。目前有几种使用分布式计

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。