时空数据仓库的调查外文翻译资料

 2022-04-08 10:04

英语原文共 45 页,剩余内容已隐藏,支付完成后下载完整资料


时空数据仓库的调查

摘要

地理信息系统已被广泛应用于不同的应用领域,包括经济,生态和人口统计分析,城市和路线规划。如今,组织需要复杂的地理信息系统为基础的决策支持系统(决策支持系统)来分析他们的数据与地理信息,不仅代表属性数据,但也在地图。因此,厂商正在越来越多地把他们的产品,导致SOLAP(空间OLAP)的概念。同时,在过去的几年中,受使用的PDA设备的爆炸式增长,移动对象数据的领域已经从GIS界的关注。然而,没有多少已在提供移动对象数据库的OLAP功能做。在本文的第一部分中,我们调查thesolap文学。然后我们转到时空OLAP,特别是解决这个问题的轨迹分析。我们提出两个建议的方法geopkdd欧盟项目的上下文之间进行深入的比较分析:爱马仕MDC系统,和皮特,一个OLAP和运动目标的建议,在布宜诺斯艾利斯大学,阿根廷。

关键词:地理信息系统、联机分析处理、数据仓库、运动目标轨迹,聚集。

背景介绍

地理信息系统(GIS)已被广泛应用于各种应用领域,从经济、生态和人口分析,城市(加克斯和路线规划,学校和voisard,2001;沃博伊斯,1995)。在地理信息系统中的空间信息通常被存储在不同的所谓的主题层(也被称为主题)。在主题中的信息可以被存储在数据结构中,根据不同的数据模型,最通常的是栅格模型和矢量模型。在主题层中,空间数据是与经典的关系属性信息(一般的)数字或字符串类型的注释。虽然空间数据存储在数据结构中,适合于这些类型的数据,相关联的属性通常存储在传统的关系数据库中。在一个GIS系统不同的专题图层的空间数据可以被唯一地互相用一个共同的参考框架,像一个坐标系统。这些层可以重叠或叠加获得一个综合的空间观。

另一方面,OLAP(联机分析处理)(金,1996;金amp;罗斯,2002)包括一套工具和算法,可以有效地查询多维数据库,包含大量的数据,通常称为数据仓库。在联机分析处理,数据被组织成一组维度表和事实数据表。在多维模型中,数据可以被认为是一个数据立方体,其中每个细胞包含一个测量或一组(可能汇总)的利益措施。正如我们在后面讨论,OLAP维度进一步组织在层次结构,有利于数据融合过程(Cabibbo和torlone,1997)。一些技术和算法已经开发了查询处理,其中大部分涉及某种骨料预计算(harinarayan,获利,厄尔曼,1996)。

OLAP在GIS的需要

已经提出了不同的数据模型,在地理信息系统中的对象表示。ESRI(http://www.esri.com)首先介绍了覆盖数据模型,结合几何对象的非空间属性的描述。后来,他们扩展了这个模型的面向对象的支持,一种行为可以为地理特征定义(蔡勒,1999)。的覆盖数据模型的思想也由开放地理空间联盟提出的参考模型的支持(HTTP:/ / www.opengeospatial。org)。因此,在模式的选择,总是有约束力的几何对象存储在对象或属性的基本思想(主要)对象关系数据库(Stonebraker amp;穆尔,1996)。此外,在商业地理信息系统的查询工具,允许用户重叠的几个主题层,以找到感兴趣的对象在一个区域,如学校或消防站。

为此,他们使用了基于R树的索引结构(G,1984)。GIS查询支持有时包括地理措施,聚集为例,距离或区域(例如,代表着不同的地质区域)。然而,这些聚合不需要唯一的亲人,当我们讨论以下。

如今,组织需要复杂的地理信息系统为基础的决策支持系统(决策支持系统)来分析他们的数据与地理信息,不仅代表属性数据,但也在地图,可能在不同的专题层。在这个意义上,OLAP和GIS厂商正在越来越多地把他们的产品(见,例如,MicroStrategy和MapInfo集成在http://www.microstrategy.com/,和HTTP:/ www.mapinfo .com /)。在这个意义上,聚集查询是中央直接序列扩频。古典总OLAP查询(如“汽车总销量在加利福尼亚”),和聚集结合复杂的查询涉及的几何成分(“总销售额在所有村庄越过密西西比河,方圆100公里左右的新奥尔良”)必须得到有效的支持。此外,导航使用典型的OLAP操作像卷起的结果或钻也是必需的。这些操作是不支持的商业地理信息系统的一个简单的方式。其中一个原因是地理信息系统的数据模型,上面讨论的开发与“交易”的查询在头脑。因此,数据库存储空间的属性或对象被设计来支持那些(聚合)查询类型。决策支持系统需要一个不同的数据模型,在非空间数据,可能来自不同部门的组织,存储在一个数据仓库。在这里,数值数据被存储在事实表建立了几个维度。例如,如果我们感兴趣的是在一个特定地区的商店中的某些产品的销售,我们可以考虑在三个维度的存储,时间和产品的事实表的销售金额。为了保证汇总(Lenz和shoshani,1997),尺寸分为聚集层次结构。例如,商店可以聚集在城市,这反过来又可以聚集到地区和国家。这些聚集的水平还可以保持描述性属性的城市人口,一个区域的面积,以满足gis-dss等综合要求,仓库的数据必须与地理数据。例如,表示一个区域的多边形必须与仓库中的区域标识符关联。此外,在商业地理信息系统中的系统集成是不容易的任务。在目前的商业应用,GIS和OLAP的世界都集成在一个特设的方式,可能以不同的方式(使用不同的数据模型)每一次的实施是必要的,甚至当数据仓库是可用的非空间数据。

一个介绍性的例子。我们提出了一个现实世界的例子,说明在空间仓储问题的一些问题。我们选择了四层的地理和地质从国家阿特拉斯网站获得的特征(http:/ / www.nationalatlas。gov)。这些层包含以下信息:国家,城市,和美国北部的河流,和北半球的火山(由全球火山计划指发表)。图1显示了包含在美国北部城市和河流的层,使用图形界面的Piet实现本文探讨后来显示。注意代表城市(尤其是东部地区)的密度。河流表示折线。图2显示了两个叠加层含有状态的一部分(表示为多边形)和北半球的火山,也有非空间信息存储在一个传统的数据仓库。在这个数据仓库中,维度表包含客户、存储和产品信息,而事实表中包含有时间的商店销售。此外,数字和文本信息的地理成分存在(例如,人口,面积),存储为通常的属性地理信息系统层。

在上述情况下,传统的地理信息系统和组织数据可以集成的决策支持分析。销售信息可以分析在地理特征,方便地显示在地图。这种分析可能会受益于一个单一的框架中的两个世界的整合。即使这种集成可能与现有的技术,特设的解决方案是昂贵的,因为,除了需要大量的复杂的编码,它们是很难移植。为了使事情变得更加困难,特设的解决方案需要GIS和OLAP应用程序之间的数据交换进行。这意味着,一个地理信息系统查询的输出必须是可能出口的数据立方体的尺寸,并合并为进一步分析。举例来说,假设一个商业分析家对在城市中的货物在城市交叉的河流中销售的航海产品感兴趣。她可以先查询地理信息系统,以获得感兴趣的城市。她可能已经在一个包含维度存储的数据立方体中存储销售

地理与城市的一个层面。她将需要“手动”选择感兴趣的城市(即,由地理信息系统查询返回的数据),在多维数据集,能够继续与分析(在最好的情况下,一个特设的定制的中间件可以帮助她)。当然,她必须重复此查询,涉及一个(地理)维度的数据立方体。

图1。含两叠加在北美国城市和河流层。

相反,地理信息系统/数据仓库集成可以提供一个更自然的解决方案。本次调查的第二部分致力于时空数据仓库和OLAP。移动对象数据库(国防部)已经受到越来越多的关注,从数据库界近年来,主要是由于各种各样的应用程序,技术让现在。移动的物体,如汽车或行人的运动轨迹,可以通过在特定的时间点,在某些时间点的位置描述这些对象的重建。

图2.两个重叠包含在北半球,在北美和国家火山层。

存在建模许多建议和查询移动的物体,只是其中的一小部分解决了GIS(地理信息系统)的场景移动物体的数据聚集的问题。许多有趣的应用出现,涉及到移动物体聚集,主要是关于流量分析,卡车车队行为分析,在一个城市的交通通勤客流在机场或购物行为在一家商场。建立轨迹数据仓库可以与GIS整合是开始吸引研究人员数据库的开放问题。最后,MOD设置适合于数据挖掘任务,而且我们也在文章中对此作出评论。在本文中,我们首先提供地理信息系统,数据仓库和OLAP,和国家的最先进的空间OLAP的审查的简要背景。在此之后,我们继续研究时空数据仓库,OLAP和挖掘。然后,我们提供了皮特的框架,旨在整合GIS,OLAP和移动物体的数据进行了详细分析,并与这个提案之间的比较得出结论,而爱马仕数据cartrridge和轨道数据仓库中的GeoPKDD项目(上下文信息开发关于GoePKDD项目可以在http://www.geopkdd.eu中找到)。

GIS背景

在一般情况下,在一个GIS应用信息通过几个专题层划分。每一层中的信息包括一方面纯粹的空间数据,即与在另一方面古典字母数字属性数据(通常存储在一个关系数据库)的总和。两个主要的数据模型用于之一层内的信息,矢量模型和栅格模型的空间部分的表示。模型的选择通常取决于从哪个信息被导入到GIS数据源。

向量模型。向量模型应用于当前GIS(库珀和绍尔,2000年)之最。在矢量模型,在空间中的点的无限集合被表示为有限几何结构或几何形状,例如,例如,点,折线和多边形。更具体而言,在层内的矢量数据包含在一个有限数量的形式的元组(几何,属性),其中一个几何图形可以是一个点,折线或者多边形。有几个实际存储这些几何形状(沃博伊斯,1995)可能的数据结构。

栅格模型。在光栅模型中,空间采样成像素或单元,每一个具有相关联的属性或属性集。通常,这些细胞形成的平面的均匀网格。每个小区或像素,一些函数的采样值计算与相关联的小区作为一个属性值,例如,一个数字值或颜色。在一般情况下,在该栅格模型所表示的信息被组织成区,其中,一个区域的细胞具有一些属性(多个)相同的值。栅格模型具有非常高效的索引结构,这是非常非常适合的模型连续的变化,但它的缺点包括它的大小和计算在GIS中不同专题层zones.Spatial信息的成本往往是加入或叠加。需要地图覆盖查询更难以计算的矢量模型比栅格模型。另一方面,矢量模型提供的数据的简洁表示,独立于分辨率。在载体或栅格模型给定的不同的层的均匀处理,在本文中我们治疗栅格模型作为矢量模型的一个特例。实际上,概念上,每个小区是,并且每个像素可以被视为,小多边形;也,相关联的小区或像素的属性值可以被视为在矢量模型的属性。

数据仓库和OLAP

数据分析的重要性已经为组织所有部门都需要提高,以保持其竞争优势的决策过程,近年来显著上升。我们认为OLAP(联机分析处理)之前说的(金博尔,1996;金博尔与罗斯,2002年),包括一系列的工具和算法,允许有效的查询包含大量数据的数据库。这些数据库,通常为只读访问设计(在一般情况下,更新是脱机进行的),被表示的数据仓库。数据仓库以不同的方式利用。 OLAP是其中之一。 OLAP系统是基于一个多维模型,它允许更好地理解用于分析数据,并提供对复杂的分析查询更好的性能。多维模型允许在n维空间查看数据,通常被称为数据立方体(博尔与罗斯,2002年)。在这个立方体中,每个细胞含有的利益(可能是聚集的)措施,测量或设定。这实际数据沿感兴趣的方面,通常是在层次结构(Cabibbo&Torlone,1997)组织进行分析。 OLAP工具实施的三种典型的方式存在:MOLAP(静置多维OLAP),其中数据被存储在专用的多维结构,ROLAP(关系OLAP),其中数据被存储在(对象)关系数据库和HOLAP(静置混合OLAP ,它提供了两种解决方案。在ROLAP环境中,数据被组织为一组维表和事实表,而我们在的其余假定这个组织。有一个数字,允许利用该尺寸和它们的层次结构,从而提供交互式数据分析环境OLAP操作的。仓库数据库的OLAP操作,这些操作,通常情况下,意味着数据聚集或解聚集一起的尺寸,称为汇总和向下钻取,分别进行了优化。其他操作包括选择一个立方体(切片和切块)的部分,使之转化数据的多维视图(旋转)。除了上述的基本操作,OLAP工具用于计算比率,方差,排名等提供了极大的各种数学,统计和财务运营的。

这是一个公认的事实的数据仓库(概念)设计仍然在现场(Rizzi的&Golfarelli,2000)公开的问题。大部分数据模型要么提供基于实体 - 关系(E / R)模型或UML符号图形表示,或者他们只是提供一些形式化定义,而不面向用户的图形支持。最近,Malinowsky和Zimaacute;nyi(2006)提出MultiDim模式。该模型是基于在E / R型,并提供了一​​个直观的图形表示法。最近还,魏斯曼(魏斯曼,2006年,2006年b)介绍了在决策支持系统需求获取的方法,认为用于OLTP系统的方法不适合OLAP系统。

时空数据仓库

提议科德(1970)的关系数据模型时,不wellsuited处理空间和/或时间数据。随着时间的推移数据的演变,必须在该模型中进行处理,以同样的方式作为普通数据。这是不够的,需要的过去,现在,和/或未来的数据值要由数据库与处理的应用程序。在现实生活中这样的应用比比皆是。因此,在过去的几十年中,许多研究已在颞数据库的字段来完成。斯诺德格拉斯(1995)描述了TSQL2态查询语言SQL-92的向上兼容扩展的设计。这本书,写为以Etzion的,Jajodia 1997年6月举办的研讨会Dagstuhl的结果,并Sripada(1998年),包含全面的书目,词汇表两种时态数据库和时间粒度的概念,和1998年工作的同一作者(斯诺德格拉斯,1999年)左右的摘要,在其他工作中,讨论了时空数据库的设计和实施的实际研究问题。

至于时间数据仓库和OLAP,Mendelzon和魏斯曼(2000,2003)提

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[467510],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。