基于人的流动性和POI数据的城市功能区识别外文翻译资料

 2022-08-08 03:08

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


基于人的流动性和POI数据的城市功能区识别

摘要:一个城市的发展会逐渐发展出不同的功能区,如教育区和商业区。在本文中,我们提出了一个即利用区域间的人员流动性,又利用区域内的兴趣点来识别一个城市的不同功能区的框架(称为DRoF)。我们根据像高速公路和城市快速路的主要道路将一个城市划分为相互分隔开的区域。我们使用一个基于主题的推理模型,将文档作为一个地区、一个函数作为一个话题,POIs的类别(例如,餐馆和购物中心)作为元数据(作者、从属关系和关键字),和人类移动模式(当人们到达/离开这一地区,人们从哪里来和离开) 推断出每个区域的功能。因此,一个区域是由函数的分布来表示的,一个函数的特征是移动模式的分布。我们进一步确定每个函数在不同位置的强度。框架产生的结果可以使各种应用受益,包括城市规划、商业选址和社会推荐。我们使用l 大规模的真实世界的数据集来评估我们的方法,包括北京的两个POI数据集(2010年和2011年)和两个3个月的GPS轨迹数据集(代表人类的移动能力),这些数据集分别在2010年和2011年由北京的12000多辆出租车生成。这些结果证明了我们的方法优于单纯使用POIs或人类移动性的基线方法。

关键词:功能区域,城市计算,出租车轨迹,人的流动性

  1. 简介

城市化和现代文明的进程导致了城市中不同的功能区,例如住宅区、商业区和教育区,这些功能区支持了人们城市生活的不同需求,并作为一种有价值的组织技术来构建一个大都市的详细知识。这些区域可能是城市规划者人为设计的,也可能是根据人们的实际生活方式自然形成的,并且会随着城市的发展而改变其功能和地域。在这篇论文中,我们的目标是利用人的流动性和兴趣点(POIs)来发现城市中不同功能的区域。城市被主要道路划分为独立的区域,如高速公路和环路(见图1(a))。人类的移动轨迹代表了人类的移动轨迹,可以是蜂窝网络中的蜂窝基站轨迹,也可以是驾驶路线的轨迹,或者是基于位置的服务 中的一系列帖子(如地理位置tweets、地理标记照片或签到)。POI与坐标和类别(如餐馆和购物中心)相关联。具体来说,我们在图1(a)中用相同的颜色填充可能具有类似功能的区域,并在不同的位置识别每个功能的功能强度。例如,图1(b)显示了北京已开发的商业/娱乐(一种功能)区域的功能强度,越暗的区域强度越高。这一步是由以下观察结果驱动的。有时,只有一个区域的一部分对一个功能有贡献。另一方面,一个函数可以跨越几个单独的区域(例如,一条购物街)。最后,根据方法的输出,以半手动的方式为每个函数命名一些标记。

图 1 a)功能区 b)函数的强度

发现不同功能的区域可以实现各种有价值的应用。首先,它可以让人们快速了解一个复杂的城市(如纽约、东京和巴黎)和社会推荐。例如,游客可以很容易地将一些景区与商业区区分开来,从而减少旅行规划的工作量。当地人也可以通过寻找具有相似功能的区域(如娱乐区)来扩展他们对一个城市的了解。当地人即使在大都市呆了几年,也可能不太了解大都市的每个部分,这是很常见的。第二,这些功能区可以对一个城市的城市规划进行校准,并在一定程度上对未来的规划做出贡献。鉴于城市规划本身的复杂性和预测城市发展的困难性,一个城市没有按照其最初的规划发展并不奇怪。第三,这些功能区也有利于商业和广告的选址。例如,在建造超市时,我们需要考虑到到居民区的距离,考虑到教育功能的地理空间强度,培训课程的广告可以放得更好。为了识别一个区域的功能,我们需要考虑位于一个区域中的兴趣点和这些区域之间的人类移动性,这是由于以下两个方面:

1)兴趣点数据:一方面,兴趣点表征了一个区域的功能。例如,一个包含许多大学和学校的区域很有可能是一个教育区域。另一方面,一个区域通常包含多种POI,从而具有复合功能而不是单一功能。有些地区既可以作为城市的商业区,也可以作为娱乐区。此外,来自兴趣点数据的信息不能区分不同场馆的质量,也不能反映功能区域之间的相互作用。例如,一个城市里到处都是餐馆,然而,它们可以表示不同的功能。一些小餐馆只是为了满足当地居民的日常需求而建造的,而一些吸引很多人的著名餐馆可能被认为是娱乐区的一个特征。因此,有时两个区域共享相似的POI分布,但仍可能具有不同的功能。

2)人员流动:一个地区的功能与访问该地区的人的旅行行为有很强的相关性。人类活动有助于揭示一个地区功能的知识主要有两个方面。一种是人们到达和离开一个地区的时候。另一个是人从哪里来,到哪里去。事实上,在工作日,人们通常早上离开住宅区,晚上返回。然而,人们参观娱乐场所的主要时间是工作日的晚上或者一整天的非工作日。此外,在人类活动的背景下,不同功能的区域是相互关联的。例如,到达娱乐区的人很可能来自工作区(工作日)和居住区(非工作日)。因此,如果人们从相似的功能区域前往两个区域或前往相似的功能区域,两个区域更有可能具有相似的功能。

本文报告的研究是迈向城市计算的一步,它通过理解城市动力学来实现智能城市。本文的贡献包括三点:

我们提出了一种基于主题模型的方法来识别单个区域的功能,这是使用形态学图像分割方法获得的。所提出的方法将区域视为文档,将功能视为主题,将与该区域相关的人员移动性用作单词,并将位于区域中的兴趣点视为元数据(如标题、作者、附属机构和关键词)。结果,一个区域由主题(功能)的分布来表示,并且每个主题由单词的分布来表示。该模型直观地拟合了研究结果,减少了数据稀疏问题。

我们通过每个地区的主题分布分组聚集区域来推断这些函数的区域。来自同一聚类的区域具有相似的功能,不同的聚类代表不同的功能。然后对于每个区域聚类,我们使用人类移动性作为样本的核密度估计来识别区域(属于聚类)中的功能强度。

我们使用大规模的真实世界的数据集对我们的方法进行了评估,这些数据集包括北京的两个兴趣点数据集(2010年和2011年)和2个北京分别在2010年和2011年由超过12000辆出租车生成的3个月的GPS轨迹数据集(代表人类移动性)。这些结果证明了我们的方法相对于仅使用兴趣点或人类移动性的基线方法的优势。此外,这些强大的数据集使我们不仅可以研究城市的功能区域,还可以研究城市多年来的演变。

根据图2所示的我们的工作框架,本文的其余部分组织如下:第2节发现了每个区域的函数分布,包括地图分割和来自文档主题模型的类比。第3节基于发现的与每个区域相关的功能分布来识别聚集的功能区域,并估计每个功能的强度。第4节报告了评估结果,第5节对相关工程进行了分类。最后,我们在第6节对论文进行了简要的总结。

图 2 发现功能区域的框架

  1. 区域主题的发现

在本节中,我们首先将一个城市的城市区域划分为区域单元,形成多个主要的道路网络,然后使用基于主题模型的方法来划分每个区域单元中的功能分布。

2.1地图分割

道路网络通常由一些主要道路组成,如高速公路和环路,它们自然地将一个城市分成多个区域。例如,如图4所示,红色线段表示北京的高速公路和城市快速路,蓝色线段表示城市主干道。这三种道路分别与道路等级0、1和2(在道路网络数据库中)相关联,形成北京市区的自然分割。按照[2]中提出的定义,我们在本文的其余部分将每个分割区域称为“形式区域”。从本质上讲,正式区域是承载社会经济功能的基本单位,原因如下。第一,人们生活在正式区域,poi属于区域。第二,作为旅行起点和终点的正式区域是人类流动的根本原因。简而言之,人们在正式地区之间旅行。

在我们的方法中,我们选择基于栅格的模型来表示道路网络,并利用形态学图像处理技术解决地图分割的任务。通常,在地理信息系统中,有两种模型来表示空间数据:基于矢量的模型和基于栅格的模型。基于矢量的模型使用点、线和多边形等几何图元来表示笛卡尔坐标引用的空间对象,而基于光栅的模型将一个区域量化为小的离散网格单元。根据具体应用,这两种模式各有优缺点。例如,基于向量的方法对于精确地寻找最短路径更为有效,而当执行拓扑分析时,它需要密集的计算,例如地图简化问题[5],其被证明是NP完全的[5]。另一方面,基于栅格的模型对于地域分析来说计算效率更高且更简洁,但是精度受到用于离散化道路网络的单元数量的限制。

具体而言,基于栅格的地图是二进制图像(例如,0代表路段,1代表空白空间)。为了去除不必要的细节,比如道路经过(见图3(a)),我们首先执行一个膨胀操作来加厚道路。因此,我们可以填充小孔并消除不必要的细节,如图3(b)所示。其次,我们通过基于[9]中提出的算法执行细化操作来获得道路网络的骨架,如图3(c)所示。该操作恢复由膨胀操作减小的区域的大小,同时保持区域之间的连通性。最后一步是执行连接组件标记(CCL),使用[15]中提出的方法,通过聚类“1”标记的网格来找到单个区域。图3(d)显示了结果。

图 3 地图分割

图 4 北京路网。红色:0/1级;蓝色:2级

2.2主题发现

定义1(过渡)。过渡Tr是包含以下四项的四元数:起始区域(Tr.rO)、离开时间(Tr.tL)、目的区域(Tr.rD)和到达时间(Tr.tA)。这里的Tr.r0.和Tr.rD是空间特征,其他是时间特征。

定义2(机动性)。可变性模式是从过渡中提取的三重模式。给定迁移率Tr = (Tr.rO,Tr.rD,Tr.tL,Tr.tA),我们得到两种迁移率模式:离开迁移率模式M1 =(Tr . r0,Tr.rD,Tr.tL),和到达迁移率模式MA= (Tr.rO,Tr.rD,Tr.tA)。

定义3(过渡立方体)。长方体C是一个Rtimes;Rtimes;T的长方体,其中R是区域的数量,T是时间仓的数量。由于存在两种类型的迁移模式,我们定义了两种类型的过渡长方体:离开长方体CL和到达长方体CA。离开立方体的具有索引(I,j,k)的单元记录离开ri rj时间tk的迁移率模式的数量,即

CL(i,j,k) =||{ML= (x,y,z)|x = ri,y = rj,z = tk}||。

类似的,

CA(i,j,k) =||{MA= (x,y,z)|x = ri,y = rj,z = tk}||。

我们将代表人类移动性的每条轨迹投影到分割的区域单元上,将轨迹转变为过渡。然后,我们将一天中的时间离散化到时间箱中,在每个时间箱中存放转换并制定移动模式。在这里,我们不区分不同的工作日,而是区分工作日和周末的时间仓。例如,将2小时设置为一个箱,我们总共将有24个箱(工作日12个,周末12个)。随后,使用迁移模式构建两个过渡长方体。

主题模型的概念。概率主题模型已经成功地用于提取大型文档档案中隐藏的主题结构[3]。在这个模型中,一个语料库的每个文档展示多个主题,文档的每个单词支持一个特定的主题。给定语料库中每个文档的所有单词作为观察结果,训练主题模型来推断观察结果背后隐藏的主题结构。潜在狄利克雷分配(LDA)是一个包含隐变量的生成模型。该模型背后的直觉是,文档被表示为潜在主题的随机混合,其中每个主题都由单词分布来表征[4]。设alpha;和eta;分别为狄利克雷文献主题分布和主题词序分布的先验参数。假设有K个话题,beta;是K times; V矩阵,其中V是词汇中的字数(语料库D中的所有单词)。每个beta;都是词汇的分布。潜在客户文档的主题比例为theta;d,其中theta;d是潜在客户文档中主题k的主题比例。第d个文档的主题分配是zd,其中zd是第d个文档中第n个单词的主题分配。最后,文档d中观察到的单词是wd,其中wd是文档d中的第n个单词,是固定词汇中的一个元素。使用上述符号,如图5所示,生成过程可以描述如下:

1.对于每个题目k,画出beta;kinfin;Dir(eta;)。

2.给定语料库D中的dth文档D,画出theta;dor;Dir(alpha;)。

3.对于dth文件中的第n个单词wd,n,

(a)绘制zd,nor;Mult(theta;d);

(b)绘制wd,ninfin;Mult(beta;Zd,n)。

这里Dir()是狄利克雷分布,Mult()是多项式分布。线性判别分析的估计可以用电磁算法实现,最常用的线性判别分析推断方法是吉布斯抽样。关于变分推理方法和线性判别分析的详细讨论,见[[4]。

图 5 线性判别分析的图形模型

2.2.2主题建模

如表1所示,我们在发现一个区域的功能和文档的主题发现之间进行了类比。具体来说,我们将正式区域视为文档,将功能视为主题。换句话说,具有多种功能的区域就像包含各种主题的文档。同时,我们将与一个地区相关的流动模式视为文字,将潜在利益相关者视为文件的元数据,因为一个功能性地区的特点是其活动集聚、区域内交通基础设施、人员流动和互动边界

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[257171],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。