从社交媒体签到数据揭示城市间出行和空间交互模式外文翻译资料

 2022-04-26 10:04

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


从社交媒体签到数据揭示城市间出行和空间交互模式

刘瑜*、隋正伟、康朝贵(音)、高勇(音)

北京大学遥感与地理信息系统研究所,北京,中国。

摘要

本文回顾空间交互和距离衰减从人类的角度移动模式和空间——嵌入式网络基于实证数据集。我们从支票提取全国inter-urban运动在中国——在数据集覆盖一百万个城市有一百万个人在分析底层的旅行和空间交互模式。通过拟合重力模型,我们发现观测到的空间相互作用受幂律距离衰减效应的影响。得到的重力模型也能很好地再现指数行程位移分布。然而,个体的运动可能不遵循同样的距离衰减效应,导致了生态谬误。我们还构建了一个空间网络,其中边权表示交互强度。从网络中检测到的社区具有空间内聚性,与省份边界基本一致。我们将此模式归结为省内和省际间的不同距离衰减参数。

引文:Liu Y, Sui Z, Kang C, Gao Y(2014)从社交媒体签到数据中揭示城市间旅行和空间互动的模式。《公共科学图书馆bull;综合》9(1):e86026。doi:10.1371 / journal.pone.0086026

编辑者:Peter Csermely, Semmelweis大学,匈牙利。

收文2013年10月16日;接受2013年12月7日; 出版2014年1月17日,

版权:copy;2014刘et al。这是一个开放的文章下分布式知识共享归属许可条款,允许无限制的使用、分配、和繁殖在任何媒介,被认为提供了原作者和来源。

资助:本研究由中国自然科学基金(NSFC, http://www.nsfc.gov.cn)资助41271386。资助者在研究设计、数据收集和分析、决定出版或准备手稿方面没有任何作用。

相互竞争的利益:作者宣称没有竞争的利益存在。

*电子邮件:liuyu@urban.pku.edu.cn

概述

近年来,一些支持地理标记信息提交和共享的社交媒体网站被引入并取得了巨大的商业成功。这些网站提供了各种功能,如社交网络型(Facebook)、微博型(Twitter)、照片分享型(Flickr)和基于位置的签到型(Gowalla和Foursquare)。每个网站都有数以百万计的注册会员,他们的提交是一种重要的大数据类型。由于许多信息是用户生成的,并与特定的位置相关联,Goodchild创造了“自愿地理信息”这个术语[1]。在本文中,我们使用“签入记录”来表示用户发布的一块地理标记内容。一个签入记录通常包含一个简短的文本消息、一张照片,以及指示何时何地发布消息的时间和地点。使用签到数据集,我们可以提取大量个人的足迹。虽然一个人的轨迹是随机的,但当轨迹的数目增加时,我们可以找到潜在的模式。一个有趣的例子是一个地图,它描绘了Foursquare上最后5亿的签到点,它清楚地显示了全世界的人类活动分布(https://foursquare.com/infographics/500million)。很多研究都是使用签到数据进行的,有时还会有一些额外的数据,比如用户之间的社会联系,这些数据来自不同的来源。可以确定几条维持现状的工作。在个体层面,研究了人类的移动模式[2,3]和地理对社会网络的影响[4,5]。在总体水平上,这些数据使我们能够研究区域之间的空间活动分布和空间相互作用[6]。

同时近年来,人类的移动模式在物理学[7]、地理[8、9]、计算机科学[10]等领域引起了广泛的关注[10],并获得了多源轨迹数据[11]。然而,这些研究要么不区分不同空间尺度的运动模式,要么关注城市内的旅行模式。城市间旅行与城市内旅行的机制不同,这是很自然的。例如,一般来说,一个人有两个经常重新访问的锚点(即家庭和工作场所),通勤者在城市内部旅行中占据很大的比例。相反,我们只能找到一个锚点,与他(或她)的家乡相对应,从一个人的轨迹到城市间的尺度。然而,不同的人类活动模式是否存在不同的机制,仍然是一个研究问题。由于缺乏个人的城市间发展轨迹,对这一点的研究比较少。显然,一个签到数据集可以对城市间的流动性进行调查,以实现其巨大的时空覆盖。

在这项研究中,我们使用了由大约50万用户提交的社交媒体签到数据集来研究城市间的旅行模式。在集体层面,这些旅行体现了城市间的空间互动优势。我们的研究有三个目的。首先,我们打算揭示从签入记录中提取的行程中潜在的距离影响。其次,我们尝试将集体层面上的模式与人类活动的个体层面联系起来,并与手机或出租车数据集揭示的城市内部模式进行比较。最后,我们研究了基于城市间空间相互作用的研究区域的距离衰减效应对区域的影响。

研究背景

本节对三个领域的研究进行了总结:空间交互、人类移动模式和空间嵌入式网络。第一个是地理应用的一个基本主题,最近的两个在地理和物理研究中都引起了广泛的关注,有了时空标记的大数据。本研究利用经验数据集揭示了它们之间的内在联系。

1.空间相互作用中的距离衰减效应

城市和区域等地理实体之间的空间互动有助于我们理解区域的空间结构,规划有效的空间配置。在实践中,相互作用的强度可以通过乘客数量[12]、迁移流动[13]、贸易流、货币流动、远程通信[14-16],甚至是与地名的共同出现来衡量[17]。由于空间相互作用的复杂性,涉及到多个空间节点的对,在有效地可视化空间相互作用和划分有意义的子区域方面也进行了大量的研究[18,19]。

大多数空间相互作用系统都受距离衰减效应[20]的影响[0],这在引力模型[21]中普遍存在。根据牛顿的万有引力定律,重力在地理应用上的模型被制定为=

其中Iij和dij表示从i到j的相互作用,以及两个位置之间的距离,Pi和Pj分别是位置i的斥力和j位置的吸引力。如果我们不区分这两个方向,Iij表示从i到j和j之间的流的和,而Pi和Pj通常是由位置的大小来近似的。重力模型已被广泛用于估计流量和迁移流量。在模型中,距离衰减函数可以随着兴趣的应用而变化(例如,交通流与迁移)和技术革新[22],一个固定的衰变函数可能不适合所有的问题。人口规模可能无法准确描述地方的排斥力或吸引力。许多研究利用观测到的相互作用强度和地理实体之间的距离来拟合重力模型,从而得出每个实体的理论大小(或节点吸引力)和距离摩擦函数f(d)。王[23]总结了f(d)的几种形式,其中包括幂律函数被广泛应用。距离衰减参数b显示了由于的规模自由特性,对交互行为的距离影响。我们可以用它们的b值来比较不同的交互行为。较大的意味着更快的衰减效应且相互作用更受距离影响。

为了拟合重力模型,多实用的方法被设计了出来,包括线性规划[24]和简化代数方法[25,26]。最近,引入粒子群优化(PSO)方法来适应重力模型[11]。这种方法的优点是双重的。首先,它适用于低密度的交互网络,即某些节点的相互作用不存在。其次,在优化模型来估计节点吸引力时,可以利用幂律之外的不同距离摩擦函数。

2.人类移动模式

了解人类的移动模式可以帮助我们在许多领域,包括流行病控制和交通管理[27-29]。为了研究人类的移动模式,引入了大量的数据源。其中包括手机通话记录[7,30],GPS(全球定位系统)启用出租车轨迹[8,9,31],公共交通系统的智能卡记录[32],签到数据[2,3]。一些测量可以用来量化人类的移动模式[33,34]。其中,对位移的分布进行了广泛的研究。现有研究表明,距离Dd (Dd)的运动的概率随着Dd的增加而减小,表明距离衰减效应。不同的研究表明,P(Dd)可以通过。不同的统计分布,如幂律P(Dd),Dd2b。[2,10],指数律P(Dd),exp(2kDd)[30,31],或指数截断幂律P(Dd),exp(2kDd)Dd2b[7,9]。上述分布的参数在流行病或病毒扩散等应用中非常重要[28,35]。特别是,当P(Dd)遵循幂律分布1,b,3,和方向分布是均匀的,轨迹可以建模的Leacute;v飞行。

已经提出了各种模型来解释观察到的人类移动模式。它们考虑了不同的影响因素,如人口特征[7]、individ- uals的活动(例如返回特定点、[36])、地理图环境[30,37 - 39]和距离效应[3,9,40]。这些方面是人类地理的核心,因此基于大数据的人类移动研究能够从一个新的角度阐明理解人类环境的相互作用。

3.Spatially-embedded网络

给定一组具有已知相互作用强度的地理实体,我们可以构建一个空间内嵌的网络(或空间网络),其中每个节点都位于空间中,以便测量每两个节点之间的距离[41]。一个空间网络可能是有形的(例如街道网络)或无形的(例如从社交媒体构建的飞行网络或网络)。随着复杂网络研究的发展,许多地理学研究将复杂的网络方法引入地理分析[42-43]。

在复杂的网络分析中,检测社区是一项重要的任务。给定一个网络,一个社区是一个相对密集的节点到节点连接的子集。提出了[45]、多层方法[46]、fastmethod[47]、infomap method[48]、walktrap method[49]等多种算法。在社区检测过程中,图形的模块化被广泛用于衡量一个部门的好坏。对于一个加权图,该模块化计算为:

Q= (1)

其中m是边的数量,Aij是节点i和j之间的边权,ki和kj是连接到两个节点的边的和权值。ci和cj表示i和j和D(x,y)的社会,当x = y和0时,x = y = 1。

对于一个空间网络,一个社区对应一个区域,该区域可能是空间连接的或断开的(即有飞地)。因此,社区检测方法被扩展到考虑特定的空间特征,如邻接约束[17]和距离效应[50],用于区域化。然而,一些研究直接使用传统的空间网络社区检测方法,包括全球飞行网络[51]、电话通信网络[52、53]和由运动构成的网络[54,55]。有趣的是,这样的网络产生的是空间连接的区域,而有些区域与行政单元相当吻合.

例如,De Montis等人报告说,在许多情况下,从意大利撒丁岛(Sardinia,意大利)的人流中获得的社区与行政配置相匹配[54]。在本研究中,我们尝试用距离衰减效应来解释空间连接。

材料资料

1.数据描述

这项研究使用了一个从中国主要的LBSNS(基于位置的社交网络服务)提供商收集的签到数据集,这可以被看作是西方世界的Foursquare的对等物。由于我们的实验室(Geosoft@PKU)与LBSNS供应商的合作,我们获得了数据集。该数据集包含了从2011年9月到2012年9月期间约52.1万名注册用户的签到记录。请注意,在数据集中存在假签入。一个假的签入记录意味着其真实位置之间的距离,用地理坐标表示,其声明的地点大于一个阈值。在过滤掉虚假的签到之后,我们获得了大约23,500,000条记录。所有签到点的热图清晰地显示了中国的城市化地区(图1A)。为了定性分析,数据集也记录地名来描述足迹。所有地名都是预先定义的,对应不同层次的行政单位。从数据集来看,我们一共确定了370个地方,包括4个直接控制的城市(北京、上海、天津、重庆)、澳门、香港、332个地级市、13个县级单位和19个台湾城市。到2013年,中国有333个地级单位。在数据集中,我们在西藏的日喀则没有找到任何入住记录。中国的行政区划制度相当复杂,读者可以参考维基百科的词条。为了更好地站在自己的立场上。在这个研究中,一个地方被抽象到一个点,即首都的(或城镇的,在非常罕见的情况下)单位的位置。在该地点内的所有检入位置都被捕获到点,以便我们可以研究空间相互作用的总体水平(参见支持信息中的表S1和S2,以了解城市之间的空间交互和距离,以及370个城市的地理位置)。为了简单起见,我们使用“城市”一词来表示一组签到点。一个城市的总检入量与它的大小是正相关的,这是很自然的。这是通过签到(图1B)的分布来确定的,这与中国城市的等级分布是一致的[56]。

给定一个用户,他或她的轨迹可以被形式化。

{lt;City1,T1gt;,lt;City2,T2gt;hellip;.lt;Cityn,Tngt;},这里的n是用户的签到数据数量,Cityi则是在Ti时间内经过的城市(1lt;=ilt;=n)。图2A绘制了所有用户的核对数字的分布图,这些数字符合幂律分布。从每个用户的足迹,我们可以提取他或她访问过的城市。图2B所示的访问城市分布情况也说明了一个重尾分布。在所有用户中,有23.7万人(45.6%)至少访问过两个城市,因此我们可以为这些用户构建城市间的规模轨迹(图2C)。

2.数据评估:一种比较方法

从签到记录中提取的城市间运动与代表性问题有关。换句话说,并不是所有的个人都是LBSNS的注册用户。根据

Foursquare的统计数据(http://www.factbrowser.com/tags/foursquare /),其注册用户中有很大一部分是年轻人,用户可能会在机场等特定地点签到。对于Jiepang数据集也是如此。为了评估数据,我们将2011年的航班乘客数据作为比较。飞行数据集包括79个城市和541对流动,由Tfij代表城市i和j. Tfij是2011年城市i和j之间的乘客数量。从签到数据中,我们还计算了541个城市对的行程编号Tcij。二者之间在很低的 上显示他们正相关(0.533)(图3)。低表明,签入

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[465369],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。