从手机数据中揭示区域特征:一种网络科学的方法外文翻译资料

 2022-08-27 10:08

英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料


从手机数据中揭示区域特征:一种网络科学的方法

摘 要

我们引入网络科学方法来揭示功能区域的固有特征。基于1000万匿名用户在一个月内拨打4.31亿次移动电话的大型移动电话数据集,以及每次通话所涉及的移动基站的地理位置,构建聚合空间交互网络。我们使用Thiessen多边形(称为“单元”)作为分析单元来近似每个移动基站的服务区域。主要发现包括以下三个方面。一是空间中心性高的细胞呈线性分布,与主要交通通道紧密相连;我们发现这种模式可以通过分析交通网络上的呼叫活动的特征来解释。其次,我们发现了一个与县、地行政单位边界相对应的两级社区等级。最后,在这两个层次上确定的几乎每个社区都包含一个具有高度中间性的单元。这些单元位于政治和经济中心附近,在区域社会经济系统中发挥枢纽的作用。研究表明,基于手机数据构建的网络为空间相互作用和区域结构提供了新的认识。

关键词 空间网络;区域结构;社区检测;中间性;手机数据

目 录

第1章 绪论 3

1.1 引言 3

第2章 方法及相关研究 4

第3章 数据描述 6

第4章 Cell-based交互网络 7

第5章 中间性中心 11

第6章 社区检测 13

第7章 社区与中介性 16

第8章 讨论 16

结 论 19

参考文献 21

第1章 绪论

1.1 引言

当代信息行业的进步通常都指向为大数据(Kitchin 2013),手机数据可以产生大量迄今为止无法达到的个人层面的信息,允许发现新的知识交流和运动轨迹和行为。它们的可用性引发了一系列的研究,从时间上和空间上呼唤活动的规律(Ratti et al. 2006;Sevtsuk和Ratti 2010;Kang等人2012;Yuan等2012;Csaacute;ji et al. 2013),社交网络的基本属性(Onnela et al. 2007;Lambiotte et al. 2008),社交网络结构及其相关影响(Palla et al. 2007;Hidalgo和Rodriguez-Sickert 2008)和人类移动模式(Gonzaacute;lez等,2008;Cho等人2011年;Noulas等人2012)。空间网络是指节点和边缘嵌入物理空间的网络。在空间网络方面,两种特定的区域科学研究已经通过手机数据进行。首先,引力定律被应用于城市中心之间的交流强度(Krings et al. 2009;Kang et al. 2013),并推断两个客户有联系的概率(Lambiotte et al. 2008;Krings et al. 2009)。第二种是关于社会团体的,这些团体的凝聚力可以追溯到成员之间使用手机的情况。相关研究表明,检测到的社区往往与行政边界相一致(Blondel et al. 2010;Ratti等人2010;Tanahashi等人2012)。一些研究人员提出了替代模块功能,考虑不同的空间信息来衡量网络社区划分的好坏,从而更合理地反映区域结构(Expert et al. 2011;Gao等人2013)。

我们认为,在空间聚集的层面上,手机通话量可以用来衡量构成某一区域的成对地方之间的空间相互作用。换句话说,这个指标是地方之间各种社会经济联系和互动的一个代理。一对地方之间的紧密移动电话联系意味着强大的经济互动。Mao等人(2013)发现,发起电话的频率与贫困率和年收入等社会经济指标有很好的相关性。在这个研究,研究建立了传统Ullman Nystuen和达西之间所进行的(1954)和(1961),古尔德(1991)、诺和Goodchild(1992),(1996)等人,认为“地理空间互动的,我们使用手机数据来揭示区域的空间结构的基础上,两个网络介数中心和社区的概念。中间性中心性关注网络中每个节点的重要性,并确定空间网络的关键“枢纽”。介于评估每个节点的作用,社区检测扩大了范围以捕捉多个节点相互作用产生的区域结构,因为它通过识别最完整的子区域来给出研究区域的区域化。这两种方法相辅相成,都有助于揭示区域环境中网络的空间结构。

鉴于手机数据提供了新的研究机会,本研究的目的是利用网络科学方法揭示一个区域的空间结构和特征。由于移动电话通信在创造和维持当代社会各区域的社会经济凝聚力方面的重要意义,这一办法最为恰当。

本文的其余部分组织如下。第二节对相关研究进行了回顾,并介绍了本研究所采用的方法。我们将在第3节和第4节中描述数据集以及如何构建基于单元格的交互网络。在第5节中,我们首先考察了交通网络在社会经济联系中的作用,然后解释了为什么交通网络可以增加互动网络中邻近细胞的中间性中心性。在第6节中,我们检测了多层次的社区,以揭示不同层次的行政区划如何影响人类空间互动的方式。在第7节中,我们还考察了各群落间高间接性细胞的分布,以了解各群落间经济联系的空间结构。我们将在最后两部分讨论我们的发现并得出结论。

第2章 方法及相关研究

中间性中心性是一个节点在其所属的更广泛的网络环境中传输信息时的重要性的度量。中间性中心性是指某个节点在整个网络中连接其他节点时的全球重要性。它通常被计算为通过感兴趣节点的连接节点对的最短路径的分数(Freeman 1977):

(1)

其中sigma;ij 是节点I到节点j的最短路径数与sigma;ij(k)是节点I到节点j经过节点k的最短路径数。

在网络研究中另一个广泛使用的测度是节点度,它表示一个节点的直接连接邻居的数量。中间性和程度这两个度量方法,反映了节点在网络中角色的不同方面。度计算的是直接连接到一个节点的节点数,而不考虑该节点的其他间接连接,而连接度衡量的是一个节点作为“桥梁”连接那些没有直接连接的节点的概率。换句话说,度衡量的是一个节点在局部区域的重要性,而间度评估的节点考虑的是一个网络的全局结构。

Barthelemy(2004)验证了在大型复杂网络中,中间性中心性理论上随节点度的幂律增加而增加。这是合理的,因为节点在不同区域之间提供路径的能力决定了其之间的中心性,且节点程度越高,连接不同区域的概率越高。然而,Guimera et al.(2005)通过对全球航空运输网络的分析发现,由于网络中存在特定的社区结构,程度高的节点并不总是具有高的中间性。关于边缘之间性,Onnela et al.(2007)发现手机网络中链接权与中间性中心呈负相关。然而,这些研究都是基于个体网络,在计算中间性中心性时只考虑网络的拓扑性质,忽视了空间因素可能促进或制约区域间社会经济联系的事实。空间结构对节点间性中心性的影响研究较少,但对节点间性中心性的研究较少。

移动通信网络中的社区概念不同于传统的社区,社区是一种具有共同特征的社会组织,通常涉及面对面的接触。在复杂网络科学中,社区被定义为一组紧密连接的节点,这些节点可能具有共同的属性(Girvan and Newman 2002)。另一方面,社区之间的连接通常是松散的。

基于手机数据的社区检测研究根据网络节点的含义分为四组:基于个人的网络(Onnela et al. 2007;Palla等人,2007;Blondel et al. 2008),市政网络(Blondel et al. 2010;Tanahashi等人2012)、基于像素的网络(Ratti等人2010)和基于细胞的网络(Gao等人2013)。网络的类型最终由数据源决定。后三个网络的节点是通过根据呼叫者的账单记录,或根据呼叫者的地理位置,将个人分配到市政辖区来进行地理编码的。使用这三个网络检测到的社区通常与管理区域明显匹配。另一方面,由于节点和社区数量庞大,最常见的基于个人的网络难以可视化。通常只选择部分节点和边来显示结果(Blondel et al. 2008)。

已经开发了许多算法来检测多层社区(Sales-Pardo et al. 2007;Blondel等人,2008;Clauset等,2008;Ronhovde和Nussinov 2009;Ahn等人2010;Rosvall和Bergstrom 2011年)。Blondel等人(2008)采用了多层社区检测算法,但只分析了顶层社区的配置。Ahn等人(2010)提出了一种寻找重叠和分层组织的社区的算法。然而,在这两项研究中使用的手机网络都是基于个人的网络,缺乏空间信息。迄今为止,除了Sobolevsky等人(2013)和De Montis等人(2013)最近的贡献,很少有研究试图检测聚集的和空间嵌入的网络中的多级社区。这两项研究都是基于模块化极大值算法。Sobolevsky et al.(2013)对每个基于手机通信网检测到的一级社区采用社区检测方法,从而发现了嵌入在第一级的较小的二级社区。这种自顶向下的方法与本研究中使用的过程相反,在本研究中,我们根据前一阶段检测到的较小社区来识别较大的社区。这源于算法之间的根本差异,因为模块化最大算法通常会找到更大的社区,而本研究中使用的Infomap算法通常会找到更小的社区。De Montis等人(2013)使用了基于通勤运动网络的Louvain算法(Blondel等人2008)。该算法可以一次性发现多级社区。在本研究中,我们采用两步方法,重点研究城市区域系统中检测到的模式和异常值的含义。

目前有许多算法用于检测网络中的社区(Fortunato 2010)。当他们比较12种不同的算法时,Lancichinetti和Fortunato(2009)发现Infomap算法在一组基准测试中是最好的。此外,该算法在处理无向网络和加权网络时表现出了良好的性能。因此,我们选择Infomap算法来分析我们的交互网络。该算法从孤立的节点开始。然后,邻近的节点被连接到模块中,以尽可能减少“描述长度”,这是用来衡量社区划分的好坏。当描述长度最小时,达到最优群落数量。更详细的信息,请参考Rosvall和Bergstrom(2008)。可以使用许多包来实现这个算法。在本研究中,我们使用R (Csaacute;rdi和Nepusz 2006)中的igraph包,并运行算法十次,以确定结果的稳健性。

第3章 数据描述

研究区域为中国东北的黑龙江省(图1),由13个地级单位组成,再细分为79个县(关于中国行政区划制度的详细信息见Chan 2007)。为简单起见,在本文中,我们不会在部门名称后添加“city”或“county”。值得注意的是,嘉格达奇是大兴安岭地区的一个飞地城市,位于邻近的内蒙古省。哈尔滨是省会城市。图1的插图显示了邻近的哈尔滨市县和Thiessen多边形近似的基础塔细胞在哈尔滨地区。

本研究使用的手机数据集包括黑龙江省1000万用户一个月来的约4.31亿次手机通话记录。数据集中的每条记录都包含关于服务器号、相对号、呼叫类型(服务器/相对号)、日期、时间、持续时间和呼叫路由所经过的基站的信息。该数据集共有6,397座塔具有地理坐标。

我们使用Thiessen多边形(称为“单元”)作为基本的分析单元(如图1所示)。一个Thiessen多边形近似于一个基础塔的服务区域(Gonzaacute;lez等,2008;康Et al. 2012),由塔的空间分布决定。

图1 中国黑龙江省研究区

由于移动基地塔的空间分布不均匀,Thiessen多边形的面积变化很大。一般来说,城市的泰森多边形要比农村的小。在黑龙江,平均小区面积约71公里2, 17.6%的细胞小于1km2

第4章 Cell-based交互网络

本研究仅考虑黑龙江省数据提供商客户之间的移动通信。本研究不包括通过固定电话、其他电信运营商或其他省份进行的通信。由于加格达奇市与黑龙江主陆块的空间分离,我们也排除了移动通信(图1)。在相互通信的基础上,我们构建了一个节点代表细胞,边代表细胞之间的连接的网络(图2a)。得到的网络G1 (图2b)由6397个节点组成,这些节点由540万条无向边连接,平均度lt;kgt; = 1690。注意,我们不考虑一个单元内的连接,因此回路在这个网络中不存在。与一条边相关联的权重可以是调用数或由该边连接的单元之间的通信时间。电信业使用Erlang值来测量总通信时间(Freeman 2005)。一个Erlang指的是一个小时的电话交流。我们使用术语Erlang代替通信时间来度量通信的总量。

对每个小区的呼叫数和Erlang之间关系的分析表明,它们与R有很强的正相关关系R2 = 0.97(图3a)。

注:细胞间的相互作用强度是通过汇总个体间的相互作用来计算的。例如,细胞之间的重量C<s

剩余内容已隐藏,支付完成后下载完整资料</s


资料编号:[405775],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。