为什么我们使用微博:理解微博的使用和交流外文翻译资料

 2022-10-22 04:10

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


为什么我们使用微博:理解微博的使用和交流

阿克沙伊

小丹的歌

马里兰大学巴尔的摩分校

NEC实验室美国

1000山顶圆

10080沃尔夫路,sw3-350

巴尔的摩,医学博士21250,美国

丘珀蒂诺,加利福尼亚州95014,美国

aks1@cs.umbc.edu

xiaodan@sv.nec-labs.com

提姆

贝乐曾

马里兰大学巴尔的摩分校

NEC实验室美国

1000山顶圆

10080沃尔夫路,sw3-350

巴尔的摩,医学博士21250,美国

丘珀蒂诺,加利福尼亚州95014,美国

finin@cs.umbc.edu

belle@sv.nec-labs.com

摘要:

微博是一种用户可以通过即时消息、手机、电子邮件或网络来描述他们目前的状态的新的传播方式。Twitter,一个流行的微博工具,自从它在2006年10月推出以来,已经看到了很多的增长。在本文中,我们提出我们对微博现象的观察。通过研究微博社交网络的拓扑和地理特性。我们发现,人们使用微博来谈论他们的日常活动,并寻求或分享信息。最后,我们分析了用户的意图与一个社区的水平有关,并显示用户如何与相似的意图彼此连接。

关键词

社交网络分析,用户意图,微博,社交媒体

1.简介

微博是一种相对较新的现象定义为“一种博客形式,可以让你写简短的文字更新(通常不到200个字符)关于你的生活的去并通过短信、即时通讯、电子邮件或是网站的形式发送给他们的朋友和感兴趣的用户。它是由twitter,jaiku等几个服务器提供。这些工具提供了一种轻量,易于沟通的形式使用户可以播放和分享有关他们的活动,意见和地位的信息。其中一个热门微博平台是“推特”。根据comScore的数据,在推出八个月内,推特在2007年月约有94000用户。图1显示了第一作者的推特网页快照。更新都被限制在140字以内用来藐视一个人的状态。话题遍布日常生活到时事、新闻报道和其他有趣的事。IM工具包括Gtalk,雅虎和MSN,允许用户在他们的好友列表与朋友分享他们的现状。微博工具方便地共享状态信息,无论是公开还是在社交网络中。

图1:一个关于日常经历和个人兴趣的主页。

与普通博客相比,微博满足了一种更快速的交流方式。通过鼓励较短的帖子,它降低了用户对内容生成的时间和思想的投资需求。这也是它版本博客不同的的主要因素。第二个重要的区别是更新的频率。平均来说,一个多产的博客会更新她的博客每隔几天;另一方面,微博可以在一天的更新几次。随着微博和类似的微博系统的普及,了解人们为什么以及如何使用这些工具是很重要的。理解这将有助于我们发展微博的思想和完善微博客户端和基础设施软件。在这样的系统中,我们通过研究微博现象和分析不同类型的用户的意图来解决这个问题

大部分的研究者注重于理解用户搜索查询的意图。据布罗德,搜索查询三类主要是导航、信息和交易。理解搜索的意图和内容创建的用户意图是非常不同的。在博客的一个调查中,纳迪等人,描述“为什么我们使用博客”的不同动机。他们的研究结果表明,博客是用来作为一种工具来分享日常经验,意见和评论。基于他们的采访,他们还描述了如何在现实世界中,博客如何来支持不同的社会团体。慢板等人解释了社会关系在做决定中的重要性,把是否用户仍将在博客工具保持活跃,称为冲击力。一个用户在博客的留存和兴趣可以通过收到的评论以及与其他积极的社会成员的关系来预测。被与预先存在的社会关系的人邀请的用户往往停留时间较长,在网络中也更活跃。甚者,某些社区由于存在这样的关系,也拥有更多的留存率。在发现社区中,网络中的相互意识以及被发现是有效的

在计算语言学家中,研究者们已经研究了在对话系统和口语交互的基础上的交际意图的问题。这项工作的基础要追溯到奥斯丁,斯塔沃、格莱斯和艾伦进行的关于人和人、人和电脑在困难环境中合作的经典研究分析对话中。最近,松原有意图提高汽车语音对话系统的性能。虽然他们的工作主要集中在正在进行的对话分析中的两个代理之间的一个相当明确的领域,但研究基于网络的用户意图仍需要看内容和链接结构。

在本文中,我们描述了用户如何通过一个特定的微博平台,推特。微博是比较新生的,而且对我们的知识有益的是没有进行过大规模的研究,只是单纯这种形式的交流和信息分享。我们研究推特社交网络的拓扑结构和地理结构,试图了解微博的用户意图和社区结构。从我们的分析中,我们发现,用户的意图的主要类型是:每日的聊天、对话,共享信息和新闻报导。此外,用户在不同的社区中扮演不同的信息来源,朋友或寻找信息的角色。本文的组织如下:在第2节中,我们描述了数据集和一些底层社会的推特用户的特征,第3节提供推特的社会网络及其传播跨地域分析。接下来,在第4节中,我们描述了聚合用户行为和社区一级用户的意图,第5节提供了分类的用户目标,最后在第六节,我们总结我们的研究结果,并得出结论。

2.数据集描述

Twitter是目前最受欢迎的微博平台之一。用户各通过一个网页界面来进行及时通讯、发送更新。成员可以选择使其公开发送或只提供给朋友。如果用户的配置文件是公开的,她的更新出现在“公共时间线”的最新更新。在这项研究中所使用的数据集是建立在2007年4月1日至2007年5月30日为期两个月,监测这个公共时间线创建,每30秒就有一组最新的更新。此集合中有76177个不同的用户共有1348543个帖子。

推特允许用户,A,“关注”其他成员并查看“朋友”的更新状态。不是朋友关系,但“关注”她的微博被称为“粉丝”。这样的友谊可以得到回粉亦或单向。利用推特开发者API,我们构建了所有用户的社会网络。我们构建了一个有向图(V,E),在这里V表示一组用户,E代表 “朋友”的关系。如果用户声明为一个朋友,你和第五个用户之间存在一个定向的边缘。他们之间一共有829053个不同的节点, 87897个朋友关系。一些用户发现这个图中有更多的节点基于数据收集的时间期间没有任何帖子的链接结构的事实。对于每一个用户,我们也获得了他们的个人资料,并将其映射到地理坐标,在下面的部分中提供的细节。

3.关于推特

本节介绍了推特社交网络的一些特性,包括其网络拓扑结构和地理分布。

3.1微博的发展

由于推特提供了一个连续的用户和发送标识符,我们可以估算出推特的增长率。图2显示了用户的增长速度,图3显示了这个集合中的帖子的增长率。由于我们无法获得历史数据,我们只能观察它二个月时间段时间的增长。对于每一天,我们确定提供的最大值的用户标识符。通过观察这些值的变化,我们可以粗略估计推特的增长率。需要注意的是,尽管推特在2006年推出,它真的成为流行是2007年3云赢得西南会议网站奖之后。图2显示了用户在本次会议上所产生的兴趣和宣传的初始增长。在此期间,新用户加入网络的速度已放缓。尽管慢下来,由于每个月稳定的用户群生产内容指示,新岗位的数量不断增加,大约增加一倍。

图2:推特用户增长率。图中显示的每一天中观察到的最大用户数据集。在2007年3月的初始阶段后,新用户加入的速度推特已放缓。

以下科拉里等人。[ 18 ],我们使用以下定义的用户活动和记忆:

1.定义一个用户在一周内被认为是活跃的,如果他或她在这周已经发布了至少一条状态。

2.定义一个活跃的用户被认为是保留了一周,如果他或她在以下X周至少转帖一次。

由于短时间内的数据是可用的和微博的性质,我们决定使用一个星期的时间。图4显示了数据的用户活动和保留时间。大约有一半的用户是活跃的,这其中的一半将在接下来的一周。有一个较低的活动记录在过去的一周的数据,由于事实上,更新的公共时间线是不可在这一时期的2天。

3.2网络性能

网站、博客、社交网络和人接触网络都属于一类的“无标度网络”[ 3 ],具有“小世界现象”[ 33 ]。它已被证明,包括在网络上的度分布在内的许多属性,遵循幂律分布[ 19,6 ]。最近的研究证实,这些特性同样适用于博客[ 31 ]。

图3:微博帖子的增长率。图显示在每一天中观察到的最大数据集。虽然新用户的速度是加入网络已放缓,但是帖子数量以稳定的速度递增。

表1描述了推特社交网络的一些特性。我们还比较了这些特性以及其对网志生态系统车间的相应值(WWE)收集的价值。他们的研究显示了一个网络具有高度的相关性(也显示在图6)和高的互惠。这意味着有大量的相互相识的图形。新的微博用户往往最初加入网络来自于朋友的邀请。此外,新的朋友被添加到网络浏览通过用户配置文件和添加其他已知的熟人。高互惠链接也被其他在线社交网络如LiveJournal观察。个人通信和联系网络如手机呼叫图也具有高度的相关性。图5显示了推特网络的累积度分布[ 27,8 ]。值得注意的是,斜坡中和外的坡度都是约2.4。对于幂律指数的值是相似的网站(通常2.1入度)和博客(-2.38给WWE收集)。

3.3地理分布

推特提供有限的个人信息如姓名、生物、时区和地理位置。在我们收集的76000用户中,大约有39000人有特定的位置后能正确分析和解决各自的纬度和纵坐标(使用雅虎!地理编码api7)。图7和表2显示了推特用户的地理分布和各大洲的用户数量。

推特在美国、欧洲和亚洲(主要是日本)是最受欢迎的。东京、纽约和旧金山是推特用户高度接受的主要城市。推特的普及是全球性的,是跨越大陆边界的。通过映射每个用户的纬度和经度以一个大陆的位置,我们可以扩展到出发地和目的地位置的每一个边缘。表3显示了主要大陆代表的数据集的友谊关系的分布。Oceana是用来代表澳大利亚,新西兰和其他岛屿国家。社交网络中的一个重要部分(约占45%)仍然存在于北美国。此外,大陆内连接比在大陆间连接更多。这是一致的意见,2用户之间的他们的地理接近他们的友谊的概率是成反比的。

在表4中,我们比较了这三个大陆与大多数用户的网络特性:北美洲,欧洲和亚洲。每个大陆的社交网络中只考虑其其中的源和目的地的关系都同属于同一大陆。与北美同行相比,亚洲和欧洲共同体有较高的关联度和互惠性。在这样的社交网络中语言扮演着重要的角色。许多来自日本和讲西班牙语的国家的用户和其他人一样,他们说的是同一种语言。一般来说,在欧洲和亚洲的用户往往有较高的相互作用和其对应的子聚类系数的值。

4.用户意图

在本文中,对于用户意图的检测我们提出了一个两级的框架。首先,我们使用了点击算法找到网络中的枢纽和关键点。权威和关键点有一个相互加强的属性,并计算如下:H(p)代表的页面的中心价值,A(p)代表着一个(页)代表的权威价值的页页。

表5显示了一个列表的前十个中心和关键点。从这个列表中,我们可以看到一些用户具有很高的权威性,并且也很高的关键得分。例如,Scobleizer,贾森·卡拉坎尼斯,bloggersblog, webtickle以及那些在推特拥有很多粉丝和朋友的人都位于这个范畴。一些具有很高的权威分数的用户相对较低的中心成绩,如菲克,伊文以及泉水。他们有很多追随者,而在微博上的朋友却少了,因此就在这一类的位置上。其他一些具有很高的枢纽得分相对较低权限的用户评分,如丹其,丝塔普和阿迪哥。他们跟许多其他的用户,而有更少的朋友。基于这种粗略的分类,我们可以看到,用户的意图大致可以分为3种类型:信息共享,信息搜索,和友好的友谊关系。

在权威检测下,只考虑双向链接,用户认为对方的朋友,我们确定社区内的友谊明智的关系。网络中的一个社区可以被定义为一组比群更密集地连接到每个节点以外的节点。通常社区是局部或基于共同利益的。为了构建网络社区,弗莱克等提出了一种利用点击率和最大化流/最小化的方法来检测社区的方法。在社交网络领域,纽曼和格文提出了一种度量称为模块化来衡量社会结构的强度。直觉是一个很好的一个网络社区的划分,不仅是使社区之间的边缘的数目小;相反,群体之间的边缘的数目是小于预期。只有一些群体之间的边缘显著低于所期望的纯属偶然才能称得上有显著的群落结构。基于网络的模块化措施,更好的优化算法被提出了以找到良好的部门的网络到社区通过优化模块化的可能的部门。此外,这个优化过程可以与矩阵的特征向量。然而,在上述算法中,每个节点都必须属于一个社区,而在实际网络中,社区往往有重叠。一个人可以在不同的社区服务一个完全不同的功能。在一个极端的情况下,一个用户可以在一个社区作为信息源而在另一个社区信息导引头。

在友谊社区的人经常互相认识。由于这种直觉,我们应用派系过滤算法(CPM)[ 28,10 ]来在网络重叠社区发现。CPM是基于这样的观察:在一个社区的一个典型成员与其他成员,但不一定所有其他节点在同一个社区。在CPM的k-clique-communities,通过寻找各种k-cliques,可以彼此通过一系列相邻的kcliques达到确定,其中两k-cliques说是相邻的如果他们有k-1个节点。该算法适用于检测网

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[152150],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。