社交媒体中事件识别的相似度研究外文翻译资料

 2022-04-11 09:04

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


社交媒体中事件识别的相似度研究

摘要:

社交媒体网站(例如Flickr,YouTube和Facebook)是希望在网络上分享他们的经验和兴趣的用户的热门分销渠道。这些网站为各种不同类型和规模的现实世界活动提供大量用户贡献的材料(例如照片,视频和文本内容)。通过自动识别这些事件及其相关的用户贡献的社交媒体文档,这是本文的重点,我们可以在最先进的搜索引擎中启用事件浏览和搜索。为了解决这个问题,我们利用与社交媒体内容相关的丰富“背景”,包括用户提供的注释(例如标题,标签)和自动生成的信息(例如内容创建时间)。使用这种丰富的上下文(包括文本和非文本特征),我们可以确定适当的文档相似性度量标准,以实现媒体到事件的在线聚类。 作为本文的一个重要贡献,我们探索了一系列用于学习原则性社交媒体文档的多特征相似性度量的技术方式。 我们在Flickr的事件图像的大型实际数据集上评估我们的技术。 我们的评估结果表明,我们的方法比我们建立的最先进的策略更有效地识别事件及其相关的社交媒体文档。

类别和主题描述

H.3.3 [信息存储和检索]:信息检索和检索

一般术语

实验,测量

关键词

事件识别,社交媒体,相似度量学习

1引言

在社交媒体网站上发布内容的便利性为网络带来了越来越多的在真实世界事件期间捕获并与之相关的内容。 诸如Flickr,YouTube,Facebook和其他站点为各种各样的事件托管用户提供的内容。 这些活动包括众所周知的活动,如总统就职典礼,以及年度会议和当地聚会等较小型的社区活动。 通过自动识别这些事件及其相关的用户贡献的社交媒体文件是本文的重点,我们可以启用强大的本地事件浏览和搜索功能,以补充和改进Web搜索引擎提供的本地搜索工具。 在本文中,我们解决了如何在社交媒体网站上识别事件及其相关的用户贡献文档的问题。

在一个场景中,考虑一个想参加“All Points West”的人,这个年度音乐节将在8月初在New Jer-sey的Liberty State Park举行。 在购买机票之前,此人可以在网上搜索相关信息,做出明智的决定。 不幸的是,对于这个相对较小的事件来说,网络搜索结果还远远不够:该活动的网站包含市场营销材料,而传统的新闻覆盖率较低。 总体而言,这些网络搜索结果并未传达此人在此事件中希望体验到的内容。相比之下,用户贡献的内容可以从参与者的角度更好地表现先前事例。 以用户为中心的视角,以及不同类型和规模的大量活动的覆盖范围,使社交媒体网站成为活动信息的宝贵来源。

通过社交媒体网站识别事件及其相关文档是一个具有挑战性的问题,因为社交媒体数据本质上是嘈杂和异构的。 在我们的“All Points West”示例中,某些照片可能在标题,说明或标记域中包含事件名称,而其他许多照片可能没有如“Radiohead”或“Metric”等标题以及描述 作为“我最喜欢的乐队”。带有Liberty State Park坐标的地理标签,2008年8月8日拍摄的照片可能与此事件有关,无论其文字描述,但不是2008年8月8日拍摄的每张照片或标题为“Radiohead”的照片都必定与此事件相对应。 总的来说,社交媒体文件通常包含对识别相关事件有用的信息(如果有的话),但是这些信息的质量远不一致,并且可能通常具有误导性或含糊不清。

我们的问题与事件检测任务最相似[3,26,39],其目的是在连续的新闻文件流中识别新闻事件(例如,新闻专线,无线电广播)。 然而,我们的问题表现出与传统的事件检测相关的一些根本性差异,这源于对社交媒体资源的关注。 具体而言,事件检测传统上旨在发现和聚集文本新闻文章中发现的事件。这些新闻文章遵守某些适合其出发布地点的语法,句法和文体标准。 因此,大多数最先进的事件检测方法利用自然语言处理工具,如命名实体提取和词性标注来增强文档表示[19,28,40]。相比之下,社交媒体文件通常包含很少的文字叙述

简短描述,标题或关键字标签的形式。 重要的是,正如我们将会看到的那样,正如上面所讨论的那样,这段文字通常是嘈杂的,这使得传统的事件检测技术对于社交媒体文档而言是不理想的。

虽然社交媒体文件为事件检测提出了挑战,但他们也展现了传统新闻文章中找不到的机会。 具体而言,社交媒体文档具有包括用户提供的注释(例如标题,标签)和自动生成的信息(例如,上传或内容创建时间)的丰富的相关“上下文”。 个别功能可能嘈杂或不可靠,但共同提供有关事件的透露信息,这些信息对解决我们的重点问题非常有用。

在本文中,我们利用这一丰富的功能系列来识别事件及其相关的用户贡献的社交媒体文档。 我们探索社交媒体文档的独特表现以分析文档相似性和识别哪些文档对应于相同的事件。我们为每个文档表示精确匹配适当的相似性度量标准,并探索将它们组合成社交媒体文档相似度单一度量的各种技术。 我们试验基于集合和基于分类的相似性学习技术,并将它们与可伸缩的在线聚类算法结合使用,以生成聚类解决方案,其中每个聚类对应于一个事件并包括与社交媒体活动相关的文件。

本文的贡献如下:

1. 我们提出识别事件及其用户贡献的社交媒体文档作为聚类任务的问题,其中文档具有多个特征,与特定于领域的相似性度量相关联(第3章节)

2. 我们提出一个适用于社交媒体领域的通用在线聚类框架(第4章节)。

3. 我们开发了一些技术来学习特征特定相似性度量的组合,并用它们来表示一般聚类框架中的社交媒体文档相似度(第5章节和第6章节)。

4. 我们在两个社交媒体事件内容的真实世界数据集上评估我们提出的聚类框架和相似性度量学习技术(第7章节)。

我们在第8节结束时讨论了我们调查结果的影响和未来工作的方向。

2相关技术

我们在四个领域描述了相关的相关工作:大规模数据聚类,相似性度量学习,新闻流中的事件检测和跟踪以及社交媒体分析。

有很多方法可以对大数据进行聚类,从而降低运行时性能和聚类的准确性。聚类大规模数据时需要解决的重要问题之一是如何比较数据元素与其他数据元素,这些数据元素随着数据量的增长而难以以可扩展的方式执行。

提出了几种解决方案来解决这个问题。 一组解决方案使用统计属性来表示数据的子集,从而减少了要进行比较的总数。 在我们的工作中,我们使用这种类型的解决方案,通过根据元素的平均值来表示聚类。 其他解决方案提出了“阻塞”方法,该方法基于相似度的粗略度量将元素划分为几个子集,然后在每个子集上使用传统的聚类算法(例如K-means,EM ) ,具有确切的相似性。由于在线设置我们的问题,本文不使用阻塞技术,而是计划在未来的工作中探索它们。

聚类相似性度量的选择对获得高质量聚类解决方案至关重要。 在有多个相似性度量标准适用的领域中,已经提出了几种使用机器学习技术组合多个相似性的方法。 其他度量学习方法使用优化技术直接从标记示例中学习相似性度量。 在我们的工作中,我们根据社交媒体领域精细定制相似度,并使用基于分类和集合的技术来学习组合相似性度量。

对主题检测和跟踪(TDT)事件检测任务进行了集体努力研究,以持续不断地发现和组织新闻事件(例如,新闻专线,无线电广播)。 丰富形式良好的文本,许多提出的方法依靠自然语言处理技术来提取语言动机的特征。 Makkonen等人提取有意义的语义特征,如名称,时间参考和位置,并学习了将这些度量标准组合成单个聚类解决方案的相似度函数。 他们的结论是,用语义术语扩充文档并不能提高性能,并且认为相似度函数不完善是部分原因。在我们的设置中,当我们明智地结合各种社交媒体特性时,聚类性能会提高。

一些努力的重点是从社交媒体中提取高质量的信息。最近的研究表明社交媒体文档标签是准确的内容描述符,可以用来训练社会标签预测系统。标签也与其他上下文一起使用来检索地理地标的Flickr图像。与我们的问题直接相关,最近的研究分析了时间和空间标签分发以识别对应于事件的标签。 但是,他们并未尝试使用丰富的可用上下文功能汇总相关的社交媒体文档。

3问题定义

鉴于一系列与事件相关的社交媒体文件,我们在本文中讨论的问题是如何识别文件中反映的事件(例如奥巴马总统就职典礼,或麦当娜10月6日,2008麦迪逊广场花园音乐会),并正确分配与每个活动相对应的文件。我们将问题归结为社交媒体文档(例如照片,视频,社交网络组页面)上的聚类问题,其中每个文档都包含有关文档信息的各种“上下文特征”。 这些功能中的一些(例如,标题,说明,标签)由用户手动提供,而其他功能(例如,上传或内容创建时间)自动生成。

问题定义 考虑一组社交媒体文件,其中每个文件与(未知)事件相关联。 我们的目标是将这组文档划分为集群,以便每个集群对应与一个事件关联的所有文档。

作为“事件”的形式化定义,我们采用用于主题检测和跟踪(TDT)事件检测任务的广播新闻版本。

定义 事件是在特定时间某个地方发生的事情。

在我们的工作中,我们对事件和社交媒体文件之间的关系做了一些假设。 首先,即使文件是在活动之前或之后制作的,我们也会考虑与活动有重大关联的文件。 例如,在我们的“All Points West”示例中,票房前参与者的照片代表作者在事件背景下的经历,因此将与我们的目的相关联。其次,我们假设每个社交媒体文档恰好对应一个事件。 但是,我们的解决方案可以轻松扩展,以处理单个社交媒体文档包含有关多个事件的信息的情况。

作为一个独特的特征,社交媒体文档包括依赖于文档类型的各种背景特征(例如,“持续时间”特征对视频而非照片有意义)。 但是,许多社交媒体网站共享一组核心功能。这些特征包括:作者,与创建该文档的用户的标识(例如,“said&done”是图1中照片的作者); 标题与文件的“名称”(例如图1中的“DSC01325”); 描述,用简短的段落概括文件内容(例如,图1中的Radiohead的表演); 标签,利用描述文档内容的一组关键词(例如,图1中的“apw,All,Points,West”); 时间/日期 文档发布的时间和日期(例如图1中的2008年8月9日); 2个位置,以及与文档相关的位置(例如,图1中的泽西城,新泽西州)。 我们将在下面讨论这些上下文特征,这些特征将有助于捕获社交媒体文档的相似性,并进而用于识别事件及其相关文档。

社交媒体文档的上下文特征为决定文档何时与同一事件相对应提供了互补的线索。 单个功能往往不足以达到此目的,所有功能共同提供更可靠的证据。 例如,与同一事件相关联的两个图像(例如“All Points West”音乐节)的描述可能是含糊不清或不太明显的(例如,该描述可能会读成“我最喜欢的乐队在一起”和“ 音乐会”); 但图像的时间/日期和地点(例如,2008年8月8日,新泽西州自由州立公园)提供了强有力的证据,表明它们可能是关于同一事件。

图 1 与“All Points West”事件相关联的Flickr照片。

在本文中,我们根据其类型(例如,文本或时间数据)考虑使用每个单独特征的社交媒体文档表示。 另外,我们使用一个包含所有文档特征(标题,描述,标签,时间/日期和位置)的文本表示的文本文档表示。 这种表示,全文,通常用于类似的领域。

接下来,我们列出了我们从社交媒体文档中提取的特征的关键类型,并为这些特征类型定义了单独的相似性度量标准。 当然,通过根据适当的相似性度量使用各个特征来聚集文档是可能的。 这种聚类方法并不理想,因为它没有集体利用丰富的上下文特征。 相反,本文的其余部分描述了一致性考虑相似性度量的策略。

文本特征:为了针对我们的聚类任务利用各种上下文特征,我们为每个特征精确定义一个适合特征域的相似性度量。 具体而言,我们将每个文本特征(例如,标题,描述,标签)表示为tf.idf权重向量,并使用余弦相似性度量,如文献[26]中所定义的,作为特征相似性度量。 我们考虑了替代的tf.idf公式,例如文献[32]中的Okapi; 然而,他们表现不佳,所以我们不会进一步讨论他们。

另外,我们考虑了传统的文本处理步骤,如停用词消除和词干化,并检查了这些步骤对每个文本特征的影响。 我们不推荐将相同的文本处理方法应用于所有特征,我们推测只有某些特征才能从词干或停用词的消除中受益。例如,因为标签关键词是一组选定的描述性关键词, 社交媒体文档,停用词删除可能不合适(例如,在我们的“All Points West”示例中删除标签“All”)。 我们根据经验确定每个文本特征的合适词干和停用词设置(见第7.1节)。

时间/日期:对于时间/日期,社交媒体文档中的一个重要特征,我们将值表示为自Unix纪元(即自1970年1月1日以来)逝去的分钟数并计算两个时间/日期值t1的相似度 和t2如下:如果t1和t2相隔超过一年,我们将它们的相似性定义为0(在这种情况下,相应的文档不太可能与相同的事件相关联).否则,我们将它们的相似性定义为 。其中y是一年中的分钟数。

位置:对于与社交媒体文档相关的位置元数据,我们将值表示为地理坐标(即经纬度对),并将两个位置和的相似度计算为其中H(.)是半空间距离[33],是地理距离的可接受度量。

4集群框架

我们将识别事件及其相关社交媒体文档的问题作为一个聚类问题。 理想情况下,每个群集应该对应一个事件,并由与该事件相关的所有社交媒体文件组成。 在本节中,我们将讨论我们场景中通用聚类算法的选择。 然后,在第5节和第6节中,我们介绍聚类算法选择相似性度量

全文共7880字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14210],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。