AttriInfer:使用马尔可夫随机场在社交网络中推断用户属性外文翻译资料

 2022-07-14 04:07

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


AttriInfer:使用马尔可夫随机场在社交网络中推断用户属性

Jinyuan Jia Iowa State University jinyuan@iastate.edu

Binghui Wang Iowa State University binghuiw@iastate.edu

Le Zhang Iowa State University lezhang@iastate.edu

Neil Zhenqiang Gong Iowa State University neilgong@iastate.edu

摘要

在属性推断问题中,我们的目的是使用用户在社交网络中的公共数据来推断用户的隐私(例如位置、性取向和兴趣爱好)最先进的方法是利用用户的公共朋友和公共行为(例如在脸谱网喜欢的页面,在谷歌应用商店评论的应用程序)去推断用户的隐私。然而,这些方法收到两个关键因素的限制:1)假设我们的目的是通过训练数据集去推断目标用户的特定的属性,他们只会利用有那个属性标签用户的数据,然而忽略了没有目标属性标签用户的实验数据;2)效率低,因为一个一个的推断目标用户的属性。总而言之,他们在现实世界社交网络中的适用性和准确性方面有局限。

在这项工作中,我们提出了AttriInfer,一个新的在社交网络中推断用户属性的方法。AttriInfer可以利用朋友和行为以及训练有无属性的用户的实验信息。具体来说,我们把社交网络模型建立为成对的马尔可夫随机场(pMRF)。给出一个包括有特定属性的用户和没有特定属性的用户的训练数据集,我们计算具有属性的目标用户的后验概率,并利用后验概率推断属性。在AttriInfer的基础版本,我们用循环信念传播(LBP)计算后验概率。然而,LBP不能拓展到很大的现实生活中的在线社交网络中,也不能保证收敛。因此,我们进一步优化了LBP以确保可拓展性和保证收敛。我们评估了我们的方法,并使用现实生活中的五百七十万用户的谷歌 数据集,与最先进的方法进行比较。我们的结果表明我们的方法在准确性和效率方面都实际上强于最先进的方法。

关键词

属性推测;在线社交网络中的隐私;作为攻击隐私的机器学习

c 2017 International World Wide Web Conference Committee

(IW3C2), published under Creative Commons CC BY 4.0 License.

WWW 2017, April 3–7, 2017, Perth, Australia.

ACM 978-1-4503-4913-0/17/04.

http://dx.doi.org/10.1145/3038912.3052695

1.简介

在一个在线社交网络(OSN)中,用户往往有一个包含了好友列表,行为,属性(例如居住地,雇主,性取向)的文件。在脸书中,行为可以使用户喜欢或者分享的页面列表,在谷歌 上,行为可以使用户喜欢或者评论的谷歌商店应用程序。从数据科学的角度来看,OSN本质上是公共数据和个人数据的集合体。例如,公共数据可以包含好友列表,行为和用户公开的属性。私人数据可以包括用户没有在他们的简介中公开的属性。我们称之为私人属性。具体来说,私有属性可以是 1)用户设置为对其好友保密的属性或者 2)用户在其简介中没有提供的数据。

一个问题是越来越多的兴趣围绕这些私人属性[16, 19, 34, 28, 13, 22, 18, 32, 4, 17, 12]。在这个属性推理问题中,我们首先从一个OSN中收集了公共数据,然后使用这些数据通过机器学习技术去推测特性目标用户的私人属性。属性推测推网络隐私和应用的定向广告和个性化推荐有着严重的影响。因此,各方(例如网络犯罪,在线社交网络提供者,广告商,数据代理人和监察机构)都有动机进行属性推断。例如,网络犯罪可以利用推断出的用户属性去进一步执行其他攻击例如有针对性的社会工程攻击和基于用户验证的个人信息攻击(也被称为“安全问题”)[15];数据代理人通过向例如广告商,一行公司和保险公司等其他方面出售推断出的用户属性信息来获取利润[1]。并且,攻击者可以利用推断的属性穿过多个站点去攻击其他的在线用户[10, 2],或者离线用户(例如公开的选民登记记录[10, 2],去形成详细的并且组合用户简介,导致更大的安全和隐私风险。

通常情况下,大多数属性推理方法[16, 19, 34, 28,13, 22, 18, 32, 4, 17]利用社交图表或者行为。最近,Gong et al. [12]提出了一个方法(称为VIAL)结合了社交图表和行为去推断用户的私人属性。简而言之,VIAL通过行为节点和属性节点增强了社交图表,为了推断目标用户的属性,VIAL执行了从用户到增强图表的定制随机行走,然后使用属性节点的固定概率去推断目标用户的属性。Gong et al.证明了VIAL实现了各种属性最先进的推理准确度。然而,VIAL主要有两个限制因素。首先,假设我们为了推断目标用户是否是有某种特定的属性,我们做出了包含有这些属性的用户(积极训练用户)和没有这些属性的用户(消极训练用户)的数据集。VIAL不能利用消极训练用户的实验标签因为没有特定属性的用户没有被记录在增强图表中。第二,VIAL效率不高,这是因为他需要每个目标用户表现为随机行走。

我们的工作:在这项工作中,我们提出了AttriInfer,一个结合了社交图表和行为的新的执行属性推理的方法。AttriInfer可以有效的利用积极训练用户和消极训练用户去训练数据集,特别是,AttriInfer可以一起推断出所有目标用户的属性。在AttriInfer,我们为每个用户的属性建立随机可变的模型,我们基于社会网络结构为所有用户的联合概率建立马尔可夫随机场(pMRF)。给出一个训练数据集,我们首先使用行为来学习每个用户有被考虑到的属性的概率,我们称之为先验概率。之后,基于pMRF模型,我们计算每个有特定属性的目标用户的后验概率。后验概率是用于属性推测的。在AttriInfer的最基本版本中,我们使用流行的循环信念传播(LBP)方法计算后验概率。

然而,基础版本有两个缺点:1)我们发现他的可拓展性不足,因为LBP需要保持每个边上都有主要信息;2)不保证收敛,因为:BP可能在循环图中震荡[25]。因此,我们进一步优化AttriInfer去解决这些缺点。我们的优化包括消除信息的维护和通过简洁的矩阵模型去接近AttriInfer。我们也从我们最优的AttriInfer中获得收敛。

我们使用谷歌 五百七千万用户的大规模数据集以比较AttriInfer与其他最先进的方法。首先,我们观察到通过结合社交图表和行为提高了AttriInfer的推断精确度。第二,AttriInfer优化版比基础班更有效。第三,AttriInfer在精度和效率方面本质上由于其他先进的方法。例如,AttriInfer在推断城市居民的时候优于VIAL 20%。总之,我们的主要贡献如下:

1、我们提出了AttriInfer,一个机遇成对马尔可夫随机场的属性推理方法

2、我们优化了AttriInfer的可拓展性和收敛性。

3、我们用大规模数据集对比了AttriInfer与其他先进方法。我们的结果表明,AttriInfer在精度和效率方面大大优于其他先进方法。

2、相关工作

行为的使用:Weinsberg等人 [32]利用用户给与不同电影的评分调查了性别的推断。特别是,他们为每个用户构建了特征向量。第i个特征向量是用户给第i个电影的评论的评分,除非第i个记录为0.他们比较了一些包含了逻辑回归(LG),SVM和朴素贝叶斯的分类,然后发现LG优于其他方法。Chaabane等人 [4],使用用户喜欢的音乐信息去进行属性推断。他们通过维基百科页面增强了音乐然后使用主题建模技术识别出潜在的相似的音乐。用户预计会分享属性与他们喜欢的音乐相似的音乐。Kosinski等人 [17],试图根据用户在脸书上喜欢的页面列表推断出各种属性。与Weinsberg等人 [32]的工作相似,他们构造了一个脸书上喜欢的特征向量,然后使用LR去训练分类器来区分不同属性的用户

利用社交图表:Lindamood等人 [19]改进的朴素贝叶斯分类器将社会连接和用户的其他属性结合起来去推断一些属性。例如,为了推断用户的主业,他们的方法使用了用户的其他属性,例如雇主和居住地,用户的社交朋友和他们的属性。然而,他们的方法不适用于根本不分享属性的用户。Zheleva and Getoor [34]研究了多种方法去考虑用户参与的社会联系和团体去执行属性推断。Gong等人 [13]通过拓展图标去将属性推测问题转化为链接预测问题,并证明了他们的方法由于各种基于社交图表的方法。

Mislove等人 [22]建议通过有共同属性值的种子用户,在社交网络中识别本地社区。然后预测这个本地社区所有用户的共享属性值。他们的方法不能推断出不属于任何本地社区的用户的属性。另外,这个方法基于数据,因为检测到的社区可能与属性值不相关。例如Trauda等人 [29],发现麻省理工男性网络中的社区与居住地相关但是女性网络无关。Thomas等人[28],研究了性别、政治观点、宗教观点等属性的推断。他们使用多标签分类方法和用户朋友和邮箱的杠杆特性,此外,他们还提出了多方隐私的概念去防止属性推断。

利用社交图表和行为:Gong等人[12],建议将行为和社交图表结合起来进行属性推断。特别是,他们的方法(称之为VIAL)增强了有附加节点的社交图表,每个节点代表一个属性或者一个行为对象。如果用户有确定的属性或者执行了确定的某种行为,那么VIAL将在用户和相应的属性节点或者行为节点连线。为了推断目标用户的属性,VIAL本质上在增强图标中执行了从目标用户开始的定制的随机行走,计算随机行走的平稳分布概率,并用他推断目标用户的属性。VIAL有两个限制。首先,VIAL不能利用没有特定属性的消极训练用户,因为增强图不能编码没有特定属性用户的信息。第二,VIAL是不可延伸的,因为他我每个目标用户执行随机行走。

其他方法:Bonneau等人[ 3 ]研究了通过例如损害账户、恶意应用程序、假账户等各种攻击方法提取在社交网络用户的私人信息。这些攻击不能推断用户未在其简介中提供的属性,然而我们的方法可以。Otterbacher [24]研究了用户在书写风格上推理用户性别。最近的研究[23,2]表现出更强烈的结果,即,通过写作风格分析,作者可以被去匿名。Zamal等人[33]使用用户的推特和邻居的推特来推断水星。他们没有考虑社会结构和用户行为。Gupta等人[15]试图通过用户的喜欢页面通过情绪化挖掘来推断脸书用户的兴趣。这些研究与我们的研究是正交的,因为他们利用了除了我们所关注的社交图表和行为以外的信息源。

最后,我们注意到另一条线的研究[5,8],目的在于设计在线社交网络新的样式,用户可以更好的控制私人数据。这些研究与我们目前使用的在线社交网络的样式是正交的。

3. 问题构想

3.1. 不同类型属性的分类

二元属性:二元属性只有两个可能值,一个用户只能有其中的一个。性别(男或女)政治观点(民主党和共和党)是典型的二元属性。注意我们区分属性和属性值,例如,性别是个属性,但是男性是属性值。

多值属性:多值属性有两个以上的属性值,但是,一个用户只有其中的一个。年龄(例如,0-10或10-15或15-20或者大于20)是一个典型的多值属性。

多值多标签属性:多值多标签属性有两个以上的属性值,并且用户可以有多个属性值。例如,居住地是一个多值多标签属性,因为一个人可以生活在多个城市。

多值属性和多值多标签属性转化为多个二元属性:我们将多值属性或者多值多标签属性转化为多个二元属性。具体来说,对于属性的每个属性值,我们设立一个属性值为lsquo;是rsquo;和lsquo;否rsquo;的二元属性。例如,对于居住地属性,我们将每个城市表示为二元属性。如果用户曾经在这个城市居住过,那么相应的二元属性值为lsquo;是rsquo;。我们注意到在多值属性对应的二进制属性中,用户只有一个lsquo;是rsquo;属性。因为用户只有多个属性值中的一个。我们之后会看到,这种转换让多值属性和多值多标签属性更容易建模。

3.2属性推断

我们以一个二元属性A为例阐述属性推断问题。假设我们得到了一个无向社交图表G = (V;E),其中属于图表中的一个节点代表用户,边代表边的两个顶点u、v的关系。例如,这种关系可以是u、v是脸书上的朋友或者u、v互相在谷歌 的朋友圈中。

每个用户要么有属性A,要么没有。例如,当二元属性A是一个城市时,有A属性意味着用户在这个城市居住或住过,没有A属性意味着用户没有在这个城市居住或住过。有属性的用户被称之为积极用户,否则称之为消极用户。然后,每个用户都有一个行为表(尽管一些用户的表可能是空的)。例如,一个用户的行为可以是喜欢或分享的脸书的页面,或者在谷歌应用商店喜欢或者评论的手机应用。基于这些术语,我们可以定义属性推理问题如下:

定义1(属性推测问题)假设我们得到了1)二元属性A, 2)一个无向社交图表G = (V;E),3)图表中每个用户的行为列表,4)包含已知有A属性和没有A属性的用户的列表的训练数据集。5)一些目标用户。属性推断是为了推断每个用户是否有A属性。

3.3设计目标

我们的目的是设计一种能实现下列目标的方法。

1)利用行为和社交图表:以前的工作[12]已经证明结合行为和社交图表可以实现更好的推理精度。因此,我们的方法应该能够把两种错杂的信息源结合起来。

2)结合具有属性和不具有属性的训练用户:从在线社交网络用户的公共数据中

全文共20237字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[9490],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。