基于L-多样性的数据发布系统应用与研究外文翻译资料-外文翻译网

英语原文共 52 页，剩余内容已隐藏，支付完成后下载完整资料

l-Diversity: Privacy Beyond k-Anonymity

----------------------------------------------------------------------------------------------------------------------

发布有关个人的数据而不透露有关它们的敏感信息是一个重要问题。近年来, 一种新的隐私定义叫做 k-匿名, 已经得到了普及。在 k-匿名数据集中, 每条记录与至少 k minus;1其他记录在某些标识属性方面是不可区分的。

在本文中, 我们使用两个简单的攻击来展示K-匿名数据集存在的一些微妙但严重的隐私问题。首先, 当这些敏感属性的差异性不大时, 攻击者可以发现敏感属性的值。这是一个已知的问题。其次, 攻击者通常具有一定的背景知识, 我们发现，在攻击者使用背景知识进行攻击时，k 匿名并不能保证隐私不被泄露。我们详细分析了这两种攻击，并提出了一种新颖而强大的隐私标准，可以有效抵御此类攻击。, 称为L-多样性。除了建立一个L-多样性的正式基础之外,我们还在一个实验性评估中证明L-多样性是实用的并且可以高效地实施。

类别和主题描述符：E.m [数据]：杂项

一般类别：安全

其他关键字和短语: 数据隐私、k-匿名、L-多样性、保留隐私的数据发布

ACM参考格式：

Machanavajjhala,A.,Kifer,D.,Gehrke,J.,andVenkitasubramaniam,M.2007.?-Diversity:Privacy beyond k-anonymity. ACM Trans. Knowl. Discov. Data 1, 1, Article 3 (March 2007), 52 pages. DOI=10.1145/1217299.1217302 http://doi.acm.org/10.1145/1217299.1217302

1.前言

许多组织越来越多地发布微数据, 即包含有关个人各类信息的表。这些表格可以包括医疗、选民登记、人口普查和客户数据。而微数据的信息是宝贵的。

这些各种各样的信息可以应用于公共资金分配、医学研究和趋势分析。但是, 如果个人信息可以在微数据中唯一地确定, 那么他们的隐私信息 (如他们的健康状况) 将被泄露,这是微数据应用过程中要极力避免的。

为了避免在微数据中个人信息被识别, 可以从表中删除名称和社会安全号之类的唯一标识符信息。然而, 这第一次的信息处理仍然不能保证不泄露数据中的个人隐私。最近的一项研究估计, 87% 的美国人信息可以被看似无害的性别属性、出生日期和5位邮政编码 [Sweeney 2000] 来唯一地识别确定。事实上, 这三种属性被用来关联马萨诸塞州的选民登记记录 (包括姓名, 性别, 邮编和出生日期), 以推测从 GIC^[1]得来的匿名的医疗数据(其中包括性别、邮政编码、出生日期和诊断结果)。此“链接攻击”成功地识别了，马萨诸塞州州长在医疗中的医疗记录[Sweeney 2002]。

属性集(例如, 上例中的性别、出生日期和邮政编码)可以与外部数据链接, 以唯一地标识人口数据中的个人信息，称为“准标识符”。为了用准标识符来反击链接攻击, Samarati 和Sweeney提出了一个名为k-匿名的隐私定义 [Samarati 2001; Sweeney 2002]。如果表中的每个记录的准标识符与至少k minus; 1 个其他记录不可区分, 则称表格满足 k-匿名; 这样的表称为k-匿名表。因此, 对于k-匿名表中的准标识符值的每个组合, 至少k个记录拥有相同的组合值。这样可以确保无法通过链接攻击来唯一地标识个人.

例如：图1显示了位于纽约州北部的一家虚拟医院的医疗记录。请注意, 该表不包含名称、社会保险号等唯一标识属性。在此示例中, 我们将这些属性划分为两个组:敏感属性 (仅包括医疗条件) 和非敏感属性 (邮政编码、年龄和国籍)。如果不允许攻击者发现数据集中的任何个人具有的该属性的值，则该种属性被标记为敏感，其他的属性即为非敏感属性，而且，该数据集的该种属性的值 {邮政编码、年龄、国籍} 称为此数据集的准标识符。图2是从图1中的表中得到的4-匿名表 (此处为 '*' 表示未知值, 例如, '邮政编码= 1485* ' 表示邮政编码在范围 [14850–14859]之间，'年龄 = 3* ' 表示年龄在范围 [30–39]之间)。请注意, 在4-匿名表中, 每个元组与表中至少三个其他元组具有相同的准标识符值。

由于其概念简单，k-匿名已被广泛认可为数据发布中隐私保护的可行定义，由于算法在改进k-匿名的数据集方面取得了进展[Aggarwal et al. 2004; Bayardo and Agrawal 2005; LeFevre et al. 2005; Meyerson and Williams 2004; Samarati 2001; Sweeney 2002; Zhong et al. 2005]，

	非敏感属性			敏感属性
	邮政编码	年龄	国籍	身体状况
1	13053	28	俄语	心脏病
2	13068	29	美国	心脏病
3	13068	21	日语	病毒感染
4	13053	23	美国	病毒感染
5	14853	50	印度	癌症
6	14853	55	俄语	心脏病
7	14850	47	美国	病毒感染
8	14850	49	美国	病毒感染
9	13053	31	美国	癌症
10	13053	37	印度	癌症
11	13068	36	日语	癌症
12	13068	35	美国	癌症

表 1. 病患微数据

	非敏感属性			敏感属性
	邮政编码	年龄	国籍	身体状况
1	130**	lt;30	*	心脏病
2	130**	lt;30	*	心脏病
3	130**	lt;30	*	病毒感染
4	130**	lt;30	*	病毒感染
5	1485*	ge;40	*	癌症
6	1485*	ge;40	*	心脏病
7	1485*	ge;40	*	病毒感染
8	1485*	ge;40	*	病毒感染
9	130**	3*	*	癌症
10	130**	3*	*	癌症
11	130**	3*	*	癌症
12	130**	3*	*	癌症

表 2. 4-匿名病患微数据

k-匿名化越来越受欢迎。但是， k-匿名是否真的保护了隐私？在下一节中, 我们将展示这个问题有趣的答案——没有。我们给出了两个简单而又巧妙的攻击的例子，这是一个k-匿名数据集，它允许攻击者识别单个记录。防御这些攻击需要一个更有效的隐私保护原则, 我们称之为L-多样性, 即这篇文章的讨论的中心。但现在我们回到所讨论事项的开头，让我们先演示两个攻击, 以给出k匿名原则隐藏的问题。

1.1 对k-匿名的攻击

在本节中, 我们提出了两个攻击——同质攻击和背景知识攻击, 我们展示了如何使用它们来攻击k匿名数据集。

同质性攻击：Alice和Bob是敌对的邻居。一天，Bob生病了，被救护车送到了医院。看到救护车后, Alice就出发去查探Bob患了什么病。Alice发现医院公布的目前住院记录的4-匿名表 (图 2), 当然她知道此表中的一个记录包含 Bob 的数据。自从Alice是Bob的邻居, 她渐渐知道Bob是一个31岁的美国男性，住所的邮政编码为 13053 (德莱顿的一个宁静的城镇)。因此, Alice 知道 Bob 的记录号是9、10、11或12中的一个。所有这些病人都有相同的身体状况 (癌症), 所以Alice得出结论, Bob有癌症.

观察1. k匿名可以创建数据组，但这种创建的数据组由于敏感属性中缺少多样性而泄漏信息。

这种情况上很常见。保守估计, 假设我们有一个包含6万个不同元组的数据集, 其中敏感属性可以取三个不同的值, 并且与非敏感属性不相关。此数据表进行5-匿名化后，将大约有1.2万组^[2], 平均每81个组中就有1个不具有多样性 (敏感属性的值都将相同)。因此，我们可以推算约有148组数据没有多样性。因此, 大约740 人的信息将因为同质性攻击而泄露，这表明, 除了k匿名之外, 被匿名化处理的表还应确保多样性, 也就是说, 所有具有相同准标识符值的元组都应该具有多样的敏感属性值。

全文共9462字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[16639]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于L-多样性的数据发布系统应用与研究外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章