英语原文共 19 页，剩余内容已隐藏，支付完成后下载完整资料

披露信息时保护隐私：k匿名性及其通过泛化和抑制的强制执行

拉坦亚·斯威尼

摘要

如今，全球网络社会对散布和共享个人数据的需求很大。汇总统计信息曾经是报告准则的情况现在严重依赖微观细节交易的转移和遇到信息。这种情况发生在越来越多的历史公共信息也可以通过电子方式获得的时候。将这些数据链接在一起时，即使信息源不包含任何明确的标识符（例如姓名和电话号码），也可以提供个人或组织的电子影子，就像身份和指纹一样具有身份。为了保护所发布数据所涉及的个人的匿名性，数据持有者通常会删除或加密明确的标识符，例如姓名，地址和电话号码。但是，我们称为准标识符的其他独特数据通常会唯一地组合在一起，并且可以链接到公开可用的信息以重新识别个人。

在本文中，我们解决了发布个人特定数据的问题，同时保护了数据所引用的个人的匿名性。该方法基于别名的定义。如果尝试将显式标识的信息链接到其内容，则该表会提供k个匿名性，从而将该信息至少映射到k个实体。我们说明如何通过使用泛化和抑制技术来提供k匿名性。我们引入了最小泛化的概念，该概念捕获了释放过程的特性，即不使数据失真超过实现k-匿名性所需的程度。我们说明了可能的偏好策略，以便在不同的最小化概括之间进行选择。最后，当算法的一种实现用于产生真实医学信息的发布时，我们给出了一种算法和实验结果。我们还通过测量k的不同值的结果的精度和完整性来报告已发布数据的质量。

1引言

在Internet时代和廉价的计算能力时代，社会对信息，各种信息的狂热需求不断增长，这些信息用于许多新的且经常令人兴奋的用途。日常生活中的大多数动作都记录在某处计算机上。这些信息通常会被共享，交换和出售。许多人可能并不在乎当地杂货店跟踪他们购买的商品，但是共享的信息可能对个人和组织非常敏感或对其造成损害。医疗信息，财务信息或国家安全事项的不当披露可能会产生令人震惊的后果，许多滥用行为已被引用[2，23]。目的是自由发布信息，但这样做的方式是不能识别数据中包含的任何个人的身份。这样，信息可以自由共享并用于许多新目的。

令人震惊的是，仍然存在一个普遍的错误信念，即如果数据看起来是匿名的，那么它就是匿名的。包括政府机构在内的数据持有人经常从数据中删除所有明确的标识符，例如姓名，地址和电话号码，以便可以共享数据中的其他信息，错误地认为无法确定个人身份。相反，取消识别数据并不能保证匿名性[18]。发布的信息通常包含其他数据，例如出生日期，性别和邮政编码，可以结合使用这些数据与公开可用的信息进行重新标识。大多数城市出售人口登记册，其中包括个人身份和基本人口统计信息；例如，当地人口普查数据，选民名单，城市目录以及来自汽车代理商，税务评估员和房地产代理商的信息。例如，以20美元的价格购买了一个城市选民名单的电子版，并用来显示重新识别病历的简便性[18]。除姓名和地址外，选民名单还包括54,805名选民的出生日期和性别。其中，有12％的人具有独特的出生日期，有29％的人具有独特的出生日期和性别，有69％的人具有出生日期和5位数的邮政编码，而97％的人只有完整的邮政编码和生日18]。这些结果揭示了如何独特地识别基本人口统计学属性的组合，例如邮政编码，出生日期，种族，性别和婚姻状况。

为了说明这个问题，图1举例说明了由抑制-请使用姓名和社会安全号码（SSN），以免透露数据所涉及的个人的身份。但是，其他已发布属性的值，例如fZIP，出生日期，种族，性别，婚姻状况，也可以与个人身份一起出现在某些外部表中，因此可以对其进行跟踪。如图1所示，可以将ZIP，出生日期和性别链接到选民列表，以显示姓名，地址和城市。同样，种族和婚姻状况也可以链接到其他可公开获得的人口登记簿。在图1的医学数据表中，只有一名女性，生于9/15/61，居住在02142地区。从前面提到的有关实际选民名单的唯一性结果中，仅使用这些属性就可以唯一标识54805个选民中的69％。此组合唯一地标识了已发布数据中与“ Sue J. Carlson，1459 Main Street，Cambridge”有关的相应项目符号元组，因此表明她报告了呼吸急促。（请注意，医疗信息不被假定为与个人公开关联，并且所需的保护是发布医疗信息，使得无法确定个人的身份。但是，Sue J. Carlson的已发布特征决定了所发布的那些医学数据中的哪些是她的。）虽然此示例显示出完全匹配，但在某些情况下，已发布的信息可以与一组限制性个人相关联所发布的信息可以参考。

已经针对统计数据库开发了几种保护技术，例如加扰和交换值以及以保持结果1 [21]的总体统计属性的方式向数据添加噪声。但是，许多新的数据用途，包括数据挖掘，成本分析和回顾性研究，通常都需要元组本身内的准确信息。已经发布了两个独立开发的系统，它们使用抑制和泛化作为提供公开内容的技术。

民族

多宝

性别

压缩

状态

亚洲人	09/27/64	女	02139	离婚了
亚洲人	09/30/64	女	02139	离婚了
亚洲人	04/18/64	男	02139	已婚
亚洲人	04/15/64	男	02139	已婚
黑色	03/13/63	男	02138	已婚
黑色	03/18/63	男	02138	已婚
黑色	09/13/64	女	02141	已婚

同时保持每个元组中值的完整性（即美国的Datafly和欧洲的Mu-Argus 11]）。但是，尚未为两者所采用的技术提供正式的基础或抽象。系统做出的进一步近似可能会受到一些缺陷的影响，例如，超出所需数量的数据一般化（如17]，或没有提供足够的保护，如11]）。

在本文中，我们为反对链接的匿名问题以及将泛化和抑制应用于其解决方案提供了正式的基础。我们引入准标识符的定义作为可用于链接的属性，将k匿名定义为通过链接描述数据相对于推理的保护程度。我们展示了如何通过泛化和/或抑制要公开的部分数据来确保信息发布中的k-匿名性。在此框架内，我们介绍了广义表和最小广义的概念。直观上，如果数据的泛化程度不超过提供k匿名性所需的程度，则泛化程度最小。同样，首选概化的定义允许用户在可能的最小概化中选择满足特定条件的条件，例如在概化过程中偏爱某些属性。我们提出一种算法来计算给定表的首选最小泛化。最后，我们讨论了从我们的方法应用于包含265位患者的信息的医学数据库中得出的一些实验结果。

我们认为的问题不同于传统的访问控制3]和统计数据库1、4、8、9、12、22]的问题。访问控制系统解决了根据规则来控制对数据的特定访问的问题，这些规则说明一条数据是否可以被释放。在我们的工作中，不是公开要保护的特定数据（即可以在其上做出访问决定），而是数据涉及特定实体的事实。统计数据库技术解决了产生表示要查询信息摘要的表格数据的问题。在这样的框架中，通过确保用户不可能从生成的摘要中推断出原始的单个数据来实施保护。相反，在我们的方法中，我们允许发布特定于人员的通用数据，用户可以根据其需求生成摘要。相对于预先计算的特定于发行版的统计信息的优势在于，用户可以提高灵活性和信息可用性。从最终用户的角度来看，这种灵活性和可用性有一个缺点，即数据的粗粒度级别。在当今的新兴应用中，越来越需要这种新型的解密和信息发布[18]。

本文的其余部分安排如下。在第2节中，我们介绍了基本假设和定义。在第3节中，我们讨论泛化以提供匿名性，在第4节中，我们继续讨论以包含抑制。在第5节中，说明了用于在不同的最小概括中进行选择的基本首选项策略。在第6节中，我们讨论了该方法的算法实现。第7节报告了一些实验结果。第8节总结了论文。

2假设和初步定义

我们认为数据持有者的表是一个私有表PT，其中每个元组都引用一个不同的实体（个人，组织等）。数据持有者从私有表PT构造一个表，该表将成为PT的匿名发行版。为了简单起见，我们随后将在同样适用于其他实体的情况下引用个人的隐私和重新标识。我们假设所有显式标识符（例如，名称，SSN和地址）都已加密或被禁止，因此在本文的其余部分中我们将忽略它们。借用6]中的术语，我们称特征的组合为准准标识符，可以在这些特征上进行链接。因此必须保护准标识符。它们定义如下：

定义2.1（准标识符）设T（A1，...，An）为表格。T的准标识符是一组属性fAi，...。..，Ajg-fA1，。..，必须控制其释放的Ang。

给定表T（A1，...，An），属性fAi，...的子集。..，Ajg-fA1，。..，Ang和元组t ET，t Ai，。..，Aj]表示Ai，...的值的序列。..t，T中的Aj，...（Ai，...，Aj）表示保持属性Ai，...的重复元组的投影。..，T中的Aj。此外，QIT表示与T相关的一组准标识符，jT j表示基数，即T中的元组数。

我们的目标是在确保个人匿名的同时允许表中信息的发布。匿名性约束要求所发布的信息与至少给定数量的k个个体隐隐相关，其中k通常由数据持有者设置，如以下要求所述。

定义2.2（k匿名性要求）每次发布数据都必须使准标识符值的每种组合都可以与至少k个人清晰地匹配。

遵守匿名性要求需要知道每个释放的元组匹配多少个人。这可以通过将发布的数据与外部可用数据显式链接来完成。对于数据持有者来说，这显然是不可能完成的任务。尽管我们可以假定数据持有人知道哪些属性可能出现在外部表中，因此知道什么构成准标识符，但是不能假定外部知识中数据的特定值。因此，满足k-匿名性要求的关键是根据发布的数据本身来转换要求。为此，我们需要满足以下假设。

假设2.1表PT中所有要释放的属性以及可以组合使用的外部属性（即，在外部表中一起出现或在外部表之间的可能联接中）l都定义在数据标识符中与PT相关。

尽管这不是一个简单的假设，但可以强制执行。数据持有者估计哪些属性可用于与外部知识链接；这当然构成了准标识符的基础。虽然对于公开数据的期望是合理的，但我们认识到，半公开和私人信息的来源过多，例如药房记录，纵向研究，财务记录，调查答复，职业名单和会员名单，以优先考虑所有可能的联系18]。假设为准标识符的属性选择不正确；也就是说，数据持有者会错误判断哪些属性对链接敏感。在这种情况下，发布的数据可能不像所要求的那样匿名，因此，可以更轻松地识别个人。Sweeney 18]检查了这种风险，并表明数据持有人无法完全解决该风险，因为数据持有人无法始终知道每个数据接收者都知道什么。18]提出了政策，法律和合同中的解决方案。在本工作的其余部分中，我们假设已识别出适当的准标识符。

我们为表介绍k-匿名性的定义，如下所示。

定义2.3（k-匿名性）令T（A1，...，An）为表格，QIT为与之相关的准标识符。如果对于每个准标识符QI E QIT，T QI]中的每个值序列至少在T QI]中出现k次，则称T满足k匿名性。

在假设2.1中，并且在以下假设下：对于每个要保护的身份（即准标识符所指的身份），私有存储表最多包含一个元组，已发布表的k匿名性表示该表的充分条件。满足k匿名性要求。换句话说，对于给定的k，满足定义2.3的表满足该k的k匿名性要求。考虑一个准标识符QI；如果满足定义2.3，则PT QI]中的每个元组至少出现k次。由于私有表的人口是外部人口的子集，因此外部世界中将至少有k个个体与这些值匹配。而且，由于在组合之外可用于外部的所有属性都包括在QI中，因此无法将其他属性与QI结合以减少此类集合的基数。（还请注意，QI中属性的任何子集都将指向k/gt; k个个体。）为了说明这一点，请考虑图1中所示的情况，但假定发布的数据包含两次出现的白色序列09/15。 / 64，女性，02142，寡妇。然后，在投票者列表中（或在将投票者列表与所有其他外部表组合在一起的表中）将存在至少两个与此类事件匹配的个人，并且数据接收者将无法确定与之关联的两个医疗记录中的哪一个准标识符的这些值属于两个人中的哪个。由于在发行版中提供了2的k-匿名性，因此每个病历可能至少属于两个人。

给定上面的假设和定义，并给出要发布的私有表PT，我们将重点放在产生满足k-匿名性的PT版本的问题上。

3概括数据

我们提供k匿名性的第一种方法是基于域之间以及属性可以假定的值之间的泛化关系的定义和使用。

3.1泛化关系

在经典的关系数据库系统中，域用于描述属性假定的一组值。例如，可能存在一个邮政编码域，一个数字域和一个字符串域。我们扩展了域的概念，以使其更容易描述如何概括属性值。在原始数据库中，每个值

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[239817]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

披露信息时保护隐私：k匿名性及其通过泛化和抑制的强制执行外文翻译资料

摘要

1引言

您可能感兴趣的文章

登录

注册

找回密码

摘要

1引言

您可能感兴趣的文章