具有差分隐私的深度学习外文翻译资料

 2022-08-14 03:08

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


Deep learning with differential privacy中文翻译

摘要

基于神经网络的机器学习技术正在广泛领域中收获令人惊叹的成就。一般而言,模型的训练需要大规模有代表性的数据集,这些数据集有可能被过度公开、包含着比较敏感的信息。训练出的模型不应该泄露数据集中的隐私信息。为了达到这个目的,我们为模型的训练开发了一个新的算法,并给出算法在差分隐私框架下的隐私成本分析。我们的实际模拟和实验证实了我们可以在不突出目标的条件下训练深度神经网络,而且算法的隐私成本较低,软件复杂性、训练效率、模型质量均可控。

1.基本简介

最近在神经网络方面的进展在许多应用上取得了令人瞩目的成功,这其中包括图像分类、语言表征、下一步移动的选择。这些优点得以实现,得益于用于训练神经网络的大规模有代表性数据集。这些数据集常常被过度开源、包含着一些敏感信息。

在这篇论文中,我们将先进的机器学习方法、隐私表示机制结合,在一个比较低的隐私成本下训练神经网络。我们在模型中采用了非突出对象、几个层叠、数十组百万参数。为了达到这个目标,我们开发了新的算法,在差分隐私的框架下对隐私成本进行了确切的分析,并制定出详细的实验策略:1我们证明了,通过追踪隐私丢失的详细信息,我们可以在得到全局隐私丢失更为准确的估计。2我们通过引进新的技术,改进了差分隐私训练的计算效率。这些技术包括用于个人训练样本时计算组件的高效算法、将任务分解成更为小的部分来降低足迹、在输入层采用加密了的隐私保护方法。3我们在机器学习框架TensorFlow下使用差分隐私来训练模型。我们使用了两个标准来评估我们的策略。我们选择这两个任务是因为它们是基于公开数据集。我们的实验表明用于深度学习网络的隐私保护可以达到较低的软件复杂性、比较满意的训练效率和模型质量。

机器学习系统通常包含了用于保护训练数据的组件。特别的,用来避免样本过度拟合的正则化方法可能会隐藏这些样本的细节部分。另一方面,解释出深度神经网络的中间形式将会是异乎寻常的困难,并且他们巨大的容量涉及到一个问题:这些中间形式可能潜在地会关系到一些训练数据。在一些情形之下,一个固执的对手可能会追寻到一些训练的数据。

然而模型反演攻击需要黑盒子这种方法,我们考虑到有额外能力的反演。我们的方法提供了针对比较强的拥有全部训练机制、模型参数的反演攻击的保护措施。这个保护措施在移动电话和其他设备的机器学习的引用上尤其有吸引力。在设备上存储模型有着十分有效、较低潜在接口的优点,并且还能有助于保护隐私(因为接口不需要交流用户数据给中央服务器)。此外,我们还要假设模型参数本身可能会被暴露给有敌意的检测。当我们关注于训练数据时如何表示一个人的隐私数据,我们允许一些敌人控制了部分甚至是全部的训练数据这种可能性。

2.背景

这一部分我们将简要地回顾差分隐私的定义、引入高斯机制和合成定理,最后回顾深度学习的基本原理。

2.1 差分隐私

差分隐私有着很严格的标准,这个标准是为了在数据库上用算法来保证隐私保护。它是在相邻数据库的特定应用上定义的。打个比方,在我们的实验中,每一个训练数据集都是一对对图片和标识的组合。只有当某个数据集中的一条记录不存在另外一个数据集中时,我们才能称这两个数据集为相邻数据集。

定义1 随机机制M:D-gt;R,两个相邻的输入d, dlsquo;满足以下条件时D、R符合(ε, delta;)差分隐私:Pr[M(d) isin; S] le; e ε Pr[M(d 0 ) isin; S] delta;

最初的ε差分隐私并不包含delta;,我们使用这个变量达到ε差分隐私有可能因为delta;而不满足条件。

差分隐私在应用中有几个特别有用属性:组合性、群组隐私、附加信息的鲁棒性。组合性能够模块化设计:如果某个机制的各个部分都是满足差分隐私的,那么他们的组合也是满足差分隐私的。群组隐私指的是当数据集包含相关联的输入比如有相同的个体时隐私保护被极大地削弱。附加信息的鲁棒性指的是隐私保护不会受到任何有利于敌人的边缘信息。

2.2 深度学习

深度神经网络在许多机器学习任务中都十分有效,它定义了参数化的从输入到输出函数,并将这些函数作为许多基本构建块的组成部分,比如仿射变化和简单的非线性函数。通过将这些模块的参数进行分类,我们可以训练出这样的参数化函数来达到满足任何输入输出样本。

准确来说,我们定义了丢失函数L,用它代表不能匹配训练数据的代价。基于theta;的损失函数L(theta;)表示对样本{x1, . . . , xN }损失的平均值,因而L(theta;) = 1 /N Sigma; L(theta;, xi)。训练的过程是找到一个theta;值使损失函数值最小。(实际中我们不抱期望达到一个最精确的值)。

对于复杂的网络,损失函数L通常不是突出的并且很难最小化。在实际中,最小化过程通常是由SGD算法完成的。在这个算法中,每一步都会随机选择一组样本值,然后计算这组样本值的gB = 1/|B| P xisin;B nabla;theta;L(theta;, x)作为nabla;theta;L(theta;)的估计值。

已经有一些建成好的系统支持神经网络,来支持高效的训练过程。我们选择了谷歌开放的开源数据流引擎TensorFlow作为我们的基础。TensorFlow允许编程人员从基本的操作定义出打来的计算图谱,然后通过分布式的系统来发布训练结果。TensorFlow让创建计算图谱变得自动化,因而让批处理作业变得简单。

3 .我们的研究情况

3.1差分隐私SGD算法

人们也许会试着在最后得出的参数上下功夫来保护训练数据的隐私,将训练的过程视作一个黑盒。不幸的是,一般而言,现在还没有可靠严谨的指标来度量训练参数的可靠性。在全局范围对参数添加噪声会破坏模型的可用性。因此,我们选择了一个更为成熟的方法,在这个方法中,我们希望在训练的过程中控制训练数据的影响,特别是在SGD计算过程中。这个方法在之前已经出现了,我们在它的基础上做了一些修改和扩展。

算法1大致给出了通过最小化损失函数L(theta;)来训练模型的基本步骤,在SGD算法的每一步,我们计算出样本数据的任意子集的梯度nabla;theta;L(theta;, xi),修正每个梯度值,计算出平均值,加入噪声来保护隐私。最后为了输出训练的模型,我们也需要计算出这个机制的隐私损失。接下来,我们会进一步详述这个算法的每一步以及其中的定义。

Norm clipping:证明算法1的差分隐私可靠性需要与每一个样本数据做比较。因为没有梯度值的先例,我们修正每个梯度:梯度向量g被by g/ max 1, kgk2 C代替。这个修正保证了如果f kgk2,g就被保留下来,如果||g||2gt;2,他就被缩小为C值。我们特别指出这个梯度修正在深度学习SGD十分流行。

. Per-layer and time-dependent paramet:算法1的伪代码将所有的参数都包含在损失函数的参数。对于多层的神经网络,我们将每一层都单独处理,这样可以在不同的层设置不同的修正值C和噪声范围。此外,修正值和噪声参数可能会因为训练轮数的不同而不同。

Lots:和原始SGD算法类似,算法1通过计算一组样本数据的平均损失值来估计梯度损失L。这个平均值提供了一个估算器。我们称这样的一组为lot,为了区别于计算的分组即一个批次。为了限制内存消耗,我们可能会设置比L更小的值,作为算法的一个参数。我们会成批地进行计算,然后将一些批次数据归为同一个组来添加噪声。在实际中,处于效率的考虑,批次的决定是随机的。对于每个分析的实例,我们假设每个lot都是独立地形成的,每次lot形成都是以L/N的概率,其中N是输入数据集的大小。

作为一个学术界的常识,我们通过epoch的数量来量化训练算法执行的时间,每一个epoch都是用于处理N个样本的批次的数目。

. Privacy account:

对于差分隐私SGD,一个重要的问题是计算训练中的全局隐私代价。差分隐私的组合特性允许我们补充一个用于统计的进程用于计算每个进程中的隐私代价,并将所有的代价加起来。每一个训练步骤需要梯度在多层训练网络中。

3.2 The Moments Accountant: Details

瞬时统计者追踪一组隐私代价随机变量。它概括了追踪(ε, delta;)的标准方式,并使用了强合成定理。这个改进因为高斯机制被大家所熟知,我们证明它也是适用于随机样本的高斯机制,能够提供更准确的隐私损失的估计值。

隐私损失是一个取决于加入的噪声的随机值。这样的M机制是一个(ε, delta;)差分隐私。

更准确地来讲,对于相邻数据库d, dlsquo;:机制M、辅助输入aux,输出o,定义隐私损失为:

一个在这片文章中我们额外使用的设计组件是用来更新状态,通过经常性地使用差分隐私机制。这是一个可替换机制的例子。对于一个给定的机制M,我们定义:

为了改进隐私保护,我们定义了:

3.3 超参数

我们识别相似模型的特征、超参数来调整平衡性、准确度、实际表现效果。特别的,我们通过实验发现模型的准确度对训练参数来说更为敏感。

如果我们试着设置一些超参数,我们就能够增加所有组件的隐私损失。我们能够从算法内部来减少需要使用的超参数的数量。差分隐私突出函数的优化能够通过使用尽量小的批次规模比如1,非突出的学习会不那么稳定。与此同时,定理1说明让批次的规模太大会增加隐私损失。非隐私训练速率通常要小心地下调。相比之下,我们从不需要对一个小的值下调学习速率因为查封呢隐私训练不需要达到。另一方面,在我们的实验中,我们确实发现了用一个相对大的速率可能会有小小的益处。

4. 补充工作

我们为差分隐私SGD算法补充了一些。源代码在GitHub上可供使用。

对于隐私保护,我们在使用它来更新参数需要去梯度。此外,我们需要基于去梯度做的如何来追踪隐私损失。因此我们的补充主要包含两个部分:去梯度—用来处理保护隐私、隐私记录者—追踪隐私损失。

表一包含了TensorFlow代码的一小段,使用SGD算法来减小隐私损失。在许多情形下,神经网络模型可能会收益于对数据数据的处理,通过使用PCA来处理它。我们补充差分隐私的PCA并预先训练了一些层。

Sanitizer:为了达到保护隐私,处理者需要发挥两个功能:限制每个样本的敏感度和在更新神经参数前添加噪声。

在TensorFlow中,梯度计算因为效果的原因而被成批执行,为了限制更新数据的敏感度,我们需要活得每一个nabla;theta;L(theta;, x)。为了达到这个目的,我们补充了per_example_gradient这个操作者。这个操作者能够计算一批个体的nabla;theta;L(theta;, x)。在这个工具下,在训练中只有一个比较地的下降,即使每个批次的规模很大也是这样。

一旦我们有了per_example_gradient,使用tensorflow来修正和添加噪声就容易多了。

Privacy accountant.:

我们补充部分的最主要组件就是PrivacyAccountant,他能在整个训练的过程中追踪隐私损失。正如第三节中讨论的那样,我们补充了瞬时记录者,他能不断递增地记录每一步隐私损失的值。在不同的噪声分布下,我们可以通过使用渐进计算出alpha;(lambda;),形成一个最近形式的表达式,或者应用数字的整体。前一个会覆盖通用先进的组合定理,后者能提供更为精确的隐私损失值。

对于我们使用的高斯机制,alpha;(lambda;)按照Eqs3和4来定义。在我们的实验中,我们是同数据整合来计算E1和E2。我们计算alpha;(lambda;)这样我们才能计算出最佳的(ε, delta;)值。我们发现最好的lambda; le; 32。

Differentially private PCA:PCA是一个有用的方法来获取输入数据的特征。我们实际运行PCA算法。更准确地说,我们随机取一个样本,将他们是做一个向量,然后正则化每一个向量。接着我们在A T A中添加噪声,然后计算出主要矩阵的方位。

5. 实验结果

5.1 应用即时记录者

正如理论1那样,即时记录者提供了更为准确的隐私损失值。在这里我们我们使用一些具体的值比较这两种方法。全局隐私损失(ε, delta;)可以通过噪声值计算出来,每一个样本lotq = L/N。我们修正delta; = 10minus;5。

在我们的实验中,我们设定q=0.01,, sigma; = 4, delta; = 10的-5次方,计算出ε的值作为训练函数的E。表2显示了两个曲线,这两个曲线分别使用了强组合理论和即时记录者。我们可以看到使用即时记录者可以得到一个更为准确的隐私损失的估算值。举个例子,当E=100,两个值分别为9.34和1.26;当E=400,两个值为24.22和2.55.

5.2 MNIST

我们在便准MNIST数据集的基础上做实验,这个数据集包含了60000个训练样本和10000个测试样本。每个样本都是28times;28的灰度图。我们使用一个简单的反馈神经网络。

Baseline model.:

我们的基准线模型使用了一个60维PCA投射层和一个包含了一千个隐藏单元的隐藏层。使用大小为600的lot,我们可以达到98.30%的准确率。

Differentially private model:

对于不同的差分隐私,我们的实验使用相同的架构。为了限制敏感度,我们修正了梯度。我们将结果分为三个范围:小规模(sigma; = 2, sigma;p = 4),中等规模(sigma; = 4, sigma;p = 7),大规模(sigma; = 8, sigma;p = 16)。这个sigma;表示神经网络的噪声水平,sigma;p表示PCA投射的噪声水平。训练速率初始值设为0.1,线性下降到0.052.。我们也使用多隐藏层的网络实验,对于MNIST,我们发现一个PCA隐藏层比两层表现更好。

表格3显示了不同噪声水平的结果。在每一个环节,我们展示出训练的过程和测试的准确性。我们实验结果达到了90%、95

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235334],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。