解释和利用对抗样本外文翻译资料-外文翻译网

英语原文共 12 页，剩余内容已隐藏，支付完成后下载完整资料

解释和利用对抗样本

Ian J. Goodfellow, Jonathon Shlens amp; Christian Szegedy （作者信息）

摘要：

通过对数据集中的样本有意地加上微小有害的扰动，使加了扰动的输入样本导致模型很大概率输出错误的答案，包括神经网络在内的几种机器学习模型始终对对抗样本进行错误地分类。一开始试图用非线性和过度拟合解释这种现象。然而，我们认为神经网络容易受到对抗性扰动的主要原因是它们的线性特性。新的大量的结果支持了这种解释，同时给出了关于他们最令人好奇的事实的第一个解释：它们在体系结构和训练集之间的泛化。而且，这种观点提供了一种简单快速的生成对抗性样本的方法。使用这种方法为对抗性训练提供样本，我们减少了maxout网络在MNIST数据集中测试集上的错误。

1.介绍

Szegedy等人（2014b）取得了一个有趣的发现：包括最先进的神经网络在内的几种机器学习模型容易受到对抗性样本的攻击。也就是说，这些机器学习模型对样本进行了错误分类，这些样本与从数据分布中得出正确分类的样本仅稍有不同。在许多情况下，在训练数据的不同子集上训练不同结构的各种模型会将同一个对抗样本错误分类。这表明对抗性样本暴露了我们训练算法中的基本盲点。

产生这些对抗性样本的原因是一个谜，推测性的解释表明，这是由于深度神经网络的极端非线性所致，也许结合了模型平均不足和纯监督学习问题的正则化不足的原因。我们证明这些推测性假设是不必要的。在高维空间中的线性行为足以形成对抗性样本。这种观点使我们能够设计一种快速生成对抗性样本的方法，这使对抗性训练可以实施。我们认为对抗性训练可以提供其他正则化，其益处超过了单独使用dropout（Srivastava等，2014）。通用的正则化策略，例如dropout, pretraining, and model averaging并不能明显降低模型对于对抗性样本的脆弱性，但是改用非线性模型族（例如RBF网络）可以做到。

我们的解释表明，在设计易于训练的线性模型与使用非线性来抵抗对抗性扰动的设计模型之间存在基本的矛盾。从长远来看，通过设计，可以成功地训练更多非线性模型的更强大的优化方法，可以避免这种权衡。

2.相关工作

Szegedy等人（2014b）证明了很多关于神经网络和相关模型的有趣特性，与本文最相关的是：

使用Box-constrained L-BFGS能够找到对抗样本
在ImageNet这样的数据集里，对抗样本和原始样本的差别非常小，人眼不可分别
同样的对抗样本，会同时被不同的分类器错误分类，哪怕他们使用了不同的训练集
浅层的softmax回归模型对对抗样本也很脆弱
在对抗样本上训练能够正则化模型，但是代价高昂，因为训练集不容易获得。

这些结果表明，基于现代机器学习技术的分类器，即使是那些在测试集上获得优异性能的分类器，也没有学习决定正确输出标签的真正潜在的概念。替代的是，这些算法建立了一个面子工程，其可以很好地处理自然发生的数据，但是当人们访问空间中数据分布可能性不高的点时，就暴露不能很好地处理的问题。这特别令人失望，因为计算机视觉中的一种流行方法是使用卷积网络特征作为欧氏距离近似感知距离的空间。如果一些图像有一个无法测量的小的感知距离对应于网络中，表示完全不同的类别，那么这种相似性显然是有缺陷的。

虽然线性分类器有同样的问题，但是这些结果通常被解释为缺陷，尤其是在深层网络。我们认为了解这个缺陷是一个修复它的机会。虽然没有一个模型能够成功地做到保持干净输入的最先进精度，但是事实上，Guamp;Rigazio（2014）和Chalupka等人（2014）已经开始了设计抵抗对抗性扰动的模型的第一步。

3.对抗性样本的线性解释

我们从解释线性模型的对抗性样本开始。

在很多问题中，单个输入特征精度被限制。例如，数字图像通常每个像素仅使用8位，因此样本中所有低于1/255的信息都会被丢弃。因为特征的精度被限制，如果扰动eta;的每一个元素都小于特征的精度，那么分类器对于输入x和对抗性输入xtilde; = x eta;的不同的响应是不合理的。对于具有很好的分类的问题，只要||eta;||_infin;lt;ϵ,我们希望分类器将x和xtilde;分到同一类别，其中ϵ小到足以被与我们的问题相关的传感器或数据存储设备丢弃。考虑到权值向量和对抗性样本xtilde;之间的点积:w^Txtilde;= w^Txtilde; w^Teta;.

这个对抗性扰动使激励度增加了w^Teta;。我们可以通过指定eta;= sign（w），在eta;的最大范数约束下最大化这个增量。如果w有n个维度，并且权重向量的一个元素的平均值为m,那么激励将增长ϵmn。由于 ||eta;||_infin;不随问题维度的增加而增加，但由eta;引起的激励变化可以随n线性增加，那么对于高维度问题，我们能对输入做很多微小的改变，使输出产生大的改变。我们可以把它看作一种偶然的隐藏，即使存在多个信号并且其他信号具有更大的振幅，一个线性模型被迫只关注与其权值最接近的信号。

这个解释表明，如果一个简单的线性模型的输入有足够的维数，它就可能产生对抗性样本。先前对对抗性样本的解释引用了神经网络的假设特性，例如其被假定的高度非线性性质。我们基于线性的假设更简单，也可以解释为什么softmax回归容易受到对抗性样本的影响。

4. 非线性模型的线性扰动

对抗性样本的线性观点提供了一种快速生成它们的方法。我们假设神经网络太线性，而不能抵抗线性对抗性扰动。LSTM（Hochreiteramp;Schmidhuber，1997），ReLUs（Jarrett et al.，2009；Glorot et al.，2011）和maxout网络（Good-Fellot et al.，2013c）都有意设计为以非常线性的方式运行，因此它们更易于优化。出于同样的原因，更多的非线性模型如sigmoid网络被仔细调整，使其大部分时间都处于非饱和、更线性的状态。这种线性行为表明，线性模型简易的分析扰动也会破坏神经网络。

图1:在ImageNet上应用于GoogLeNet（Szegedy等人，2014a）的快速对抗性样本生成演示。通过添加一个不易察觉的小向量，其元素等于代价函数的梯度元素相对于输入的符号，我们可以改变GoogLeNet对图像的分类。这里我们的ϵ of.007相当于GoogLeNet转换成实数后8位图像编码的最小位的大小。

假设theta;是模型的参数，x是模型的输入，y是与x（对于有目标的机器学习任务）相关联的目标，J（theta;，x，y）是训练神经网络的损失函数。我们可以围绕theta;的当前值将损失函数线性化，从而得到最优的最大范数约束扰动eta;= ϵsign (nabla;xJ (theta;, x, y)) 。

我们称之为生成对抗性样本的“快速梯度符号法”。注意到可以使用反向传播有效地计算所需的梯度。

我们发现，这种方法可靠地导致各种各样的模型错误分类他们的输入。关于ImageNet上的演示，请参见图1。我们发现，使用ϵ=.25，我们使softmax分类器在MNIST（？）测试集1上的错误率为99.9%，平均置信度为79.3%。在相同的情况下，maxout网络错误地分类了89.4%的对抗性样本，平均置信度为97.6%。类似地，使用ϵ=.1，我们在预处理版本的CIFAR-10（Krizhevskyamp;Hinton，2009）测试集2上使用卷积maxout网络时，错误率为87.15%，错误标签的平均分配概率为96.6%。其他生成对抗性样本的简单方法也是可能的。例如，我们还发现在梯度方向上旋转x一个小角度可以可靠地产生对抗性样本。

事实上，这些简单，廉价的算法能够产生错误分类的样本作为证据，有利于我们对作为线性结果的对抗性样本的解释。这些算法也可以作为一种加速对抗性训练的方法，甚至可以用来分析训练过的网络。

5. 线性模型的对抗训练VS权重衰减

可能我们可以考虑的最简单的模型是logistic回归。在这种情况下，FGSM是精确的。我们可以用这个例子来获得一些如何在一个简单的环境中生成对抗性样本的直觉。指导性图像见图2。如果我们训练一个模型来识别标签yisin;{-1，1}，其中P（y=1）=sigma;（w^Tx b），其中sigma;（z）是logistic sigmoid函数，那么训练包括梯度下降

其中zeta;（z）=log（1 exp（z））是softplus函数。基于梯度符号，我们可以导出一个简单的，用于训练x的最坏情况的对抗扰动，而不是x本身的解析形式。

图2：应用于逻辑回归的FGSM（它不是一种近似，而是最大范数中真正最具破坏性的对抗性样本）。a）基于MNIST训练的logistic回归模型的权值。b）基于MNIST训练的logistic回归模型的权值。这是最优扰动。尽管模型容量小，拟合性好，但这种扰动并不容易被人类观察者识别为与3s和7s之间的关系有关。c）MNIST 3s和7s。logistic回归模型对3和7样本识别有1.6%的错误率。d) ϵ =.25的logistic回归模型的FGSM对抗性样本。logistic回归模型对这些样本识别的错误率为99%。

扰动。注意梯度的符号只是-sign（w），并且w^Tsign（w）=||w||₁。因此，逻辑回归的对抗性版本是最小化

这有点类似于L1正则化。然而，也有一些重要的区别。最重要的区别是，L1惩罚是在训练期间在模型的激励中减去的，而不是加到训练成本中。这意味着，如果模型学会做出足够自信的预测，zeta;饱和，惩罚最终可能开始消失。这并不能保证在不合适的情况下发生，对抗性训练只会使不合适更严重。因为它在好的边缘的情况下不会失效，因此，我们可以将L1权重衰减视为比对抗性训练更坏的情况。

如果我们从logistic回归转向多类softmax回归，则L1权重衰减会变得更加悲观，因为它会将softmax的每个输出视为独立可扰动的，而实际上通常不可能找到与所有所有类别权值向量一致的单个eta;。在有多个隐藏单元的深层网络中，权重衰减高估了扰动可能带来的损害。由于L1权重衰减高估了对抗性可能造成的损失，因此有必要使用比与我们的功能精度有关的ϵ更小的L1权重衰减系数。在MNIST上训练maxout网络时，我们使用ϵ= 0.25的对抗训练获得了良好的效果。当将L1权重衰减应用于第一层，我们发现甚至0.0025的系数也太大，导致模型在训练集上的误差超过5％。虽然较小的权重衰减系数可以成功训练，但没有带来正则化好处。

6.深层网络对抗性训练

对深层网络易受对抗性样本干扰的批评有些误导，因为与浅层线性模型不同，深层网络至少能够表示抵抗对手干扰的功能。通用逼近定理（Hornik et al。，1989）保证，只要允许其隐藏层具有足够的单元，至少具有一个隐藏层的神经网络就可以以任意精度表示任何函数。浅层线性模型不能在训练点附近不变，同时也将不同的输出分配给不同的训练点。

当然，通用逼近定理并没有说明训练算法是否能够发现具有所有所需特性的函数。显然，标准的有监督训练并未指定所选功能要能抵抗对抗性样本。这必须以某种方式将其编码在训练过程中。

Szegedy等人（2014b）表明，通过混合使用对抗性样本和干净样本进行训练，神经网络可以得到一定程度的正则化。对抗性样本的训练与其他数据增强方案有所不同。通常，人们会使用转换来扩充数据，例如在测试集中预期实际发生的转换。这种形式的数据扩充使用的输入不太可能自然发生，但是却以模型概念化其决策功能的方式暴露了缺陷。当时，从未证明此程序能在最先进的标准上超过dropout。但是，这是因为很难对基于L-BFGS的昂贵的对抗性样本进行广泛的实验。

我们发现基于FGSM的对抗目标函数训练是一种有效的正则化器：

在我们所有的实验中，我们使用alpha;= 0.5。其他值可能会更好。我们对这个超参数的最初猜测足够好，以至于我们不需要测试更多的值。这种方法意味着我们会不断更新我们提供的对抗性样本，以使它们抵抗当前版本的模型。使用这种方法来训练maxout网络也通过dropout进行正则化，我们能够将错误率从没有对抗训练的0.94％降低到具有对抗训练的0.84％。

我们观察到，在训练集中，我们在对抗性样本上的错误率并没有达到零。我们通过做两个改动解决了这个问题。首先，我们将模型变大，每层使用1600个单元，而不是原始maxout网络用于解决此问题的240个单元。在没有对抗性训练的情况下，这会导致模型稍微过拟合，在测试集上的错误率为1.14%。通过对抗性训练，我们发现验证集误差随着时间的推移趋于平稳，并且进步非常缓慢。原始maxout结果使用提前停止，并在验

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[259918]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

解释和利用对抗样本外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章