对抗环境下深度学习的局限性外文翻译资料-外文翻译网

英语原文共 16 页，剩余内容已隐藏，支付完成后下载完整资料

对抗环境下深度学习的局限性

摘要：深度学习利用大型数据集和高效计算的训练算法，在各种机器学习任务上表现优于其他方法，但深层神经网络训练阶段的缺陷使它们容易受到对抗样本的攻击导致错误分类输出。本文对深层神经网络（DNN）进行了输入域格式化操作，并在对DNN输入输出映射的准确理解的基础下提出了一种生成对抗样本的新算法。生成的对抗样本可被人眼分类正确但会被DNN误分类为特定对象的样本，算法具有高达97％的对抗成功率，且每个样本平均仅修改了4.02％的输入特征。定义样本难易程度来评估不同样本类别对对抗攻击的耐受程度并定义对良性输入与目标分类之间的距离的预测性度量以期对对抗攻击的防御研究工作做出贡献。

I．简介

大型神经网络也就是深度神经网络（DNN）在许多任务中的表现胜过其他方法这同时也改变了机器学习的格局。深度神经网络可以降低计算复杂性。深度学习（DL）现在可以利用大型数据集来实现比以前的分类技术更高的准确率。简而言之，DL正在改变计算机视觉，语音识别，语言处理，财务欺诈检测以及恶意软件检测等许多领域中复杂数据的计算处理。

深度学习的广泛使用促使攻击DNN使之输入错误分类。例如，运用深度学习应用程序使用图像分类器来区分不适当内容和适当的内容，运用文本和图像分类器来区分垃圾邮件和非垃圾邮件。

攻击者使分类网络错误分类从而规避检测并因此获利，但这种攻击还会发生在一些非DL分类系统上。试想使用DL识别交通标志的无人驾驶汽车系统面对轻微变动的“停止”标志就失去判断没有停车。

图1 生成的对抗样本

对抗样本是会对深度学习分类问题产生干扰使系统误分类且在系统训练好之后才会被生成的输入，并且测试过程中系统不会改变任何参数。图1展示了部分验证实验过程中能够生成的对抗样本，这些被更改的输入可以使本来正常分类的图像被错误分类。攻击者通过利用 DNN 从有限训练集中学到的一般性添加失真来创建对抗样本。简而言之，这些技术通过网络训练算法计算梯度：这里梯度不是像以往更新网络参数，而是来更新原始输入本身以使样本被DNN错误分类。

本文描述了一类针对任何前馈（无环）DNN的对抗样本生成新算法并将深度学习可攻击空间与输出分类的完整性进行了格式化。不同于前文的方法，本文计算从输入到输出的直接映射以实现显式的对抗目标。算法仅改变了部分输入特征减少了源输入的扰动。它还可使攻击者应用启发式搜索来查找导致输入目标错误分类的扰动（扰动输入以导致特定的输出分类）。

更正式地说，DNN模型是一个多维函数，其中是（原始）特征向量，是输出向量。从良性样本中构造对抗样本即添加一个微扰向量并解决以下优化问题：

(1)

其中是对抗样本，是所需的对抗输出，是一个适合于比较DNN的范数。由于DNN具有非线性和非凸的性质，本文通过构造从输入扰动到输出变化的映射来制作对抗样本。本文研究的内容和前人方法不同：使用输出变化来寻找相应的输入扰动，定义DNN学习函数的Jacobian矩阵为正向导数来说明输入的变化如何影响DNN输出，通过正向导数构造对抗显著映射，显著图说明输入特征中的哪些输入更容易扰动。正向导数法比以往梯度下降法更加强大并同时适用于监督和无监督的体系结构。基于前向导数产生的对抗显著图给予了攻击者更大的控制权。

本文探讨了DL在对抗环境中出现的安全问题：如“对DL进行攻击需要了解什么？”、“如何识别易受攻击或耐受攻击样本？”和“人类如何感知对抗样本？”。

对抗样本生成算法使用广泛研究的LeNet体系结构(一种用于手写数字识别的开创性DNN)和MNIST数据集进行验证。我们表明，任何输入样本都可能被干扰，被错误地归类为任何目标类，其成功率为97.10%，而每个样本的输入特征平均为4.02%。样本生成的计算成本是适度的；每个样本在不到一秒的时间内生成。最后本文研究了算法参数对样本失真和人类感知的影响。综上所述，本文做出以下贡献：

在对抗性目标和能力方面，本文确定了DNN分类的攻击空间。同时阐述了攻击能力将如何约束攻击方法和攻击目标
本文提出了一类新的产生对抗样本的算法，这种算法的产生基于我们对DNN结构的了解。这类算法充分利用了前向导数所体现的DNN模型的学习过程，同时算法还生成了有利于对抗样本研究的显著性图
本文通过广泛应用的计算机视觉DNN模型对提出的算法进行了验证。本文定义且量化了对抗样本相较于原始样本的失真程度，同时还提出了对抗攻击的防御方法，最后还研究了对于失真样本的人类视觉感知。

II.深度学习中对抗攻击的分类

经典的威胁模型枚举了目标域中的对抗攻击的目标和能力。本节对深度学习系统中的攻击模型进行分类，并分析了已有的攻击模型优缺点和适用范围，然后概述了深度神经网络的基本知识尤其是其输入、输出和其中的函数。我们最后给出了如图3所示的对抗攻击分类方法。

A．深度神经网络概述

深度神经网络是由数层神经元组成的神经网络，也是对于连续的输入数据的表示。神经元是一个可以将激活函数的输出传递给其他神经元的计算单元。神经元之间的权值和阈值表示了神经元对关系的紧密。权值和阈值可看作是DNN用于存储网络特征的参数。我们可以通过网络拓扑结构，激活函数，权值以及阈值来确定一个神经网络的结构，其中权值和阈值需要通过训练获得。训练通过使用反向传播算法的梯度下降法完成最小化损失函数的目标。

深度学习可以分为两类：监督学习和非监督学习，这种分类取决于输入数据是否有标签。监督学习可以由带有标签的训练资料中学到一个模式，并以此模式推测新的的实例。与之相反的是，非监督学习利用没有标签的输入数据完成同样的工作。非监督学习可以应用于大型深度神经网络模型中的预处理层。这篇文章仅在监督学习的范围内讨论输出为概率向量的多层分类器的对抗问题，但我们的讨论仍然对非监督学习的DNN模型有效，最后对这类问题的未来研究留有讨论细节。

图2 神经网络模型

B．对抗攻击的目标

安全隐患是针对某一特定功能而言的。就深度学习系统而言，分类的完整性至关重要。具体来说，攻击深度学习系统也就是试图提供输入，从而导致错误的输出分类。如图3的X轴所示，错误分类的特性体现了对抗攻击目标。按照对于分类器输出完整性的影响，对抗攻击目标可分为以下四类：

1）降低置信度：降低模型最终输出分类的可靠性（也就是模型的输出分类变得更加不明确）

2）误分类：使得模型最终的输出分类错误，如果原来输入X分为A类，对抗攻击通过扰动构造的却被分类为了除A以外的其他类。

3）目标误分类：使得模型最终的输出分类错误且为特定的一类，例如图1中生成的被分类为特定数字的图像。

4）源/目标误分类：要求针对一个特定输入样本的攻击实现目标误分类为另一特定的输出。继续拿图1举例子，对手获取一个现有的数字图像，并添加少量斑点以将结果图像分类为另一个数字的攻击就属于这种。

图3 攻击分类

业界最近开始探索深度学习中的对抗攻击问题。第七节中将引用以往其他有关机器学习技术的研究。

Szegedy等人介绍了一种系统，该系统通过扰动输入以产生源/目标错误分类的方式来生成对抗样本。这些对抗样本中的扰动无法被人辨别。举个例子，一幅添加了很小扰动的汽车的图像在经过DNN之后被分类为鸵鸟。作者将修改后的输入命名为对抗图像，是广泛定义下的对抗样本。在生成对抗样本时，对抗目标是生成目标DNN分类错误但人类或其他分类器正确分类（或无法区分）的输入。

另一个例子来源于Nguyen等人。Nguyen提出了一种生成人类无法识别但仍被DNN标记为可识别对象的图像的方法。例如，采用这种方法生成的充满噪声的图像会被目标DNN以高置信度分类为电视机。生成的图像没有确定的来源但是却可以实现使DNN误分类为特定的某一类。他们将这种方法生成的图像命名为欺骗图像(fooling images)。

C．对抗攻击的能力

对抗攻击程度由攻击者所能获得的攻击目标模型信息多少和攻击能力强弱决定。图3的Y轴描述了一系列通过降低攻击强度（和增加攻击难度）的攻击。本文仅考虑在测试阶段的攻击，而不考虑训练阶段的攻击。

了解训练数据和模型结构-此类攻击对于被攻击的神经网络非常了解。攻击者能够获取到用于训练模型的训练数据T、算法以及损失函数。同时攻击者能够获取模型网络结构的神经元的层数和类型、激活函数、权重和偏移矩阵等全部信息。这类攻击者可以分析训练数据并且在toto中模拟被攻击的深度神经网络。

了解网络体系结构-攻击者了解模型网络结构F及相关参数。攻击者应该收集有关以下方面的信息：（1）神经网络的各层具体情况和激活函数（2）训练过程中产生的权重和偏差。这些信息足够攻击者来模拟要攻击的网络。本文中的研究是基于此类攻击模型。下文将展示一类可为有监督和无监督的前馈DNN生成对抗样本的新算法。

了解训练数据-攻击者能够获取到模型用于训练的样本数据，也就是能够知道模型训练集的分布，但是并不知道模型具体的结构。因此，这类攻击常常会针对使用可代替的数据集进行训练的模型，并模拟由合法分类器学习的模型。

可获得任意输入输出-这类攻击把模型认为是一个黑盒，但是攻击者可以构造任意的输入来得到模型的输出判断从而找到输入和输出之间的对应关系，类似于密码学中的选择明文攻击的方式。

仅了解样本-攻击者可收集与神经网络分类器有关的输入和输出对，但不能通过修改这些输入来观察输出的差异。这类攻击对应于密码学中的已知明文攻击。

III. 攻击方法

在本节中，我们提出一种适用于DNN的通用对抗样本生成算法。之后，我们通过分类器是否将样本错误分类为确定的目标类别来验证算法。该攻击方法的攻击目标为输入可被误分类为特定类别，攻击能力为攻击者可获取网络体系结构。而了解模型结构和权重参数就可对非循环前馈DNN展开攻击。这个过程需要评估DNN的前向导数并构建对抗显著图以识别与攻击目标相关的输入特征集，这样产生的扰动很快就会导致例如误分类这样所需的对抗性输出。尽管我们用监督神经网络作为分类器来描述算法，但它也适用于无监督学习分类。

A．举一个简单的神经网络的例子

第二节介绍的神经网络基本结构(如图2)的低维性能够让我们更好地理解算法背后的基本概念。接下来，我们将说明使用前向导数产生的小扰动输入是如何导致神经网络大变化输出的。假设输入偏差、和为零，函数功能为，，其中，非整数将四舍五入到最接近的整数。于是和这两个式子成立。对应于函数的每一种情况（1and;1=1，1and;0=0，0and;1=0，0and;0=0），在一组1000个样本上使用反向传播，使用学习率eta;=0.0663训练100次。神经网络学习到的输出如图4所示，其中输入值，水平轴上有2个输入、，而垂直轴表示对应于的训练输出。

图4 简单神经网络的输出

我们现在将演示如何在这个神经网络上产生对抗样本。现在假定有正确输入样本，在经过神经网络后会被分类为。攻击者想要产生一个对抗样本，和非常接近但会被网络分类为。这个问题可被表示为以下优化问题：

其中为对抗样本，为期望的对抗输出，。这个问题就是想要寻找一个添加在输入上的很小扰动使得输出被修改。这个问题可以采用优化方法、启发式搜索以及暴力求解解决。但由于深度神经网络具有非凸性和非线性的性质，以上方法很难计算得解。于是，本文提出了一种基于前向导数得求解方法。

我们将前向导数定义为训练过程中所学习函数的雅可比矩阵。在这个例子中，的输出是一维的，因此前向导数被简化为一个向量：

(2)

这个向量的两个分量都可以用对抗攻击的知识计算，稍后我们将展示如何有效地进行计算。示例网络的前向导数如图5所示。图5绘制了垂直轴上第二个分量相对于水平轴的梯度。我们没有绘制第一个向量的梯度图，因为它的两个输入端上输出是近似对称的，因此第一个分量对于我们来说是多余的。可以很容易地从图中看到对于同一，网络的两个可能输出之间的差异：峰值附近产生了由0到1的巨大变化。这个现象与图4保持一致的同时也为我们提供了实现对抗目标所需的信息：找到使输出更接近期望值的输入扰动。

图5 简单神经网络的前向导数

参考图5以及示例网络，我们可以通过查看几个样本点来确认这种直觉。考虑两个样本点：和。它们都位于图5中的峰值附近。尽管它们之间的差别很小，但是它们会导致网络输出的显著变化：和。我们对这个网络的输入和输出进行取整，使其与布尔值和函数一致，我们将看到是一个对抗样本示例：取整之后且其输出。与此同时，正向导数告诉我们哪些输入区域不太可能产生对抗性样本，因此这些区域对对抗攻击的抵抗力更强。在图5中，当任一输入接近0时，其正向导数很小。这与我们的直觉一致，即找到附近的对抗样本比找到附近的更困难。这就要求在构造对抗样本时，攻击者需要将注意力集中在给定输入中产生较大前向导数值的特征上，从而提高搜索效率，最终导致较小的总体失真。

这个例子的结论是：（1）小的输入变化会导致神经网络输出产生很大的变化，（2）不是所有的输入区域都有利于寻找对抗样本，（3）前向导数减少了对抗样本的搜索空间。

B. 前向深层神经网络的推广

我们现在将这种方法推广到任何前向DNN。推广前提是，组成该非循环DNN神经元都采用可微的激活函数。这个假设其实对于使用反向传播算法的网络没有限制。在图6中，我们给出了一个前向深层神经网络结构的例子并定义了下文将使用的一些符号。需要特别说明的是，当给定M维输入时，DNN在训练中学习到的N维函数会分配一个输出。网络中隐藏层的层数记为。在中，表示输入层，对应于隐藏层，表示输出层。

图6 前向深层神经网络

算法1说明了我们构造对抗样本的过程。该算法以正常样本、目标输出、无环前馈DNN训练得到的函数、最大失真参

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[239575]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

对抗环境下深度学习的局限性外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章