同时愚弄计算机视觉和有时间限制的人类的对抗性样本外文翻译资料-外文翻译网

英语原文共 22 页

同时愚弄计算机视觉和有时间限制的人类的对抗性样本

摘要

机器学习模型很容易受到对抗性样本的影响：图像中的微小变化会导致计算机视觉模型出错，比如把一辆校车误识别成鸵鸟。然而，人类是否容易犯类似的错误，这仍然是一个悬而未决的问题。在这篇论文中，我们通过利用最近的技术来解决这个问题，这些技术可以将具有已知参数和架构的计算机视觉模型转换为具有未知参数和架构的其他模型，并匹配人类视觉系统的初始处理。我们发现，在计算机视觉模型之间强烈转移的对抗性样本会影响有时间限制的人类观察者做出的分类。

引言

机器学习模型很容易被对抗性样本所欺骗：由对手优化的输入产生不正确的模型分类[3,39]。在计算机视觉中，一个对抗性样本是通常是通过对示例图像进行小扰动而形成的图像。许多构建对抗性样本的算法[13,24,27,33,39]依赖于对体系结构和体系结构的访问模型的参数，用于对输入执行基于梯度的优化。没有类似的访问对于大脑来说，这些方法似乎不适用于构建人类的对抗性样本。

一个有趣的现象是，对抗性样本经常从一种模式转移到另一种模式，

这使得攻击者攻击无法访问的模型成为可能[26,39]。这自然会引申出这样一个问题：人类是否容易受到这些对抗性样本的影响。显然，人类容易产生许多认知偏差和视错觉[17]，但这些通常并不是因为自然图像的微小扰动，它们目前也不是通过优化ML损失函数而产生。因此，目前的理解是这类可转移的对抗性样本没有对人类视觉感知的影响，但尚未进行彻底的实证调查。

对上述问题的严格调查不仅为机器学习从神经科学中获取知识提供了机会，同时也为从神经科学中获取机器学习知识提供了机会。神经科学经常为机器学习提供存在的证明——在我们从事对象识别算法之前，我们假设应该有可能建立它们因为人类大脑可以识别物体。见Hassabis等人。 [15]回顾神经科学关于人工智能的影响。如果我们确切地知道人类的大脑可以抵抗某一类对抗性样本，这将为机器学习安全中的类似机制提供存在证据。如果我们确切地知道大脑可以被对抗性样本所欺骗，那么机器学习安全研究也许应该将其重点从设计强大的模型转移到对抗性样本[5,13,19,27,32,39,40,42] 设计系统，尽管包括非强大的机器学习组件，但仍然安全。同样，如果针对计算机视觉开发的对抗性样本影响大脑，则在机器学习的背景下发现的这种现象可以导致更好地理解大脑功能。

在这项工作中，我们构建了从计算机视觉模型转移到人类视觉系统的对抗性样本。为了成功构建这些例子并观察它们的效果，我们利用机器学习，神经科学和心理物理学三个关键思想。首先，我们使用最近的黑匣子对抗性样本构造技术，为目标模型创建对抗性样本，而无需访问模型的体系结构或参数。其次，我们将机器学习模型应用于模仿人类的初始视觉处理，使其更有可能：对抗性样本将从模型转移到人类观察者中。第三，我们评估人类观察者在时间有限的环境中进行分类决策，即使是产生极其微小的影响人类感知是可检测的。通过使图像呈现足够简短，人类无法做到即使在干净的图像上也能获得完美的精确度，而且性能的微小变化会导致更多可测量的准确性变化。此外，简短的图像显示限制了时间在这期间大脑可以利用反复和自上而下的处理途径[34]，并且被认为使得大脑中的处理更接近于前馈人工神经网络中的处理。

我们发现跨计算机视觉模型传递的对抗性样本确实成功影响人类观察者的感知，从而揭示出一种共享于计算机视觉模型和人类大脑之间的新的幻想。

背景和相关工作

2.1对抗性样本

Goodfellow等人[12]将对抗性样本定义为“攻击者故意设计的导致模型出错的机器学习模型的输入”。在视觉对象识别的背景下，对抗性样本通常是通过对自然发生的图像应用一个小扰动以打破预测的方式形成的图像。由机器学习分类器制作。图1a是一个典型的例子，在熊猫的图像上加上一个小扰动会导致它被错误地分类为长臂猿。此扰动足够小，以致于无法察觉（即，它不能保存在使用8位的标准PNG文件中，因为扰动小于像素动态范围的1/255）。这种干扰依赖于基于神经网络参数精心选择的结构，但当放大到可感知时，人类观察者无法识别任何有意义的结构。请注意，在其他领域，如恶意软件检测[14]也存在对抗性样本，但我们在这里重点介绍图像分类任务。

对这项工作来说，对抗性样本定义的两个方面尤为重要：

对抗性样本是为了引起错误。它们不会（通常被误解）被定义为不同于人类的判断。如果通过偏离人类的输出来定义对抗性样本，那么通过定义就不可能为人类创造对抗性样本。在一些任务上，比如预测输入数字是否是质数，有一个明确而客观正确答案，我们希望模型得到正确的答案，而不是人类提供的答案（时间有限的人类可能不太擅长猜测数字是否是质数）。如何定义视觉对象识别的错误是一个挑战。在给图像添加扰动后，它可能不再与真实物理场景的照片对应。此外，在哲学上很难为不是真实物体的图像定义真实物体类别。在这项工作中，我们假设如果输出标签与人类提供的清洁图像标签不同，那么对抗性图像被错误地分类，而清洁图像标签被用作对抗性图像的起点。我们制造小的对抗性干扰，我们假设这些小的干扰不足以改变真正的分类。
对抗性样本没有被定义为不可察觉的（通常会被误解）。如果是这样的话，就不可能通过定义来为人类做出对抗性样本，因为改变人类的分类将构成人类感知的改变（例如，见图1b、c）。

图1：在更多模型/视点上优化的对抗性样本有时对人类更有意义。这一观察结果是一个表明机器到人的转移是可能的线索。图（a）是复制自[13]的对抗性图像的典型示例。这种对抗性攻击具有中等但有限的能力，可以在几何转换后愚弄模型，或者愚弄除用于生成图像的模型以外的模型。图（b）一种对抗性攻击，导致猫图像被标记为计算机，同时对几何变换具有鲁棒性，在[1]中开始采用。与A中的攻击不同，图像包含的功能在语义上与计算机相似。图（c）一个敌对的补丁，它使图像被标记为烤面包机，从多个角度进行优化，导致错误分类，从[4]中引用。与（b）类似，补丁包含的功能在人看来像烤面包机。

2.1.1向人类转移的线索是可能的

一些观察提供了可能转移到人类身上的线索。对抗性样本是已知的跨机器学习模型的转移，这表明这些对抗扰动可以携带关于目标对抗类别的信息。愚弄一个模型的对抗性样本通常愚弄另一个具有不同体系结构的模型[39]、在不同训练集上训练的另一个模型[39]、甚至用不同算法训练的模型[30]（例如，旨在愚弄卷积神经网络的对抗性示例也可能愚弄决策树）。传输效果使执行黑盒攻击成为可能，在这种情况下，对抗性样本愚弄了攻击者无法访问的模型[31，39]。库拉金等人[24]发现，尽管在物理世界中拍照时光线和相机效果等改变了它们的外观，但对抗性样本还是从数字世界转移到了物理世界。刘等人[26]表明，通过优化一个对抗性样板，可以大大提高它的可移植性，从而愚弄多个机器学习模型而不是一个模型：一个在优化过程中愚弄先进模型的对抗性样本更容易愚弄任意第六个模型。

此外，最近对跨多个环境转移的更强的对抗性样本的研究有时产生了对人类观察者更有意义的对抗性样本。例如，一只猫在通过几何变换进行转换的过程中，被敌意地扰乱成一台计算机的样子，从而开发出看起来像计算机的功能，而布朗的“敌意烤面包机”则具有看起来像烤面包机的功能（图1c）。如果我们考虑到人类视觉处理和计算机视觉模型之间的显著差异，人类有意义的特征的发展与携带真实特征信息的对抗性样本是一致的，因此更接近于愚弄人类（见第2.2.2节）。

2.2生物和人工视觉

2.2.1相似性

最近的研究发现了深层卷积神经网络（CNN）和灵长类视觉系统在表现和行为上的相似性[6]。这进一步激发了敌对的例子可能从计算机视觉模型转移到人类的可能性。我们观察到，深层CNN层的活动可以预测灵长类视觉通路中记录的活动[6，43]。Reisenhuber和Poggio[36]开发了一种大脑皮层的物体识别模型，它与现代CNN的许多方面非常相似。Kummerer等人[21，22]表明CNN可以预测人的注视。风格转换[10]表明，CNN的中间层捕获了对人类有意义的艺术风格概念。弗里曼等[9]使用CNN模型中的表示来开发心理物理元聚物，当简单地观察和小心地控制固定时，这些元聚物对人类是不可区分的。心理物理学实验比较了人类的错误模式和神经网络分类器的错误模式[11，35]

2.2.2显著差异

机器视觉和人类视觉之间的差异出现在视觉系统的早期。图像通常以具有恒定空间分辨率的静态矩形像素网格的形式呈现给CNN分辨率。另一方面，灵长类眼睛的空间分辨率与偏心率有关。分辨率在中央凹处较高，或视野中心约5°，但随着偏心率的增加呈线性下降[41]。一个需要在图像边缘高度敏锐的干扰，作为一个对抗性例子的一部分，可能会被眼睛检测不到，因此不会对人类感知产生影响。进一步的差异包括眼睛对时间和空间特征的敏感度，以及不均匀的颜色敏感度[25]。早期视觉系统建模仍然是一个活跃的研究领域[28，29]。正如我们在第3.1.2节中所描述的，我们通过使用一个受生物启发的图像输入层来缓解这些差异。

除了早期的视觉处理之外，CNN和人脑之间还有更大的计算性差异。我们考虑的所有CNN都是完全前馈结构，而视觉皮层的反馈比前馈连接多很多倍，并且具有广泛的循环动力学[29]。可能是由于这些建筑上的差异，人类在实验上会犯分类错误，这些错误在性质上与深层网络所犯的错误不同[8]。此外，大脑不会将场景视为单一的静态图像，而是通过扫视来主动探索场景[18]。正如在心理物理实验中常见的那样[20]，我们通过限制图像呈现的方式和受试者处理图像的时间来缓解处理过程中的这些差异，如第3.2节所述。

3.方法

3.1节详细介绍了我们的机器学习视觉管道。3.2节描述了我们的心理物理实验，以评估对抗性图像对人体的影响。

3.1机器学习视觉管道

3.1.1数据设定

在我们的实验中，我们使用了来自ImageNet的图像[7]。Imagenet包含1000个典型的人可能无法识别的高度地特定的类别，例如“乞沙比克猎犬”。因此，我们将这些精细的类别中的一些结合起来，形成六个我们确信对实验对象熟悉的粗糙的类别（狗、猫、花椰菜、卷心菜、蜘蛛、蛇）。然后我们将这六类分成以下几组：（i）宠物组（狗和猫图像）；（ii）危害组（蜘蛛和蛇图像）；（iii）蔬菜组（花椰菜和卷心菜图像）。

3.1.2模型集合

我们构建了一个在Imagenet上训练的k cnn模型集合（k=10）。每个模型都是这些体系结构之一的实例：初始v3、初始v4、初始resnet v2、resnet v2 50、resnet v2 101和resnet v2 152[16、37、38]。为了更好地匹配人类视觉系统的初始处理，我们用一个视网膜层预处理每个模型，该视网膜层预处理输入，以合并人眼执行的一些转换。在这一层中，我们对图像进行偏心相关的模糊处理，以近似人类受试者的视皮层通过其视网膜晶格接收到的输入。视网膜层的细节在附录B中描述。我们使用偏心率相关的空间分辨率测量（基于Macaque视觉系统）[41]以及已知的观察者和屏幕几何结构来确定每个图像位置的空间模糊程度。这将CNN限制在人类视觉系统也可获得的信息范围内。该层是完全可区分的，允许梯度反向传播通过网络时受到对抗性因素的攻击。有关模型及其分类性能的更多详细信息，请参见附录E。

图2：实验设置和任务。（a）来自条件（图像、ADV和翻转）的图像示例。顶端：ADV针对花椰菜类。底部：ADV针对猫类。见第3.2.2节中的条件定义。（b）来自虚假实验条件的示例图像。（c）实验装置和记录装置。（d）任务结构和时间安排。要求受试者反复确定简单呈现的图像属于哪两类（例如狗

资料编号：[5092]

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

同时愚弄计算机视觉和有时间限制的人类的对抗性样本外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章