网站首页 > 科技论文> 文章内容

搞事!ICLR 2018七篇对抗样本防御论文被新研究攻破Goodfellow论战

※发布时间:2018-12-3 2:01:37   ※发布作者:habao   ※出自何处: 

  原标题:搞事!ICLR 2018七篇对抗样本防御论文被新研究攻破,Goodfellow论战 机器

  ICLR 2018 大会的接收论文中,8 篇有关防御对抗样本的研究中,7 篇已经被攻破了——在大会开幕三个月之前。来自 MIT 和 UC Berkeley 的研究者定义了一种被称为「混淆梯度」(obfuscated gradients)的现象。在面对强大的基于优化的之下,它可以实现对对抗样本的鲁棒性防御。这项研究引起了深度学习社区的讨论,GAN 提出者 Ian Goodfellow 也参与其中,并作了反驳。

  上图展示了一个「对抗样本」:仅仅加入了一些轻微的扰动,这张猫的图片就可以 InceptionV3 分类器,使其将图片分类为「鳄梨酱」。这类「性图像」可以轻松地利用梯度下降法生成(Szegedy et al. 2013)。

  论文作者他们找到了很多防御机制鲁棒地抵抗迭代的一个普遍原因:混淆梯度。缺乏好的梯度信号,基于优化的方法就不能成功了。在论文中,作者确定了三种类型的混淆梯度。某些防御方式会导致破碎的梯度,有意地通过不可微分运算或无意地通过数字不稳定性,可以得到不存在或不正确的梯度信号。一些防御是随机性的,导致依赖于测试时间熵的随机梯度(者无法接触)。另一些防御会导致梯度消失/爆炸(Bengio et al., 1994),导致无法使用的梯度信号。

  研究人员提出了克服这三种现象造成的混淆梯度的新技术。在研究中,一种被称为后向传递可微近似(Backward Pass Differentiable Approximation)的方决了不可微分运算导致的梯度破碎。我们可以使用 Expectation Over Transformation 计算随机防御的梯度(Athalye et al., 2017),通过再参数化和空间优化来解决梯度消失/爆炸问题。

  为了调查混淆梯度的普遍程度,并了解该技术的适用性,研究人员使用 ICLR 2018 接收论文中的防御对抗样本论文作为研究对象,研究发现混淆梯度的使用是一种普遍现象,在 8 篇论文里,有 7 篇研究依赖于该现象。研究者应用新开发的技术,解决了混淆梯度问题,成功攻破其中的 7 个。研究人员还对新方法对这些论文的评估过程进行了分析。

  此外,研究者希望这篇论文可以为对抗样本方向提供新的知识基础、技术解释,避免未来的研究落入陷阱,帮助避免未来的防御机制轻易被此类攻破。

  为了可复现,研究人员重新实现了 8 篇防御研究的方法,以及对应的方法。下表展示了这 8 篇防御研究方法在下的稳健程度:

  七篇论文中,我们能够看到唯一一个显著提高对抗样本防御鲁棒性的研究是论文《Towards Deep Learning Models Resistant to Adversarial Attacks》(Madry et al. 2018),如果不使用模型以外的方法就无法攻破它。即便如此,这种方法也已被证明难以扩展到 ImageNet 的规模(Kurakin et al. 2016)。其他论文全部或多或少地依赖于「混淆梯度」。标准应用梯度下降使网络损失最大化,为给定图片在神经网络中生成对抗样本。这种优化方法需要有可用的梯度信号才能成功。基于混淆梯度的防御会这种梯度信号,使得优化方法失效。

  研究人员定义了三种基于混淆梯度的防御方式,并构建了绕过它们的方法。新的方式适用于任何有意或无意的,不可微分运算或其他梯度信号流经神经网络的防御法。研究人员希望未来研究能够基于这种新提出的方法进行更加有效的安全评估。

  图 1. 不同失真水平的等级。第一行:正常图像。第二行:对抗样本,失线。第三行:对抗样本,失线

  构建防御时,定义对抗样本的模型非常关键。之前的研究使用单词 white-box、grey-box、black-box 和 no-box 来描述模型。

  本论文作者没有再次尝试重新定义词汇,而是概括防御的多个方面,它们对于对抗样本可能是已知的,但对于防御样本是未知的:

  假设对抗样本不知道模型架构和权重,查询访问被允许。那么模型输出为 logits、概率向量或预测标签(即 arg max)。

  尽管对抗样本的很多方面可能是未知的,但模型不应该包含非逼真的约束。研究者认为任何有效的模型都是对模型架构、训练算法所知梦见屎沾身甚少的,并且允许查询访问。

  研究者认为对抗样本的计算能力并无意义。如果两个防御对抗样本具备同样的鲁棒性,但其中一个生成对抗样本需要一秒,另一个需要十秒,则鲁棒性并未提高。只有当对抗样本的计算速度比预测运行时有指数级提升时,将运行时作为安全参数才是可行的。但是,把时间增加几秒并无太大意义。

  定义完清晰的模型之后,防御应该具体而可测试。例如,这些防御方法可以声称在失线 时,对抗样本的鲁棒性为 90% 至最大,或声称平均两种对抗样本的失真度增加了基线模型的安全程度(在这种情况下,基线模型需要有明确的定义)。

  不幸的是,研究者评估的大多数防御方法仅声明鲁棒性而未给出特定界限。这个最大的缺陷就是防御不应声称对具备彻底的鲁棒性:不失真度,则任何图像可以随意转换,且「成功率」为 100%。

  为了使防御声明可测试,防御必须是完全具体的,并给出所有超参数。发行源代码、预训练模型以及论文也许是使声明具体的最有效方法。8 篇论文中有 4 篇具有完整的源代码(Madry et al., 2018; Ma et al., 2018; Guo et al., 2018; Xie et al., 2018)。

  加强对现有的鲁棒性(同时又是具体而可测试的)用处不大。真正重要的是通过具有防御意识的积极评估自身的防御以证明安全性。

  具体而言,一旦彻底认定一个防御,并且对手受限于模式之下,攻克这一防御的尝试就变的很重要。如果它能被攻克,那么就不要设法特定的(即通过调整超参数)。一次评估之后,可接受对防御的调整,但调整之后要接受新的。这样,通过最终的自适应得出评估结果就类似于在测试数据上评估模型。

  摘要:我们发现了一种「混淆梯度」(obfuscated gradient)现象,它给对抗样本的防御带来虚假的安全感。尽管基于混淆梯度的防御看起来击败了基于优化的,但是我们发现依赖于此的防御并非万无一失。对于我们发现的三种混淆梯度,我们会描述展示这一效果的防御指标,并开发技术来克服它。在案例研究中,我们试验了 ICLR 2018 接收的 8 篇论文,发现混淆梯度是一种常见现象,其中有 7 篇论文依赖于混淆梯度,并被我们的这一新型技术成功攻克。

  新研究的第一作者,MIT 博士生 Anish Athalye 致力于研究防御对抗样本的方法。也是此前「3D 打印对抗样本」研究的主要作者(参见:围观!MIT科学家调戏了谷歌图像识别网络,后者把乌龟认成来福枪)。多篇 ICLR 接收论文在大会开始三个月前就遭反驳,看来,人们在防御对抗样本的道上还有很长一段要走。

  本文由来源于325棋牌 325游戏中心唯一官方网站

相关阅读
  • 没有资料