ICLR 2022 Spotlight | MSU联合MIT-IBM提出首个黑箱防御框架

简介: ICLR 2022 Spotlight | MSU联合MIT-IBM提出首个黑箱防御框架
本文是一篇关于黑箱防御工作的研究,代码和模型均已开源,论文已被 ICLR 2022 接收为 spotlight paper。


今天介绍一篇密根州立大学 (Michigan State University) 和 MIT-IBM AI 实验室的一篇关于黑箱防御工作的文章,本文被 ICLR 2022 接收为 spotlight paper, 代码和模型均已开源。该文作者受 Trustworthy ML Initiative 邀请,将会在美东时间 9 月 15 日中午 12 点对本篇文章进行讲解以及相关的讨论,感兴趣的同学可以使用 zoom 线上参加。


1. 背景
机器学习模型,尤其是深度神经网络,在各种预测任务中有着卓越的表现,但是这些模型通常缺失鲁棒性(robustness)。例如,在输入上添加一些人眼难以察觉的对抗扰动(adversarial perturbation)会导致神经网络误判。目前有很多工作研究对抗攻击(adversarial attack),并成功应用在了不同应用场景上,比如:图片分类, 物体识别,图片重建。受害模型(victim model)可分为白箱模型(所有模型信息可以被攻击者得到),黑箱模型(模型信息不可知)

鉴于对抗攻击的流行,如何提高模型鲁棒性进而不受攻击影响成为了当前的研究重点。对抗学习(Adversarial Training)是其中最为有效的方法之一。由对抗学习延伸,多种经验主义防御(empirical defense)方法被提出。另外一类防御是认证防御(certified defense),与经验主义防御不同的是,它可以提供在一定扰动强度范围内成功防御的理论保证,即在一定扰动强度内,经验主义防御可能对新的对抗攻击失效,但认证防御不会失效。另外,尽管对抗防御(adversarial defense)这个领域有了很大的发展,几乎所有防御都是只针对白箱模型,但是在实际应用中,白箱模型的这种假设会限制其应用。比如,模型参数的公开会导致训练数据的泄露,进而影响用户隐私。白箱防御确实可以使用多个不同结构的代理模型(surrogate model)代替黑箱模型进行对抗学习。但是在一些领域(例如:医学领域),针对一个任务并没有多个训练好的模型供防御者使用。所以,本文提出了一个问题:
是否有可能设计一个针对黑箱的防御方法?(训练过程中仅使用输入和模型的输出作为训练数据)


2. 问题阐述
随机平滑(Randomized Smoothing, RS)是用加了随机高斯噪声的图片进行目标模型训练,而降噪平滑(Denoised Smoothing, DS)是在不改变目标模型参数的情况下,只在其前方加一个降噪器(denoiser),训练时仅更新降噪器的参数,最后使降噪器与目标模型作为一个整体时具有鲁棒性。随机平滑与降噪平滑均为认证防御,但对于黑箱防御这个应用场景,降噪平滑更为适合。所以,本文以降噪平滑为基础进一步搭建黑箱防御框架。目标模型是黑箱,反向传播 Backpropagation, BP)的过程会被中断,进而梯度(gradient)并不能通过反向传播得到。所以,需要解决的问题就变成了如何估算降噪器的训练梯度来更新参数。

3. 方法
一阶优化(first-order optimization, FO)需要梯度可求,而零阶优化(zeroth-order optimization, ZO)则不需要。零阶优化会通过函数输出间的差来估算梯度。


随机梯度估算(random gradient estimation,RGE)是在原输入上加相同形状的随机变量,并通过其输出与原输出的差来进行梯度估计,如下图。其中, 变量, 为平滑参数(smoothing parameter),为 q 个随机变量。随机梯度估算不稳定,需要增加 q 值,才能增强其稳定性,而运算量也会成倍上升。另外一种方法则是坐标梯度估算(coordinate gradient estimation, CGE),每次仅改变一个位置上的元素的值,并求出其对应的梯度,反复进行 d 次,如下方公式。虽然坐标梯度估算更加稳定,但是当变量的维度 d 很大时,运算量会大到难以接受。这也就是为什么,零阶优化目前仅用于对抗攻击的生成,因为对抗扰动的维度是图片类似的维度,而模型参数的维度远远大于图片的维度显然,直接使用零阶优化更新模型参数对于黑箱防御这个任务是行不通的。  

利用链式法则(chain rule),降噪器参数的梯度求解可以被分解成两部分,如下方公式。进而,只需要估算出降噪器输出的梯度即可,然而降噪器输出的维度与图片维度相当,依然无法使用坐标梯度估计。


FO-DS 和 ZO-DS 分别为降噪平滑的一阶优化版本和零阶优化使用随机梯度估算的版本。如下表所示,使用随机梯度估计,并不能得到理想的效果,与一阶优化结果相比有着明显差距。

很明显,为了可以使用更为稳定且准确的坐标梯度估计,需要进一步降低目标变量的维度。如下图所示,本文在降噪器与黑箱模型中间插入了一个预训练好的自编码器(Autoencoder, AE),一个自编码器由一个编码器(encoder)和一个解码器(decoder)组成。编码器与降噪器被归为白箱模块,在训练过程中参数会被更新,而解码器与黑箱模型被视为一个黑箱整体,其参数在训练过程中都不会得到更新。这种网络框架被称为, ZO Autoencoder-based DS (ZO-AE-DS),在这个黑箱防御框架下,白箱模块输出的维度被大幅压缩,使得坐标梯度估计可以被使用。


4. 试验
试验阶段,本文在 CIFAR-10,STL-10 以及 Restricted ImageNet(R-ImageNet)数据集上进行了图片分类任务的效果评估。使用的评估指标为标准准确率(standard accuracy,SA)和不同半径下的认证准确率(certified accuracy,CA)。值得注意的是,当半径为 0 时,标准准确率与认证准确率相等。另外,本文将 ZO-AE-DS 黑箱防御框架扩展应用到了图片重建任务上,也得到了理想的效果。本文实验中的降噪器选择的是与降噪平滑相同的 DnCNN。实验表格中常用缩写如下图所示。


下方表格和图表是在 CIFAR-10 数据集上的实验结果。

  • 首先,在使用不同的 q 值的情况下,ZO-AE-DS 的效果都远超 ZO-DS。
  • 第二,使用 CGE 的 ZO-AE-DS 取得了零阶优化方法中最好的效果,甚至达到了比 FO-DS 更好的效果,这归功于自编码器的引入。ZO-AE-DS 黑箱防御框架解决了零阶优化在高维度变量下无法使用的难题
  • 第三,可以看出,使用一阶优化直接更新目标网络参数的随机平滑取得了最好的效果,但这是在所难免的。




下面是将 ZO-AE-DS 扩展到图像重建任务上、在 MNIST 数据集上得到的结果。可以看到,将 ZO-AE-DS 黑箱防御框架应用到图像重建任务上时依然可以达到与 FO-DS 相似的效果,这证明了 ZO-AE-DS 黑箱防御框架的有效性以及可扩展性。



5. 总结与讨论
本文主要研究了在只使用目标模型的输入和输出的情况下,如何进行黑箱防御。为了解决黑箱防御这个难题,本文将降噪平滑与零阶优化结合起来,提出了有效的且可扩展的 ZO-AE-DS 黑箱防御框架,这个框架有效地减少了零阶梯度估计的方差,进而缩减了零阶优化与一阶优化性能上的差距。
作者介绍
张益萌, 密歇根州⽴⼤学OPTML 实验室, 计算机博士在读, 研究兴趣⽅向包括AI安全、 3D/2D计算机视觉、 多模态、 模型压缩。

相关文章
|
16天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23519 12
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
3天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
1215 7
|
5天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
1369 3
|
9天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
2517 4
|
3天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
930 0
|
20天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
6036 22
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
21天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
7291 18