Ian Goodfellow推荐论文:给机器学习增加防御就能解决鲁棒性问题?天真!

简介:

雷锋网 AI 科技评论按:在谷歌大脑做人工智能研究的Ian Goodfellow近日在推特上推荐了一篇关于防御对抗性样本的论文。这篇论文的内容刚好与他关于测试与验证方法的文章相呼应,可谓是对他提出的机器学习模型安全性堪忧观点的实证。

论文简介

雷锋网(公众号:雷锋网)了解到,这篇论文的名字为为「Adversarial Example Defenses: Ensembles of Weak Defenses are not Strong」,“防御对抗性样本:弱的防御方式组合起来也不强”,来自UC伯克利大学。论文关注的是机器学习模型面对攻击性数据时的防御表现,也就是模型的鲁棒性。论文中用生成式的方法修改MNIST和CIFAR-10中的图片,形成对抗性的样本,目的是让分类器对修改后的样本产生误判,借此对分类器的所用防御方法的效果进行评价。

Ian Goodfellow推荐论文:给机器学习增加防御就能解决鲁棒性问题?天真!

论文中测试了五种不同的防御方式

  • 单独使用降低色深方法(color-depth-reduction defense,能够减少对大量像素的微小改动,是效果较弱的特征压缩方法)

  • 单独使用空间平滑方法(spatial smoothing,能够减少对少量像素的大幅改动,是效果较弱的特征压缩方法)

  • 降低色深和空间平滑这两者的组合(“combination of multiple squeezing techniques”,标题所指的“弱的防御方式的组合”)

  • 使用一组专用识别器,对分类后的图像再次检测攻击性;如果其中有识别器检测到其对应的攻击性特征,就可以通过对分类结果的置信度体现出来(“ensemble of specialists”)

  • 使用三种对抗性攻击检测器的组合(“ensemble of detectors”,三种检测器分别为Gong、Metzen和Feinman)。

下面几张图展示的就是测试结果。第一行是原始图像,通过生成模型修改出的能够使分类器错误分类的攻击图像在第二行。

Ian Goodfellow推荐论文:给机器学习增加防御就能解决鲁棒性问题?天真!

降低色深法防御CIFAR-10图像(左),空间平滑法防御MNIST图像(右)

Ian Goodfellow推荐论文:给机器学习增加防御就能解决鲁棒性问题?天真!

空间平滑法防御CIFAR-10图像(左),降低色深和空间平滑组合防御MNIST图像(右)

Ian Goodfellow推荐论文:给机器学习增加防御就能解决鲁棒性问题?天真!

降低色深和空间平滑组合防御CIFAR-10图像(左),专用识别器防御MNIST图像(右)

可以直观地看到,四种防御方式的效果都非常有限,每一组中的第二行图片只有不大的改动,就已经可以导致分类器对样本的误判。由于MNIST图像比较简单,对于几种防御方式,对抗性处理带来的失真许多时候已经可以看得出来;但CIFAR-10的图像来说,能够骗过分类器的变化仍然都是人眼察觉不到的。

为了量化比较,他们也用把对抗性处理带来的失真(distortion)进行了数值化,虽然几种方法都不理想,但是所需的失真数量确实还是有所区别,能够反映防御能力的高低。

对于第五种防御方法,论文中还选取了另一种指标,就是自适应的攻击图片生成器除了能够骗过它本来目标的检测器之外(为了三种中的一种生成一张攻击图片,成功率轻松达到100%),能否同样轻松地骗过没有作为目标的检测器。结果是为骗Metzen生成的图片(作为source)最容易同样骗过另外两种(作为target),而为Feinman生成的就要差一点。

Ian Goodfellow推荐论文:给机器学习增加防御就能解决鲁棒性问题?天真!

第五种防御方法里,三种检测器的交叉测试结果

总的来说,现有结果表明弱防御方式的组合并不能显著提高系统的鲁棒性,想要找到能够高效防御对抗性样本的方法还有很长的路要走。

论文中也介绍了他们在生成攻击图像过程中的收获:1. 评估防御能力的时候要想办法生成比较强的攻击图像,最好不要用FGSM这样图快的方法;2. 评估防御能力的时候最好用自适应性的攻击图像生成器,这样对于攻击者知道防御手段的情况也能够提高安全性。

雷锋网 AI 科技评论也会对机器学习模型的安全性和隐私保护问题持续给予关注,请关注更多后续文章。

论文地址:https://arxiv.org/abs/1706.04701

相关文章:

Ian Goodfellow与ICLR 17最佳论文得主新作:验证与测试,机器学习的两大挑战

本文作者:杨晓凡

本文转自雷锋网禁止二次转载,原文链接


相关文章
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享
12月10日,NeurIPS 2024在温哥华开幕,阿里云PAI团队论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》入选Spotlight,PAI团队还进行了“可信AI的技术解读与最佳实践”主题演讲,展示AI工程化平台产品能力。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
2月前
|
机器学习/深度学习 搜索推荐 算法
机器学习-点击率预估-论文速读-20240916
机器学习-点击率预估-论文速读-20240916
51 0
|
4月前
|
机器学习/深度学习 安全 算法
利用机器学习优化网络安全防御策略
【8月更文挑战第30天】在信息技术迅猛发展的今天,网络安全问题日益突显,传统的安全防御手段逐渐显得力不从心。本文提出一种基于机器学习的网络安全防御策略优化方法。首先,通过分析现有网络攻击模式和特征,构建适用于网络安全的机器学习模型;然后,利用该模型对网络流量进行实时监控和异常检测,从而有效识别潜在的安全威胁;最后,根据检测结果自动调整防御策略,以提升整体网络的安全性能。本研究的创新点在于将机器学习技术与网络安全防御相结合,实现了智能化、自动化的安全防御体系。
|
4月前
|
机器学习/深度学习 数据采集
|
4月前
|
机器学习/深度学习 存储 人工智能
【ACL2024】阿里云人工智能平台PAI多篇论文入选ACL2024
近期,阿里云人工智能平台PAI的多篇论文在ACL2024上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台PAI在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
阿里云人工智能平台PAI论文入选OSDI '24
阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理

热门文章

最新文章