AI攻防算法能力几何?全新测试基准平台发布,一定要来PK下

简介: 清华大学联合阿里安全、瑞莱智慧 RealAI 等顶尖团队发布首个公平、全面的 AI 对抗攻防基准平台。AI 模型究竟是否安全,攻击和防御能力几何?只需提交至该平台,就可见能力排行。

从发展的角度来看,人工智能正在从第一代的知识驱动和第二代的数据驱动转向第三代的多元驱动,知识、数据、算法和算力成为四大因素。安全可控也成为第三代人工智能的核心发展目标,数据与算法安全成为学界和业界人士重点关注的研究主题之一。其中,在数据安全层面,数据泄露和投毒是造成数据安全风险的两个重要根源;在算法安全层面,对抗样本对人脸识别、身份认证以及刷脸闸机等人工智能应用的安全性构成了巨大的挑战。


近年来,我们更是看到了很多场景中 AI 算法被攻破的典型案例。自 2016 年以来,特斯拉 Model S、Model X 和车辆搭载的 Autopilot 自动辅助驾驶系统曾先后被腾讯科恩安全实验室攻破,高危安全漏洞和 AI 算法的缺陷使车辆处于危险的状态,并严重威胁人身和财产安全;2021 年,19 款使用 2D 人脸识别技术的国产安卓手机被 RealAI 利用具备对抗攻击能力的特制眼镜成功解锁,由此引发了人们对人脸支付、线上身份验证等的担忧。

在 AI 模型和算法面临种种挑战的情况下,如何准确地探知各个 AI 攻防模型的攻防能力变得愈加重要。这时,如果出现一个平台能够对 AI 模型和算法的攻防能力做出排名,那么我们就能够及时地调整改进,并有的放矢地采取防范措施,也就可以降低技术落地过程中的安全风险。

在 2021 年北京智源大会上,清华大学联合阿里安全、瑞莱智慧 RealAI 发布了业内最新的基于深度学习模型的对抗攻防基准平台(Adversarial Robustness Benchmark),此基准可以更加公平、全面地衡量不同 AI 攻防算法的效果,提供方便使用的鲁棒性测试工具,全面衡量 AI 攻防模型的攻防能力。用户可以通过提交模型的方式获取攻防能力排名。

微信图片_20211205113343.jpg

从左往右依次为 RealAI CEO 田天、中国科学院院士 & 清华大学人工智能研究院院长张钹、清华大学计算机系教授 & RealAI 首席科学家朱军和阿里巴巴安全部技术总监薛晖。


构建公平、全面 AI 对抗攻防基准平台的必要性


深入研究潜在针对机器学习模型的攻击算法,对提高机器学习安全性与可信赖性有重要意义。以往,研究者在衡量模型的防御性能时,基本只在一种攻击算法下进行测试,显然不够全面。攻击算法是经常变化的,需要考虑模型在多种攻击算法和更强攻击下的防御能力,这样才能比较系统地评估 AI 模型的防御能力。

与此同时,业界此前提出的各种「攻击算法排行榜」只包含一些零散的算法,测量攻击算法的环境也只包含单一的防御算法,用于评测的数据集也不多,更没有合适的统计和度量标准。

因此,此次推出的 AI 对抗安全基准基本上包含了目前主流的人工智能对抗攻防模型,涵盖了数十种典型的攻防算法。不同算法比测的过程中尽量采用了相同的实验设定和一致的度量标准,从而在最大限度上保证了比较的公平性。

微信图片_20211205113347.jpg

AI 算法的攻击结果和防御结果排名示例,左为防御算法排名,右为攻击算法排名。

基准测试平台网站:http://ml.cs.tsinghua.edu.cn/adv-bench

通过对 AI 算法的攻击结果和防御结果进行排名、比较不同算法的性能,对于建立 AI 安全基准具有重要学术意义,可以更加公平、全面地衡量不同算法的效果。

阿里巴巴安全部技术总监薛晖表示,「参与推进这项研究工作,除了帮助 AI 模型进行安全性的科学评估,也是为了促进 AI 行业进一步打造『强壮』的 AI。


AI 攻防基准平台的发展及意义


近几年来,关于 AI 对抗攻防的国际赛事不断涌现,如生成对抗网络之父 Ian Goodfellow 牵头组织的 NIPS 2017 对抗样本攻防竞赛、2018 DEFCON CAAD CTF 对抗攻防赛等。其中,在 NIPS 2017 对抗样本攻防竞赛,朱军教授团队包揽全部三个项目的冠军。

2020 年,清华大学人工智能研究院研发并开源了 AI 对抗安全算法平台 ARES(Adversarial Robustness Evaluation for Safety)。这是一个用于对抗机器学习研究的 Python 库,致力于对图像分类任务上不同模型的对抗鲁棒性进行准确和全面的基准测试。这个算法平台也是本次发布的 AI 对抗鲁棒测评基准的主要依托。

微信图片_20211205113350.jpg



在该基准测试中,研究者将 16 种防御模型(CIFAR-10 和 ImageNet 数据集上各占一半)和 15 种攻击方法用于对抗鲁棒性评估。下图(上)为防御模型,图(下)为攻击方法(其中 FGSM、BIM 和 MIM 分别采用了白盒和基于迁移的攻击)。该基准测试汇集了当前主流和代表性的对抗攻击和防御算法,论文也入选了 CVPR 2020 Oral。

微信图片_20211205113354.jpg


除了数十种典型的攻防算法之外,本次发布的 AI 安全排行榜也包括了刚刚结束的 CVPR 2021 人工智能攻防竞赛中诞生的排名前 5 代表队的攻击算法。此次竞赛吸引到了全球 2000 多支代表队提交最新算法,选手基于 ARES 平台提交攻击算法,对已有对抗防御模型进行准确的鲁棒性测试,进一步提升了该安全基准的科学性和可信性。

微信图片_20211205113403.jpg

CVPR 2021 人工智能攻防竞赛中「赛道 1 防御模型白盒对抗攻击」排名前 5 的队伍。

因此,基于前期研究成果以及 CVPR 2021 人工智能攻防竞赛中提交的算法,清华大学联合阿里安全、RealAI 发布了最新的 AI 对抗鲁棒性测评基准平台。完整时间线如下:

微信图片_20211205113406.jpg


RealAI 副总裁唐家渝表示:「该基准评测平台利用典型的攻防算法和 CVPR 2021 比赛积累的多个性能优越的算法进行互相评估,代表当前安全与稳定性测量的国际标准。」

清华、阿里安全和 RealAI 三方均强调,该基准评测平台不是专属于某一家机构或者公司搭建的平台,需要工业界和学术界的共同参与才能把它打造为真正受认可的全面、权威的 AI 安全评估平台。因此,三方将联合不断在排行榜中注入新的攻击和防御算法,并且欢迎学术界和产业界的团队通过 ARES 平台提交新的攻防模型

该平台的发布对工业界和学术界都能带来正面的影响,比如工业界可以使用该平台评估目前 AI 服务的安全性,发现模型的安全漏洞。同时,也可为学术界提供一个全面、客观、公平、科学的行业标准,推动整个学术界在 AI 对抗攻防领域的快速发展。

相关文章
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在软件测试中的转型力量###
本文深入探讨了人工智能(AI)技术在软件测试领域的应用现状与未来趋势,通过分析AI如何优化测试流程、提高测试效率与质量,揭示了AI赋能下软件测试行业的转型路径。传统测试方法面临效率低、成本高、覆盖率有限等挑战,而AI技术的引入正逐步改变这一格局,为软件测试带来革命性的变化。 ###
|
2月前
|
人工智能 数据可视化 API
10 分钟构建 AI 客服并应用到网站、钉钉或微信中测试评
10 分钟构建 AI 客服并应用到网站、钉钉或微信中测试评
103 2
|
19天前
|
人工智能 测试技术 Windows
Windows 竞技场:面向下一代AI Agent的测试集
【10月更文挑战第25天】随着人工智能的发展,大型语言模型(LLMs)在多模态任务中展现出巨大潜力。为解决传统基准测试的局限性,研究人员提出了Windows Agent Arena,一个在真实Windows操作系统中评估AI代理性能的通用环境。该环境包含150多个多样化任务,支持快速并行化评估。研究团队还推出了多模态代理Navi,在Windows领域测试中成功率达到19.5%。尽管存在局限性,Windows Agent Arena仍为AI代理的评估和研究提供了新机遇。
37 3
|
23天前
|
机器学习/深度学习 数据采集 人工智能
探索AI驱动的自动化测试新纪元###
本文旨在探讨人工智能如何革新软件测试领域,通过AI技术提升测试效率、精准度和覆盖范围。在智能算法的支持下,自动化测试不再局限于简单的脚本回放,而是能够模拟复杂场景、预测潜在缺陷,并实现自我学习与优化。我们正步入一个测试更加主动、灵活且高效的新时代,本文将深入剖析这一变革的核心驱动力及其对未来软件开发的影响。 ###
|
30天前
|
机器学习/深度学习 人工智能 安全
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
|
30天前
|
存储 人工智能 Java
将 Spring AI 与 LLM 结合使用以生成 Java 测试
AIDocumentLibraryChat 项目通过 GitHub URL 为指定的 Java 类生成测试代码,支持 granite-code 和 deepseek-coder-v2 模型。项目包括控制器、服务和配置,能处理源代码解析、依赖加载及测试代码生成,旨在评估 LLM 对开发测试的支持能力。
36 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在软件测试中的创新应用与实践###
本文旨在探讨人工智能(AI)技术如何革新软件测试领域,提升测试效率、质量与覆盖范围。通过深入分析AI驱动的自动化测试工具、智能化缺陷预测模型及持续集成/持续部署(CI/CD)流程优化等关键方面,本研究揭示了AI技术在解决传统软件测试痛点中的潜力与价值。文章首先概述了软件测试的重要性和当前面临的挑战,随后详细介绍了AI技术在测试用例生成、执行、结果分析及维护中的应用实例,并展望了未来AI与软件测试深度融合的趋势,强调了技术伦理与质量控制的重要性。本文为软件开发与测试团队提供了关于如何有效利用AI技术提升测试效能的实践指南。 ###
|
1月前
|
JSON 算法 数据可视化
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
这篇文章是关于如何通过算法接口返回的目标检测结果来计算性能指标的笔记。它涵盖了任务描述、指标分析(包括TP、FP、FN、TN、精准率和召回率),接口处理,数据集处理,以及如何使用实用工具进行文件操作和数据可视化。文章还提供了一些Python代码示例,用于处理图像文件、转换数据格式以及计算目标检测的性能指标。
59 0
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
|
1月前
|
人工智能 监控 JavaScript
模拟依赖关系和 AI 是Vue.js测试的下一个前沿领域
模拟依赖关系和 AI 是Vue.js测试的下一个前沿领域
29 1
|
1月前
|
人工智能 自动驾驶 机器人
【通义】AI视界|苹果自动驾驶汽车项目画上句号:加州测试许可被取消
本文精选了24小时内的重要科技新闻,包括Waymo前CEO批评马斯克对自动驾驶的态度、AMD发布新款AI芯片但股价波动、苹果造车项目终止、Familia.AI推出家庭应用以及AI逆向绘画技术的进展。更多内容请访问通义官网体验。