天津大学、东京大学等研究:用深度强化学习检测模型缺陷

简介: 天津大学多智能体与深度强化学习实验室与东京大学、日本 AIST 研究所合作的一篇论文,提出利用深度强化学习方法来检测信息物理系统(CPS)模型中的缺陷。与传统方法相比,深度强化学习方法在大多数情况下能够通过更少次的模拟实验找出系统的缺陷。

随着AlphaGo的出现,掀起了深度强化学习(DRL)的浪潮。包括DeepMind、OpenAI在内的众多科研机构和高校都团队都致力于DRL的研究,DRL在游戏、智能机器人控制等领域也取得了不错的成效,如星际争霸相关游戏研发、机器人Atlas等。随着人工智能逐步走入人们的生活,信息物理系统的概念更加为人们熟知。信息物理系统(CPS, Cyber-Physical Systems)是一个综合计算、网络和物理环境的多维复杂系统,通过3C(Computer、Communication、Control)技术的有机融合与深度协作,实现大型工程系统的实时感知、动态控制和信息服务。主要用于一些智能系统上如设备互联,物联传感,智能家居,机器人,智能导航等。因此,信息物理系统(CPS)的安全检测问题成为了重中之重。

近日,软件工程形式化领域顶会FM2018(International Symposium on Formal Methods)接收了天津大学多智能体与深度强化学习实验室与东京大学、日本 AIST 研究所合作的一篇论文,提出利用深度强化学习方法来检测信息物理系统(CPS)模型中的缺陷。与传统方法(simulated annealing and cross entropy)相比,深度强化学习方法在大多数情况下能够通过更少次的模拟实验找出系统的缺陷。

这篇论文创新点为:首次将深度强化学习与违反CPS模型鲁棒性的问题型结合,并取得的较为显著的实验结果提出了新型测试框架

1)利用深度强化学习得到被测试系统的输入

2)把输入传入被测试系统,得到系统输出并计算收益值,作为下一轮学习的输入

3)循环以上步骤,检测缺陷。

CPS漏洞检测的传统方法

信息物理系统(CPS)在关键安全领域被应用得越来越广泛,这使得保证信息物理系统的正确性更加重要。在CPS模型上的测试和验证是保证其准确性的通用方法。同时由于CPS模型的状态空间是无限的,使得测试很难达到高覆盖率,验证技术昂贵并且不可判定。因此以鲁棒性为导向的falsification方法近期被认为是可以有效检测CPS缺陷的方法。

以鲁棒性为导向的falsification方法中,信号时序逻辑(STL)通常被用于表示CPS模型应该满足的(鲁棒性)性质。本文提出用以鲁棒性为导向的falsification技术来探索CPS模型的状态空间,并将使鲁棒性最小化的行为序列确定为测试的候选项。利用这种方式,以鲁棒性为导向生成暴露模型缺陷的输入(也就是反例),这样能更有效的并且自动的进行缺陷检测。尽管falsification过程没有终止不代表没有反例,但是在给定的时间内未找到反例在一定程度上显示了CPS模型的正确性。

现有的以鲁棒性为导向的falsification方法采取随机全局优化的算法,比如模拟退火、交叉熵等,来达到最小化鲁棒性的目的。这些方法都把整条轨迹(行为序列)作为输入,因此在falsification过程中需要大量的模拟运行,进而无法保证在有限的时间内找到实际的CPS系统模型中的反例输入

基于强化学习的CPS模型性质falsification方法

本文应用DRL解决CPS模型违反鲁棒性性质的问题。强化学习方法可以观察环境反馈,然后及时调整输入行为。通过这种方式,该方法可以更快地收敛到最小的鲁棒性数值。本文采用了两种最先进的DRL技术:Asynchronous Advanced Actor Critic (A3C) 和 Double Deep-Q Network (DDQN)。

具体框架如图1所示:该框架的环境包括Matlab的模拟运行环境模块以及计算回报模块。采用经典的强化学习算法,代理(Agent)以系统的当前状态(state)和当前的回报值(reward)作为输入,然后输出下一个行为(action)作为模拟模块的输入。本框架的Agent采用了A3C和DDQN两种算法

1b96aac50aff578695663d7886ac05518118612a

图1:系统的整体框架

本文的主要贡献有:

(1)展示了怎样将找到违反CPS模型鲁棒性性质的行为序列的问题转化为深度强化学习(DRL)问题;

(2)实现提出的方法并进行初步评估,结果证明利用DRL技术可以减少寻找CPS模型致错输入需要的模拟运行次数,进而减少模拟运行的总时间。

(3)提出基于强化学习技术的CPS模型鲁棒性性质falsification问题的测试框架,为进一步探索该问题提供了保障。

本文提出的方法在原型系统中进行了实现,并采用广泛应用的CPS系统模型进行初步评估。实验结果表明,本文提出的方法可以减少发现伪造输入的次数。在自动传输控制系统上运行结果如图2 所示,基于强化学习的方法在成功率上一直优于其他baseline方法。在有限时间内,基于强化学习的方法更容易找到致错输入。

0d41d507a7681cb54745e4e8ae05caff52aab4d4

图2:在自动传输控制系统(AT)上运行结果

论文:Falsification of Cyber-Physical Systems Using Deep Reinforcement Learning

80db365fa35249ae2cb22dcaae626dc25bbbc4da




原文发布时间为:2018-04-20

本文作者:段义海

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:天津大学、东京大学等研究:用深度强化学习检测模型缺陷

相关文章
|
SpringCloudAlibaba 监控 Dubbo
SpringCloudAliBaba篇 之 Sentinel:图解分布式系统的流量防卫兵(上)
SpringCloudAliBaba篇 之 Sentinel:图解分布式系统的流量防卫兵
925 0
|
10月前
|
数据采集 人工智能 数据处理
覆盖16省方言的老人语音数据集!SeniorTalk:智源研究院开源全球首个超高龄老年人中文语音数据集
SeniorTalk是由智源研究院与南开大学联合推出的全球首个中文超高龄老年人对话语音数据集,包含202位75岁及以上老年人的55.53小时语音数据,涵盖16个省市的不同地域口音。
1300 5
覆盖16省方言的老人语音数据集!SeniorTalk:智源研究院开源全球首个超高龄老年人中文语音数据集
|
11月前
|
移动开发 前端开发 API
鸿蒙web加载本地网页资源异常
在鸿蒙NEXT Api 12中,为解决Web组件加载本地资源(如图片、CSS等)失败的问题,我们采用拦截机制。具体步骤如下: 1. **替换路径**:通过正则表达式将HTML和CSS中的资源路径替换为带有标记的URL(如`http://local`),以便后续识别。 2. **拦截与返回**:在资源加载时,拦截带有标记的URL,读取对应的本地文件并返回给Web组件。此过程确保了本地资源能正确加载和显示。 代码实现包括路径替换、资源拦截及响应构建,确保Web页面能够顺利加载本地资源。
624 7
|
机器学习/深度学习
深度学习笔记(十二):普通卷积、深度可分离卷积、空间可分离卷积代码
本文探讨了深度可分离卷积和空间可分离卷积,通过代码示例展示了它们在降低计算复杂性和提高效率方面的优势。
3311 2
深度学习笔记(十二):普通卷积、深度可分离卷积、空间可分离卷积代码
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PPO强化学习的buckboost升降压电路控制系统matlab仿真,对比PID控制器
本项目利用MATLAB 2022a对基于PPO强化学习的Buck-Boost电路控制系统进行仿真,完整代码无水印。通过与环境交互,智能体学习最优控制策略,实现输出电压稳定控制。训练过程包括初始化参数、收集经验数据、计算优势和奖励函数并更新参数。附带操作视频指导,方便用户理解和应用。
333 12
|
缓存 人工智能 数据可视化
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
|
人工智能 分布式计算 数据处理
Big Data for AI实践:面向AI大模型开发和应用的大规模数据处理套件
文叙述的 Big Data for AI 最佳实践,基于阿里云人工智能平台PAI、MaxCompute自研分布式计算框架MaxFrame、Data-Juicer等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。
|
机器学习/深度学习 人工智能 数据可视化
大数据时代的数据可视化技术:趋势、挑战与未来展望
【7月更文挑战第22天】随着技术的不断进步和应用场景的不断拓展,数据可视化技术将在更多领域发挥更大的作用。未来,我们可以期待更加智能化、实时化、沉浸式和民主化的数据可视化解决方案的出现。同时,随着数据量的不断增加和数据类型的不断丰富,数据可视化技术也将面临更多的挑战和机遇。只有不断创新和优化技术才能满足日益增长的需求并推动数据可视化技术的持续发展。
1988 3
|
移动开发 开发框架 .NET
TIOBE 6月榜单:Visual Basic排名下滑
【6月更文挑战第21天】### TIOBE 2023年6月编程语言指数:VB跌至第9 Visual Basic在编程语言排名中从第7位降至第9位,反映出市场竞争和技术趋势变化。VB,以其直观设计和易用性成名,面临C#、Web及移动开发语言崛起的挑战。排名下滑源于技术进步、教育偏好的转移及生态系统竞争。VB需适应新技术,如.NET Core,以维持生命力。教育市场和社区支持将是VB未来发展的关键,通过整合现代技术、项目导向学习和在线资源,VB可能在特定领域找到新机遇。
423 6
|
机器学习/深度学习 数据可视化 TensorFlow
基于tensorflow深度学习的猫狗分类识别
基于tensorflow深度学习的猫狗分类识别
813 1

热门文章

最新文章