史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步

简介: 史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步
过去三年,DeepMind 和瑞士洛桑联邦理工学院 EPFL 一直在进行一个神秘的项目:用强化学习控制核聚变反应堆内过热的等离子体,如今它已宣告成功。

DeepMind研究科学家David Pfau在论文发表后感叹道:「为了分享这个时刻我已经等了很久,这是第一次在核聚变研究设备上进行深度强化学习的演示!

可控核聚变、强人工智能、脑机接口是人类科技发展的几个重要方向,有关它们何时可以实现,科学家们的说法永远是「还需几十年」——面临的挑战太多,手头的方法却很有限。

那么用人工智能去控制核聚变,是不是一个有前途的方向?这个问题可能需要由提出 AlphaGo 的 DeepMind 来回答了。

最近,EPFL 和 DeepMind 使用深度强化学习控制托卡马克装置等离子体的研究登上了《自然》杂志。


论文地址:https://www.nature.com/articles/s41586-021-04301-9

首先,我们来思考一个问题:为什么要用人工智能控制核聚变?

托卡马克是一种用于容纳核聚变反应的环形容器,其内部呈现出一种特殊的混乱状态。氢原子在极高的温度下被挤压在一起,产生比太阳表面还热的、旋转的、翻滚的等离子体。找到控制和限制等离子体的方法将是释放核聚变潜力的关键,而后者被认为是未来几十年清洁能源的源泉。

在这一点上,科学原理似乎是说得通的,剩下的就是工程挑战。参与该研究的瑞士等离子体中心(SPC)主任 Ambrogio Fasoli 表示:「我们需要能够加热这个装置,并保持足够长的时间,以便我们从中吸取能量。」


在同样由聚变驱动的恒星中,仅依靠引力质量就足以将氢原子拉到一起并克服它们的相反电荷。在地球上,科学家们改为使用强大的磁线圈来限制核聚变反应,将其推到所需的位置。这些线圈必须仔细控制,以防止等离子体接触容器本身:这会损坏容器壁并减慢聚变反应。

但每次研究人员想要改变等离子体的配置并尝试不同的形状,以产生更多的能量或更纯净的等离子体时,都需要大量的工程和设计工作。传统的系统是由计算机控制的,基于模型和模拟,但 Fasoli 表示传统方法「复杂且不一定能起到优化的作用」。

DeepMind 控制团队负责人 Martin Riedmiller 表示:「人工智能,特别是强化学习,特别适合解决托卡马克中控制等离子体的复杂问题。」DeepMind 在论文中详细介绍了所提的可以自主控制等离子体的 AI。


技术概览

DeepMind 提出的模型架构如下图所示,该方法具有三个阶段:

  • 第一阶段:设计者为实验指定目标,可能伴随着随时间变化的控制目标;
  • 第二阶段:深度 RL 算法与托卡马克模拟器交互,以找到接近最优的控制策略来满足指定目标;
  • 第三阶段:以神经网络表示的控制策略直接在托卡马克硬件上实时运行(零样本)。


图 1:控制器设计架构(controller design architecture)的各组件示意图。

在第一阶段,实验目标由一组目标指定,这些目标包含不同的期望特性。特性范围包括位置和等离子体电流的基本稳定,以及多个时变目标的复杂组合。然后,这些目标被组合成一个奖励函数,在每个时间步骤中为状态分配一个标量质量度量。该奖励函数还惩罚控制策略,让其不会达到终端状态。至关重要的是,精心设计的奖励函数将被最低限度地指定,从而为学习算法提供最大的灵活性以达到预期的结果。

在第二阶段,高性能 RL 算法通过与环境交互来收集数据并找到控制策略,如图 1a、b 所示。该研究使用的模拟器具有足够的物理保真度来描述等离子体形状和电流的演变,同时保持足够低的计算成本来学习。具体来说,该研究基于自由边界等离子体演化(free-boundary plasma-evolution )模型,对等离子体状态在极向场线圈电压的影响下的演化进行建模。

RL 算法使用收集到的模拟器数据来找到关于指定奖励函数的最优策略。由于演化等离子体状态的计算要求,模拟器的数据速率明显低于典型 RL 环境的数据速率。该研究通过最大后验策略优化 (MPO) 来克服数据不足问题。MPO 支持跨分布式并行流的数据收集,并以高效的方式进行学习。

在第三阶段,控制策略与相关的实验控制目标绑定到一个可执行文件中,使用量身定制的编译器(10 kHz 实时控制),最大限度地减少依赖性并消除不必要的计算。这个可执行文件是由托卡马克配置变量(TCV)控制框架加载的(图 1d)。每个实验都从标准的等离子体形成程序(plasma-formation procedures)开始,其中传统控制器维持等离子体的位置和总电流。在预定时间里,称为「handover」,控制切换到控制策略,然后启动 19 个 TCV 控制线圈,将等离子体形状和电流转换为所需的目标。训练完成后将不会进一步调整网络权值,换句话说,从模拟到硬件实现了零样本迁移。

基本功能演示

该研究在 TCV 实验中展示了所提架构在控制目标上的能力。首先他们展示了对等离子体平衡基本质量的精确控制。控制策略性能如图 2 所示。所有任务都成功执行,跟踪精度低于期望的阈值。结果表明 RL 体系架构能够在放电实验的所有相关阶段进行精确的等离子体控制。

图 2:等离子体电流、垂直稳定性、位置与形状控制的演示。
控制演示

接下来,该研究展示了所提架构为科学研究生成复杂配置的能力。结果如图 3 所示:

图 3 控制演示。

全新多域等离子体演示

最后展示了架构在探索全新等离子配置方面的强大功能。DeepMind 测试了「液滴」(droplets)的控制,这是一种在容器内部同时存在两个独立等离子体的配置。通过提出的方法,DeepMind 简单地调整了模拟切换状态,以考虑来自单轴等离子体的不同切换条件,并定义一个奖励函数以保持每个液滴组件的位置稳定,同时增加域等离子体电流。

图 4:整个 200 毫米控制窗口内对 TCV 上两个独立液滴的持续控制演示。

未来展望

总而言之,随着聚变反应堆变得越来越大,与 DeepMind 展开合作或许是最关键的。尽管物理学家已经很好地掌握了如何通过传统方法控制小型托卡马克中的等离子体,但随着科学家们尝试令核电站规模的版本可行,挑战只会更多。该领域正取得缓慢但稳定的进展。

上周,位于英国牛津郡的欧洲联合环状反应堆(JET)项目取得了突破,创造了从聚变实验中提取能量的新纪录,在 5 秒时间内产生了 59 兆焦耳的能量。与此同时,位于法国的国际热核聚变实验反应堆(ITER)国际合作项目正在建设当中,预计将于 2025 年启动并成为世界上最大的实验性聚变反应堆。

圣地亚哥能源研究中心的副研究科学家 Dmitri Orlov 表示,「托卡马克装置越复杂,性能越高,就越需要通过越来越高的可靠性和准确性来控制更多数量。」AI 控制的托卡马克装置可以通过优化,以控制热量从反应中转移到容器壁上,并防止破坏性的「等离子体不稳定性」。反应堆本身可以重新设计,以利用强化学习所提供的更严格控制。

最终,Ambrogio Fasoli 认为,与 DeepMind 的合作可以让研究人员突破界限,加速通往聚变能量的漫长旅程。人工智能将赋能我们探索人类无法探索的东西,因为我们可以使用自己不敢冒险的控制系统来达到目标。「如果我们确定自己有一个控制系统,让我们接近极限但不会超出极限,则实际上可以用来探索那些不存在的可能性。」

参考链接:https://www.wired.com/story/deepmind-ai-nuclear-fusion/

相关文章
|
1月前
|
机器学习/深度学习 算法 机器人
多代理强化学习综述:原理、算法与挑战
多代理强化学习是强化学习的一个子领域,专注于研究在共享环境中共存的多个学习代理的行为。每个代理都受其个体奖励驱动,采取行动以推进自身利益;在某些环境中,这些利益可能与其他代理的利益相冲突,从而产生复杂的群体动态。
172 5
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
62 2
|
3月前
|
机器学习/深度学习 算法 TensorFlow
深入探索强化学习与深度学习的融合:使用TensorFlow框架实现深度Q网络算法及高效调试技巧
【8月更文挑战第31天】强化学习是机器学习的重要分支,尤其在深度学习的推动下,能够解决更为复杂的问题。深度Q网络(DQN)结合了深度学习与强化学习的优势,通过神经网络逼近动作价值函数,在多种任务中表现出色。本文探讨了使用TensorFlow实现DQN算法的方法及其调试技巧。DQN通过神经网络学习不同状态下采取动作的预期回报Q(s,a),处理高维状态空间。
54 1
|
3月前
|
机器学习/深度学习 存储 算法
强化学习实战:基于 PyTorch 的环境搭建与算法实现
【8月更文第29天】强化学习是机器学习的一个重要分支,它让智能体通过与环境交互来学习策略,以最大化长期奖励。本文将介绍如何使用PyTorch实现两种经典的强化学习算法——Deep Q-Network (DQN) 和 Actor-Critic Algorithm with Asynchronous Advantage (A3C)。我们将从环境搭建开始,逐步实现算法的核心部分,并给出完整的代码示例。
248 1
|
3月前
|
测试技术 数据库
探索JSF单元测试秘籍!如何让您的应用更稳固、更高效?揭秘成功背后的测试之道!
【8月更文挑战第31天】在 JavaServer Faces(JSF)应用开发中,确保代码质量和可维护性至关重要。本文详细介绍了如何通过单元测试实现这一目标。首先,阐述了单元测试的重要性及其对应用稳定性的影响;其次,提出了提高 JSF 应用可测试性的设计建议,如避免直接访问外部资源和使用依赖注入;最后,通过一个具体的 `UserBean` 示例,展示了如何利用 JUnit 和 Mockito 框架编写有效的单元测试。通过这些方法,不仅能够确保代码质量,还能提高开发效率和降低维护成本。
52 0
|
4月前
|
数据采集 编解码 人工智能
破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍
【7月更文挑战第19天】DeepMind的JEST算法革新AI训练,提升效率13倍,节能10倍。通过联合数据批次选择,预训练指导及多分辨率训练,优化资源利用,降低能耗。实验显示性能提升,达到SOTA水平,但实施需大量资源,依赖优质参考模型。[论文链接](https://arxiv.org/pdf/2406.17711)
67 10
|
4月前
|
人工智能 边缘计算 算法
破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍
【7月更文挑战第20天】DeepMind unveils Switch Transformer, revolutionizing AI energy consumption. This novel algorithm boosts training efficiency by 13x and slashes energy use by 10x compared to ChatGPT, marking a significant leap towards eco-friendly AI.
49 2
|
4月前
|
机器学习/深度学习 存储 数据采集
强化学习系列:A3C算法解析
【7月更文挑战第13天】A3C算法作为一种高效且广泛应用的强化学习算法,通过结合Actor-Critic结构和异步训练的思想,实现了在复杂环境下的高效学习和优化策略的能力。其并行化的训练方式和优势函数的引入,使得A3C算法在解决大规模连续动作空间和高维状态空间的问题上表现优异。未来,随着技术的不断发展,A3C算法有望在更多领域发挥重要作用,推动强化学习技术的进一步发展。
|
25天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
10天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。