用消息传递求解偏微分方程,ML大牛Max Welling等用全神经求解器做到了更强、更快

简介: 用消息传递求解偏微分方程,ML大牛Max Welling等用全神经求解器做到了更强、更快
对于 求解偏微分方程来说,阿姆斯特丹大学、高通 AI 研究院的研究者最近推出的 MP-PDE 求解器又提供了一个选择。


在科学领域,常年的工作已经面向各种物理现象生成了极其详细的数学模型。很多这些模型通过微分方程(Olver, 2014)的形式进行自然地表达,大多数时候表现为时间偏微分方程(partial differential equation, PDE)。求解这些微分方程对于解决天气预报、天文数字模拟、分子建模、喷气式发动机设计等所有数学学科中的问题至关重要。大多数重要方程的求解难以分析,因此不得不反溯至数值近似方法。想要以最小的计算开销获得有界误差的精确解需要手动求解器(handcrafted solver),通常根据手头的方程量身定制。

设计一个「好的」PDE 求解器绝非易事。完美的求解器应该满足大量的条件。首先是用户需求,比如速度快、使用最少的计算开销、提供不确定性估计、跨 PDF 泛化以及易于使用;然后是问题的结构需求,比如空间分辨率和时间尺度、域采样正则性、域拓扑和几何、边界条件、维数和解空间平滑度;接着是实现需求,比如在长时间 rollout 时保持稳定性和不变形。正是由于上述大量的多样化需求,数值法( numerical method)是一个 splitter 领域,而不是一个 lumper 领域,旨在为每个子问题构建手动手动求解器。

近日,阿姆斯特丹大学、高通 AI 研究院的三位研究者在论文《Message Passing Neural PDE Solvers》中提出使用端到端神经求解器来从数值上求解 PDE。


论文地址:https://arxiv.org/pdf/2202.03376.pdf

具体而言,这篇论文主要做出了以下贡献:

  • 提出一个基于神经消息传递(message passing, MP)的端到端全神经 PDE 求解器,其灵活性能够满足典型 PDE 问题的所有结构需求。这一设计的灵感来源于一些经典求解器(有限差分、有限体积和 WENO 格式)可以作为消息传递的特例;
  • 提出时间捆绑(temporal bundling)和前推(pushforward)技巧,以在训练自回归模型中鼓励零稳定性(zerostability);
  • 在给定类中实现跨多个 PDE 的泛化。在测试期间,新的 PDE 稀疏可以成为求解器的输入。


方法

研究者基于最近该领域令人兴奋的工作进展来学习 PDE 求解器。这些神经 PDE 求解器的背后离不开这一快速发展且有影响力的研究领域。用于时间 PDE 的神经 PDE 求解器可以分为两大类,分别为自回归方法和神经算子方法,具体如下图 1a 所示。


研究者通过两部分详细描述了他们的方法,即训练框架和架构。其中训练框架解决自回归求解器中的分布位移问题,该问题会导致不稳定性;网络架构是一个消息传递神经网络。

训练框架

自回归求解器将解 u^k 映射到因果后续(causally consequent)解 u^k+1。一种直接的训练方法是单步训练。如果 p_0(u^0 ) 在训练集中是初始条件的分布,则


是迭代为 k 时的真值分布。研究者最小化如下公式(6)


下图 2 为不同的训练策略。图左为单步训练,只能预测接下来一步的解;图中为展开(unrolled)训练,可以预测接下来 N 步的解;图右为对抗性训练,可以预测接下来 N 步的解,但只能在最后一步反向传播。


架构

在网络架构选择上,研究者遵循 Battaglia et al. (2018) 和 Sanchez-Gonzalez et al. (2020) 提出的编码器 - 处理器 - 解码器(Encode-Processor-Decode)框架,并做了调整。他们并不是首个将 GNN 用作 PDE 求解器的,但自己的方法具有一些显著特征。下图 3 为本文 MP-PDE 求解器的概览:


具体而言,编码器用来计算节点嵌入。

处理器计算学得消息传递的第 M 步,中间图表示为具体更新如下公式(8)和(9)


最后来说解码器。在消息传递后,研究者使用了一个浅层 1D 卷积网络,并在空间位置上共享权重,以在网格点 x_i 处输出 K 接下来的时间步预测。对于每个节点 i,处理器输出向量 f^M_i。他们将该向量视为时间连续的信号,并随时间推移将它馈入到 CNN。

实验

研究者在不同难度的任务上展示了 MP-PDE 求解器的有效性。其中,在 1D 方程中,研究者探究了 MP-PDE 泛化到给定族中未见过方程的能力,周期性、狄利克雷(Dirichlet)边界条件和诺伊曼(Neumann)边界条件下的边界处理能力,以及建模冲击波(shock wave)的能力。然后,他们又展示了 MP-PDE 有能力求解 2D 方程。

此外,研究者还针对前推技巧和变体进行了消融实验,以验证实用性。作为基线,他们比较了几种不同的标准经典 PDE 求解器,即 FDM、伪谱方法和 WENO5 求解器。不仅如此,研究者还与 SOTA 神经算子方法——傅里叶神经算子(Fourier Neural Operator, FNO)进行了比较。

在实验中,研究者考虑了三种场景,分别如下:

  • E1 伯格斯(Burgers)方程,没有用于冲击建模的扩散θ_PDE = (1, 0, 0);
  • E2 伯格斯方程,有可用扩散θ_PDE = (1, η, 0),其中 0 ≤ η ≤ 0.2;
  • E3:θ_PDE = (α, β, γ) 的混合场景,其中 0.0 ≤ α ≤ 3.0、0.0 ≤ β ≤ 0.4 和 0.0 ≤ γ ≤ 1.0。


具体而言,他们观察 E1 方程上的求解器生存时间,定义为「解偏离真值之前的时间」。该求解器展开到 n_t = 1000 时间步,其中 T = 16 s。下图 4 底部展示了一个示例,研究者观察到大约 8 秒后发散增加。该现象在下图 5a 中得到了验证,他们发现了生存率与时间步的关系。


在第二个实验中,研究者比较了前推技巧的效用。他们观察到,前推技巧加上时间捆绑可以提升自回归任务中的 FNO 效果。在下图 5b,研究者绘制了使用和未使用前推技巧训练的模型的生存率。


下表 2 比较了 MP-PDE 求解器与 SOTA 数值伪谱求解器。结果可知,MP-PDE 求解器在伪谱求解器中断工作的低分辨率条件下获得了准确的结果。有趣的是,MP-PDE 求解器可以在不同的边界条件上泛化,并且如果边界条件通过θ_PDE 特征注入到方程中,泛化更加明显。


最后,研究者测试了 MP-PDE 到更多空间维度上的可扩展性,尤其是在 2D 实验中。他们使用来自开源流模拟工具包 PHIFLOW1 中的数据。具体而言,研究者观察了基于纳维 - 斯托克斯方程(Navier-Stokes equation),并将烟雾流模拟成 32 × 32 网格,在每个时间步后添加更多烟雾。结果显示,MP-PDE 求解器能够准确地捕获给定时间阶段内的烟雾流入,表明它可以扩展到更高维度。

相关文章
|
5月前
|
机器学习/深度学习 传感器 自动驾驶
具身智能核心突破:物理模拟器与世界模型协同技术拆解
本文系统综述了物理模拟器与世界模型在具身智能发展中的协同作用,提出五级智能机器人分类体系(IR-L0至IR-L4),分析其在运动、操作与交互中的进展,并对比主流仿真平台与世界模型架构,探讨其在自动驾驶与关节机器人中的应用及未来挑战。
1312 113
|
人工智能
AI代码生成器——Codeium
【2月更文挑战第21天】AI代码生成器——Codeium
1942 1
AI代码生成器——Codeium
|
人工智能 监控 安全
智慧工地综合管理云平台SaaS源码:安全、高效、绿色、智能的建筑施工新生态
智慧工地平台通过整合物联网、人工智能、大数据等技术,实现了对工地人员、设备、环境、材料等方面的全面监测和管理。
729 5
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek逆天,核心是 知识蒸馏(Knowledge Distillation, KD),一项 AI 领域的关键技术
尼恩架构团队推出《LLM大模型学习圣经》系列,涵盖从Python开发环境搭建到精通Transformer、LangChain、RAG架构等核心技术,帮助读者掌握大模型应用开发。该系列由资深架构师尼恩指导,曾助力多位学员获得一线互联网企业的高薪offer,如网易的年薪80W大模型架构师职位。配套视频将于2025年5月前发布,助你成为多栖超级架构师。此外,尼恩还提供了NIO、Docker、K8S等多个技术领域的学习圣经PDF,欢迎领取完整版资源。
|
算法
重磅!2025年中科院预警期刊名单正式发布!
中国科学院文献情报中心定期发布《国际期刊预警名单》,旨在防范学术不端和不当出版行为。2025年最新名单聚焦两大问题:一是引用操纵、论文工厂等破坏科研生态的行为;二是中国作者占比过高或APC费用不合理,影响学术成果国际化传播。自2022年起,预警名单调整至年初发布,便于科研人员规划投稿。名单结合定量数据与专家评估,动态反映期刊风险。被列预警期刊可能影响职称评审及科研经费认可,建议优先选择中科院分区表推荐期刊,警惕快速代发陷阱,并关注期刊官网声明。未来,强化学术自律和技术工具应用将助力科研规范化,推动中国学术走向全球。
1445 0
|
缓存 Ubuntu Linux
如何安装Docker
如何安装Docker
1060 0
|
存储 算法 Java
面试必备!一文搞懂HashMap如何优雅处理哈希冲突
大家好,我是小米,一个积极的程序员。今天聊聊Java面试中的常见问题——“HashMap是怎么解决哈希冲突的?”。通过一个小故事,我们了解到HashMap使用链地址法(JDK 1.8前)和红黑树(JDK 1.8后)来处理哈希冲突。链地址法用链表存储冲突的元素,而红黑树在链表长度超过8时启用,提升查找效率。希望这个讲解能帮助你更好地理解HashMap的工作原理。欢迎留言讨论,关注我的公众号“软件求生”,获取更多技术干货!
629 3
|
供应链 搜索推荐 数据挖掘
有哪些备受好评的流程管理工具?为复杂工作流程“做减法”
流程管理是企业运营的关键环节,通过系统化、标准化和持续优化,提升效率、降低成本、提高服务质量,增强市场竞争力。本文介绍了六款流程管理工具:板栗看板、Kissflow、Nintex、Appian、Tibco BPM 和 Pega,它们各自具备直观易用、强大功能、高定制性和良好集成能力等特点,帮助企业实现高效流程管理。
|
网络协议 算法 数据库
OSPF中的Router LSA详解
OSPF中的Router LSA详解
780 4
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。