机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量

简介: 机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量

计算化学中的传统机器学习(ML)模型学习使用仅用于参考数据的量子化学直接预测分子性质。虽然这些启发式 ML 方法显示出量子级精度,速度比传统量子化学方法快几个数量级,但它们的可扩展性和可转移性很差;即,它们的准确性在大型或新化学系统上会降低。将量子化学框架整合到 ML 模型中直接解决了这个问题。

在这里,美国洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory,LANL)的研究人员采用半经验量子力学(SEQM)方法的结构来构建动态响应的哈密顿量。SEQM 方法使用符合实验性质的经验参数来构造降阶哈密顿量,这比从头算方法促进了更快的计算,但精度有所降低。通过用从本地环境推断的机器学习动态值替换这些静态参数,大大提高了 SEQM 方法的准确性。

这些动态生成的哈密顿参数经过分子能量和原子力的训练,显示出与原子杂化和键合的强相关性。仅使用大约 60,000 个小有机分子构象异构体进行训练,生成的模型在测试更大的化学系统和预测各种分子特性时保留了可解释性、可扩展性和可转移性。总体而言,这项工作展示了将基于物理的描述与 ML 相结合以开发同时准确、可转移和可解释的模型的优点。

该研究以「Deep learning of dynamically responsive chemical Hamiltonians with semiempirical quantum mechanics」为题,于 2022 年 7 月 1 日发布在《PNAS》。

模拟电子和原子核之间的相互作用是化学和材料系统研究的核心。传统的量子力学(QM)近似包括密度泛函理论(DFT)、耦合簇(CC)和配置相互作用(CI)方法。这些技术通常可以提供对物理特性的高度准确的预测。然而,相对于经典力场或半经验 QM 等替代方法,从头算 QM 方法的计算成本很高,这限制了这些方法在非常大的系统和材料的高通量筛选中的应用。幸运的是,近年来,机器学习(ML)方法已显示出以 QM 级精度进行预测的前景,但计算成本大大降低。

ML 现在经常用于直接预测材料和化学性质。一种常见的策略是提取表征局部原子几何形状的描述符,并将它们输入到回归模型中,例如多层神经网络(NN)。这种类型的 NN 架构包括分层交互粒子神经网络(HIPNN)、MoleculeNet、TensorMol、DPMD、SchNet、ANI-1 和 PhysNet 等等。虽然这些方法主要用于构建势能表面和原子力,但它们也被用于预测各种性质,如原子电荷、偶极子、自旋分布、带隙等。这些进步已经使大规模分子动力学(MD)模拟具有前所未有的准确性。

尽管取得了这些成功,但经过训练以直接预测材料特性的 ML 模型缺乏描述训练集不易获得的特性的能力。训练数据集通常采用数百万原子配置的形式来覆盖感兴趣的化学和构象空间,并具有预先计算的所需属性,在计算上生成起来非常昂贵。

这与 QM 方法形成对比,后者在一次计算中提供了最理想的属性,例如能量、轨道和电荷密度信息。此外,大多数现有的 ML 方法难以预测系统的密集特性(即与系统大小无关的特性),这通常可能包括电子离域效应、激发态跃迁能等。因此,它们通常仅限于特定类型的系统。

典型的 ML 模型采用近视原理,强制将某些属性(例如能量)表示为局部贡献的总和(加上已知形式的长程相互作用,例如库仑)。然而,在许多情况下,人们想要预测与远程和多体效应相关且不具有简单函数形式的属性。例如,尽管努力预测一些激发态量,例如非绝热耦合,但激发态特性的 ML 预测中的真正可转移性仍然有限。

虽然一些工作表明单线态-三线态间隙可以以一般方式预测,但将这些方法更广泛地应用于分子轨道衍生特性或扩展到更大的系统(如脂质或蛋白质)是一个巨大的挑战。大多数现有 ML 模型的最后一个挑战是可解释性和不确定性量化。很难理解为什么会做出某些预测,因此很难相信它们。

将更多物理知识纳入 ML 模型可能有助于提高可迁移性。之前,Yaron 团队开创的一种方法使用 NN 和基于样条的 ML 模型来预测自洽电荷密度泛函紧束缚(SCC-DFTB)哈密顿量的矩阵元素。这种自动参数化技术后来在扩展的 Hückel 方法中进行了调整,并显示出很好的可解释性。另一种策略利用 Δ-learning,即 ML 模型对低成本的量子化学模型进行修正,并将它们修改为类似于使用 NN 进行的更昂贵的计算。具体来说,OrbNet 使用来自半经验计算的对称适应原子轨道特征来实现高学习效率和大大降低计算成本。

图示:模型结构方案。(来源:论文)

在这里,LANL 的研究人员通过使用 ML 模型动态参数化有效的哈密顿量,对 ML 和 QM 之间的接口提出了不同的看法。已建立的半经验量子力学(SEQM)方法利用了量子化学领域的知识,而 HIPNN 促进了模型的动态更改以提高其准确性。HIPNN 充当编码器,学习从每个原子的局部环境预测 SEQM 哈密顿参数。

这种基于哈密顿量的方法(表示为 HIPNN+SEQM),具有这些调整参数,然后求解在降维空间中相互作用电子的 Hartree-Fock 方程。因此,该方法保留了半经验 QM 的结构,用于通过自洽场(SCF)过程和显式库仑相互作用项来考虑非局部效应。

研究人员通过 SCF 程序启用了反向传播,使具有分子能量、力、轨道能量和其他属性的多任务训练成为可能。通过结合已知的物理学,可以使用少量的训练数据实现强大的可迁移性和可扩展性。另一个优点是该方法可以通过重用现有的 SEQM 参数化自然地扩展到新的原子类型。最后一个优势是可解释性:NN 修改了诸如「轨道能量」或「轨道径向指数项」之类的参数,这些参数已经确立了物理意义。

此外,研究人员证明这些参数的改变与量子化学中原子轨道杂化和键合的传统概念密切相关,这验证了模型的可解释性并深入了解不同化学环境中原子的电子结构。

图示:基于哈密顿量的 HIPNN+SEQM 模型的 SEQM 预测参数 Upp(p 轨道上的能量)的直方图。(来源:论文)

具体来说,该团队通过将半经验方法的量子领域知识实施到 NN 框架中来展示性能改进。将传统神经网络(HIPNN)与半经验哈密顿量(SEQM)模块相结合,以生成保留基本量子力学概念的混合半经验模型(HIPNN+SEQM)。与之前试图设计经验函数公式来描述 SEQM 方法中的相互作用的工作非常相似,HIPNN+SEQM 允许构成半经验哈密顿量的参数随特定原子的化学环境而变化。

NNs 是有效的一般函数形式,似乎是寻找这些隐含的经验函数的理想选择。加入 NN 以动态改变 SEQM 参数立即将该方法在预测分子能量和力方面的准确性提高了约 60%,而计算成本的增加可以忽略不计。它还纠正了 SEQM 方法在预测键长和振动频率方面的偏差误差。

同时,当应用于比原始训练集中包含的系统大得多的系统时,这种基于哈密顿量的 HIPNN+SEQM 模型与 HIPNN 等纯 NN 架构相比,表现出更好的可扩展性。虽然传统的基于 NN 的模型由于适应局部特征以进行近视假设而在远程交互情况下表现出非物理性能,但 HIPNN+SEQM 对于大型系统仍然保持准确。此外,提高的准确性将模型的使用扩展到对高度非平衡配置进行采样的高温区域。

图示:四个模型的 COMP6 子集三肽上的预测与 DFT 参考原子力。(来源:论文)

此外,与环境相关的哈密顿参数也极大地缓解了源自正交压缩基组的半经验方法的可迁移性问题。虽然在传统的 SEQM 中使用恒定的哈密顿参数来描述具有非常不同结构的系统是有问题的,但 NN 推断的哈密顿参数可以适应局部结构的变化,相应地调整它们的值,以提高可迁移性。除了出色的可迁移性外,受物理启发的 HIPNN+SEQM 方法的另一个重要优势是数据要求更小。

此处显示的可迁移性和可扩展性结果仅通过 61,842 个训练数据点实现。这比用于训练 HIPNN 参考模型的数据少 10 倍,比完整的 ANI-1x 数据集少近两个数量级。这支持不同的 ML 模型范式,这些范式结合了物理学来准确模拟不同类别的分子系统。这些 ML 模型还将大大减少对训练数据的要求,从而限制运行昂贵的从头计算所花费的时间。因为 HIPNN+SEQM 模型依赖于成熟的量子化学,它也为解释 ML 预测提供了更多机会。为了强调 HIPNN+SEQM 确实捕获了正确的基础物理,研究人员表示它在预测分子 HOMO-LUMO 间隙方面的性能仅比原始 PM3 稍差,这是训练过程中未使用的属性。

图示:PM3、PM3* 和 HIPNN+SEQM 模型与 DFT 参考值的预测带隙。(来源:论文)

尽管 HIPNN+SEQM 代表了对原始 PM3 的改进,但 SEQM 模型仍然存在一些问题。对于涉及扭转旋转和氢键的情况,它仍然表现不佳,继承了 SEQM 方法的一些已知缺点。研究人员通过包括 D3H4 修正来解决这个问题;然而,氢键和质子亲和力的改善很小,扭转旋转没有改善。

图示:各类能量分布。(来源:论文)

长程非共价键得到加强,这为氢键提供了更好的能垒。这可以归因于训练数据集,该数据集主要由小分子组成,过分强调短程相互作用,而将用于长程相互作用的 HIPNN+SEQM 参数固定。HIPNN+SEQM 在预测键、角度和振动频率等局部特性方面的成功证明了这一点,同时产生了具有相似 RMSD 的优化结构。

为了解决这个问题,可以使用主动学习方法或使用其他复杂的半经验方法来扩充训练数据集,如 OMx(具有正交化的半经验模型)和 GFN2-xTB(提供多极静电和密度相关色散贡献的半经验量子方法)可以以类似的方式与 NN 连接。

ML 优化的 SEQM 模型的一个非常有前景的应用是研究激发态动力学。电子激发分子的表面跳跃和 Ehrenfest 动力学需要数千次激发态计算,迫使他们只使用廉价的 QM 方法。使用 HIPNN+SEQM 或半经验与机器学习的类似混合来提高从 SEQM 哈密顿量计算得到的激发态的准确性是合理的。在这里,该团队已经证明,与原始 SEQM 模型相比,HIPNN+SEQM 模型的 HOMO-LUMO 间隙几乎保持不变,这表明波函数和哈密顿量适用于激发态计算。通过将模型显式训练为激发态量,可以获得进一步的改进。这些方法的另一个有希望的应用是化学反应的研究,其中电子结构信息,例如自由基或电荷状态,可以显着改变分子的反应性。

论文链接:https://www.pnas.org/doi/full/10.1073/pnas.2120333119

相关报道:https://phys.org/news/2022-09-breakthrough-machine-learning-enhanced-quantum-chemistry.html

相关文章
|
1月前
|
机器学习/深度学习 数据采集 数据处理
Scikit-learn Pipeline完全指南:高效构建机器学习工作流
Scikit-learn管道是构建高效、鲁棒、可复用的机器学习工作流程的利器。通过掌握管道的使用,我们可以轻松地完成从数据预处理到模型训练、评估和部署的全流程,极大地提高工作效率。
40 2
Scikit-learn Pipeline完全指南:高效构建机器学习工作流
|
22天前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
41 12
|
1月前
|
机器学习/深度学习 数据采集 算法
从零到一:构建高效机器学习模型的旅程####
在探索技术深度与广度的征途中,我深刻体会到技术创新既在于理论的飞跃,更在于实践的积累。本文将通过一个具体案例,分享我在构建高效机器学习模型过程中的实战经验,包括数据预处理、特征工程、模型选择与优化等关键环节,旨在为读者提供一个从零开始构建并优化机器学习模型的实用指南。 ####
|
1月前
|
机器学习/深度学习 数据采集
机器学习入门——使用Scikit-Learn构建分类器
机器学习入门——使用Scikit-Learn构建分类器
|
1月前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
87 1
|
2月前
|
机器学习/深度学习 算法 数据挖掘
机器学习入门(二):如何构建机器学习模型,机器学习的三要素,欠拟合,过拟合
机器学习入门(二):如何构建机器学习模型,机器学习的三要素,欠拟合,过拟合
|
2月前
|
机器学习/深度学习 算法 数据可视化
【机器学习】决策树------迅速了解其基本思想,Sklearn的决策树API及构建决策树的步骤!!!
【机器学习】决策树------迅速了解其基本思想,Sklearn的决策树API及构建决策树的步骤!!!
|
4月前
|
机器学习/深度学习 PHP 开发者
探索PHP中的面向对象编程构建你的首个机器学习模型:以Python和scikit-learn为例
【8月更文挑战第30天】在PHP的世界中,面向对象编程(OOP)是一块基石,它让代码更加模块化、易于管理和维护。本文将深入探讨PHP中面向对象的魔法,从类和对象的定义开始,到继承、多态性、封装等核心概念,再到实战中如何应用这些理念来构建更健壮的应用。我们将通过示例代码,一起见证PHP中OOP的魔力,并理解其背后的设计哲学。
|
4月前
|
机器学习/深度学习 人工智能 Android开发
揭秘AI编程:从零开始构建你的第一个机器学习模型移动应用开发之旅:从新手到专家
【8月更文挑战第29天】本文将带你走进人工智能的奇妙世界,一起探索如何从零开始构建一个机器学习模型。我们将一步步解析整个过程,包括数据收集、预处理、模型选择、训练和测试等步骤,让你对AI编程有一个全面而深入的理解。无论你是AI初学者,还是有一定基础的开发者,都能在这篇文章中找到你需要的信息和启示。让我们一起开启这段激动人心的AI编程之旅吧! 【8月更文挑战第29天】在这篇文章中,我们将探索移动应用开发的奇妙世界。无论你是刚刚踏入这个领域的新手,还是已经有一定经验的开发者,这篇文章都将为你提供有价值的信息和指导。我们将从基础开始,逐步深入到更复杂的主题,包括移动操作系统的选择、开发工具的使用、
|
4月前
|
机器学习/深度学习 人工智能 算法
【悬念揭秘】ML.NET:那片未被探索的机器学习宝藏,如何让普通开发者一夜变身AI高手?——从零开始,揭秘构建智能应用的神秘旅程!
【8月更文挑战第28天】ML.NET 是微软推出的一款开源机器学习框架,专为希望在本地应用中嵌入智能功能的 .NET 开发者设计。无需深厚的数据科学背景,即可实现预测分析、推荐系统和图像识别等功能。它支持多种数据源,提供丰富的预处理工具和多样化的机器学习算法,简化了数据处理和模型训练流程。
74 1