计算化学中的传统机器学习(ML)模型学习使用仅用于参考数据的量子化学直接预测分子性质。虽然这些启发式 ML 方法显示出量子级精度,速度比传统量子化学方法快几个数量级,但它们的可扩展性和可转移性很差;即,它们的准确性在大型或新化学系统上会降低。将量子化学框架整合到 ML 模型中直接解决了这个问题。
在这里,美国洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory,LANL)的研究人员采用半经验量子力学(SEQM)方法的结构来构建动态响应的哈密顿量。SEQM 方法使用符合实验性质的经验参数来构造降阶哈密顿量,这比从头算方法促进了更快的计算,但精度有所降低。通过用从本地环境推断的机器学习动态值替换这些静态参数,大大提高了 SEQM 方法的准确性。
这些动态生成的哈密顿参数经过分子能量和原子力的训练,显示出与原子杂化和键合的强相关性。仅使用大约 60,000 个小有机分子构象异构体进行训练,生成的模型在测试更大的化学系统和预测各种分子特性时保留了可解释性、可扩展性和可转移性。总体而言,这项工作展示了将基于物理的描述与 ML 相结合以开发同时准确、可转移和可解释的模型的优点。
该研究以「Deep learning of dynamically responsive chemical Hamiltonians with semiempirical quantum mechanics」为题,于 2022 年 7 月 1 日发布在《PNAS》。
模拟电子和原子核之间的相互作用是化学和材料系统研究的核心。传统的量子力学(QM)近似包括密度泛函理论(DFT)、耦合簇(CC)和配置相互作用(CI)方法。这些技术通常可以提供对物理特性的高度准确的预测。然而,相对于经典力场或半经验 QM 等替代方法,从头算 QM 方法的计算成本很高,这限制了这些方法在非常大的系统和材料的高通量筛选中的应用。幸运的是,近年来,机器学习(ML)方法已显示出以 QM 级精度进行预测的前景,但计算成本大大降低。
ML 现在经常用于直接预测材料和化学性质。一种常见的策略是提取表征局部原子几何形状的描述符,并将它们输入到回归模型中,例如多层神经网络(NN)。这种类型的 NN 架构包括分层交互粒子神经网络(HIPNN)、MoleculeNet、TensorMol、DPMD、SchNet、ANI-1 和 PhysNet 等等。虽然这些方法主要用于构建势能表面和原子力,但它们也被用于预测各种性质,如原子电荷、偶极子、自旋分布、带隙等。这些进步已经使大规模分子动力学(MD)模拟具有前所未有的准确性。
尽管取得了这些成功,但经过训练以直接预测材料特性的 ML 模型缺乏描述训练集不易获得的特性的能力。训练数据集通常采用数百万原子配置的形式来覆盖感兴趣的化学和构象空间,并具有预先计算的所需属性,在计算上生成起来非常昂贵。
这与 QM 方法形成对比,后者在一次计算中提供了最理想的属性,例如能量、轨道和电荷密度信息。此外,大多数现有的 ML 方法难以预测系统的密集特性(即与系统大小无关的特性),这通常可能包括电子离域效应、激发态跃迁能等。因此,它们通常仅限于特定类型的系统。
典型的 ML 模型采用近视原理,强制将某些属性(例如能量)表示为局部贡献的总和(加上已知形式的长程相互作用,例如库仑)。然而,在许多情况下,人们想要预测与远程和多体效应相关且不具有简单函数形式的属性。例如,尽管努力预测一些激发态量,例如非绝热耦合,但激发态特性的 ML 预测中的真正可转移性仍然有限。
虽然一些工作表明单线态-三线态间隙可以以一般方式预测,但将这些方法更广泛地应用于分子轨道衍生特性或扩展到更大的系统(如脂质或蛋白质)是一个巨大的挑战。大多数现有 ML 模型的最后一个挑战是可解释性和不确定性量化。很难理解为什么会做出某些预测,因此很难相信它们。
将更多物理知识纳入 ML 模型可能有助于提高可迁移性。之前,Yaron 团队开创的一种方法使用 NN 和基于样条的 ML 模型来预测自洽电荷密度泛函紧束缚(SCC-DFTB)哈密顿量的矩阵元素。这种自动参数化技术后来在扩展的 Hückel 方法中进行了调整,并显示出很好的可解释性。另一种策略利用 Δ-learning,即 ML 模型对低成本的量子化学模型进行修正,并将它们修改为类似于使用 NN 进行的更昂贵的计算。具体来说,OrbNet 使用来自半经验计算的对称适应原子轨道特征来实现高学习效率和大大降低计算成本。
图示:模型结构方案。(来源:论文)
在这里,LANL 的研究人员通过使用 ML 模型动态参数化有效的哈密顿量,对 ML 和 QM 之间的接口提出了不同的看法。已建立的半经验量子力学(SEQM)方法利用了量子化学领域的知识,而 HIPNN 促进了模型的动态更改以提高其准确性。HIPNN 充当编码器,学习从每个原子的局部环境预测 SEQM 哈密顿参数。
这种基于哈密顿量的方法(表示为 HIPNN+SEQM),具有这些调整参数,然后求解在降维空间中相互作用电子的 Hartree-Fock 方程。因此,该方法保留了半经验 QM 的结构,用于通过自洽场(SCF)过程和显式库仑相互作用项来考虑非局部效应。
研究人员通过 SCF 程序启用了反向传播,使具有分子能量、力、轨道能量和其他属性的多任务训练成为可能。通过结合已知的物理学,可以使用少量的训练数据实现强大的可迁移性和可扩展性。另一个优点是该方法可以通过重用现有的 SEQM 参数化自然地扩展到新的原子类型。最后一个优势是可解释性:NN 修改了诸如「轨道能量」或「轨道径向指数项」之类的参数,这些参数已经确立了物理意义。
此外,研究人员证明这些参数的改变与量子化学中原子轨道杂化和键合的传统概念密切相关,这验证了模型的可解释性并深入了解不同化学环境中原子的电子结构。
图示:基于哈密顿量的 HIPNN+SEQM 模型的 SEQM 预测参数 Upp(p 轨道上的能量)的直方图。(来源:论文)
具体来说,该团队通过将半经验方法的量子领域知识实施到 NN 框架中来展示性能改进。将传统神经网络(HIPNN)与半经验哈密顿量(SEQM)模块相结合,以生成保留基本量子力学概念的混合半经验模型(HIPNN+SEQM)。与之前试图设计经验函数公式来描述 SEQM 方法中的相互作用的工作非常相似,HIPNN+SEQM 允许构成半经验哈密顿量的参数随特定原子的化学环境而变化。
NNs 是有效的一般函数形式,似乎是寻找这些隐含的经验函数的理想选择。加入 NN 以动态改变 SEQM 参数立即将该方法在预测分子能量和力方面的准确性提高了约 60%,而计算成本的增加可以忽略不计。它还纠正了 SEQM 方法在预测键长和振动频率方面的偏差误差。
同时,当应用于比原始训练集中包含的系统大得多的系统时,这种基于哈密顿量的 HIPNN+SEQM 模型与 HIPNN 等纯 NN 架构相比,表现出更好的可扩展性。虽然传统的基于 NN 的模型由于适应局部特征以进行近视假设而在远程交互情况下表现出非物理性能,但 HIPNN+SEQM 对于大型系统仍然保持准确。此外,提高的准确性将模型的使用扩展到对高度非平衡配置进行采样的高温区域。
图示:四个模型的 COMP6 子集三肽上的预测与 DFT 参考原子力。(来源:论文)
此外,与环境相关的哈密顿参数也极大地缓解了源自正交压缩基组的半经验方法的可迁移性问题。虽然在传统的 SEQM 中使用恒定的哈密顿参数来描述具有非常不同结构的系统是有问题的,但 NN 推断的哈密顿参数可以适应局部结构的变化,相应地调整它们的值,以提高可迁移性。除了出色的可迁移性外,受物理启发的 HIPNN+SEQM 方法的另一个重要优势是数据要求更小。
此处显示的可迁移性和可扩展性结果仅通过 61,842 个训练数据点实现。这比用于训练 HIPNN 参考模型的数据少 10 倍,比完整的 ANI-1x 数据集少近两个数量级。这支持不同的 ML 模型范式,这些范式结合了物理学来准确模拟不同类别的分子系统。这些 ML 模型还将大大减少对训练数据的要求,从而限制运行昂贵的从头计算所花费的时间。因为 HIPNN+SEQM 模型依赖于成熟的量子化学,它也为解释 ML 预测提供了更多机会。为了强调 HIPNN+SEQM 确实捕获了正确的基础物理,研究人员表示它在预测分子 HOMO-LUMO 间隙方面的性能仅比原始 PM3 稍差,这是训练过程中未使用的属性。
图示:PM3、PM3* 和 HIPNN+SEQM 模型与 DFT 参考值的预测带隙。(来源:论文)
尽管 HIPNN+SEQM 代表了对原始 PM3 的改进,但 SEQM 模型仍然存在一些问题。对于涉及扭转旋转和氢键的情况,它仍然表现不佳,继承了 SEQM 方法的一些已知缺点。研究人员通过包括 D3H4 修正来解决这个问题;然而,氢键和质子亲和力的改善很小,扭转旋转没有改善。
图示:各类能量分布。(来源:论文)
长程非共价键得到加强,这为氢键提供了更好的能垒。这可以归因于训练数据集,该数据集主要由小分子组成,过分强调短程相互作用,而将用于长程相互作用的 HIPNN+SEQM 参数固定。HIPNN+SEQM 在预测键、角度和振动频率等局部特性方面的成功证明了这一点,同时产生了具有相似 RMSD 的优化结构。
为了解决这个问题,可以使用主动学习方法或使用其他复杂的半经验方法来扩充训练数据集,如 OMx(具有正交化的半经验模型)和 GFN2-xTB(提供多极静电和密度相关色散贡献的半经验量子方法)可以以类似的方式与 NN 连接。
ML 优化的 SEQM 模型的一个非常有前景的应用是研究激发态动力学。电子激发分子的表面跳跃和 Ehrenfest 动力学需要数千次激发态计算,迫使他们只使用廉价的 QM 方法。使用 HIPNN+SEQM 或半经验与机器学习的类似混合来提高从 SEQM 哈密顿量计算得到的激发态的准确性是合理的。在这里,该团队已经证明,与原始 SEQM 模型相比,HIPNN+SEQM 模型的 HOMO-LUMO 间隙几乎保持不变,这表明波函数和哈密顿量适用于激发态计算。通过将模型显式训练为激发态量,可以获得进一步的改进。这些方法的另一个有希望的应用是化学反应的研究,其中电子结构信息,例如自由基或电荷状态,可以显着改变分子的反应性。
论文链接:https://www.pnas.org/doi/full/10.1073/pnas.2120333119
相关报道:https://phys.org/news/2022-09-breakthrough-machine-learning-enhanced-quantum-chemistry.html