机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量

简介: 机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量

计算化学中的传统机器学习(ML)模型学习使用仅用于参考数据的量子化学直接预测分子性质。虽然这些启发式 ML 方法显示出量子级精度,速度比传统量子化学方法快几个数量级,但它们的可扩展性和可转移性很差;即,它们的准确性在大型或新化学系统上会降低。将量子化学框架整合到 ML 模型中直接解决了这个问题。

在这里,美国洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory,LANL)的研究人员采用半经验量子力学(SEQM)方法的结构来构建动态响应的哈密顿量。SEQM 方法使用符合实验性质的经验参数来构造降阶哈密顿量,这比从头算方法促进了更快的计算,但精度有所降低。通过用从本地环境推断的机器学习动态值替换这些静态参数,大大提高了 SEQM 方法的准确性。

这些动态生成的哈密顿参数经过分子能量和原子力的训练,显示出与原子杂化和键合的强相关性。仅使用大约 60,000 个小有机分子构象异构体进行训练,生成的模型在测试更大的化学系统和预测各种分子特性时保留了可解释性、可扩展性和可转移性。总体而言,这项工作展示了将基于物理的描述与 ML 相结合以开发同时准确、可转移和可解释的模型的优点。

该研究以「Deep learning of dynamically responsive chemical Hamiltonians with semiempirical quantum mechanics」为题,于 2022 年 7 月 1 日发布在《PNAS》。

模拟电子和原子核之间的相互作用是化学和材料系统研究的核心。传统的量子力学(QM)近似包括密度泛函理论(DFT)、耦合簇(CC)和配置相互作用(CI)方法。这些技术通常可以提供对物理特性的高度准确的预测。然而,相对于经典力场或半经验 QM 等替代方法,从头算 QM 方法的计算成本很高,这限制了这些方法在非常大的系统和材料的高通量筛选中的应用。幸运的是,近年来,机器学习(ML)方法已显示出以 QM 级精度进行预测的前景,但计算成本大大降低。

ML 现在经常用于直接预测材料和化学性质。一种常见的策略是提取表征局部原子几何形状的描述符,并将它们输入到回归模型中,例如多层神经网络(NN)。这种类型的 NN 架构包括分层交互粒子神经网络(HIPNN)、MoleculeNet、TensorMol、DPMD、SchNet、ANI-1 和 PhysNet 等等。虽然这些方法主要用于构建势能表面和原子力,但它们也被用于预测各种性质,如原子电荷、偶极子、自旋分布、带隙等。这些进步已经使大规模分子动力学(MD)模拟具有前所未有的准确性。

尽管取得了这些成功,但经过训练以直接预测材料特性的 ML 模型缺乏描述训练集不易获得的特性的能力。训练数据集通常采用数百万原子配置的形式来覆盖感兴趣的化学和构象空间,并具有预先计算的所需属性,在计算上生成起来非常昂贵。

这与 QM 方法形成对比,后者在一次计算中提供了最理想的属性,例如能量、轨道和电荷密度信息。此外,大多数现有的 ML 方法难以预测系统的密集特性(即与系统大小无关的特性),这通常可能包括电子离域效应、激发态跃迁能等。因此,它们通常仅限于特定类型的系统。

典型的 ML 模型采用近视原理,强制将某些属性(例如能量)表示为局部贡献的总和(加上已知形式的长程相互作用,例如库仑)。然而,在许多情况下,人们想要预测与远程和多体效应相关且不具有简单函数形式的属性。例如,尽管努力预测一些激发态量,例如非绝热耦合,但激发态特性的 ML 预测中的真正可转移性仍然有限。

虽然一些工作表明单线态-三线态间隙可以以一般方式预测,但将这些方法更广泛地应用于分子轨道衍生特性或扩展到更大的系统(如脂质或蛋白质)是一个巨大的挑战。大多数现有 ML 模型的最后一个挑战是可解释性和不确定性量化。很难理解为什么会做出某些预测,因此很难相信它们。

将更多物理知识纳入 ML 模型可能有助于提高可迁移性。之前,Yaron 团队开创的一种方法使用 NN 和基于样条的 ML 模型来预测自洽电荷密度泛函紧束缚(SCC-DFTB)哈密顿量的矩阵元素。这种自动参数化技术后来在扩展的 Hückel 方法中进行了调整,并显示出很好的可解释性。另一种策略利用 Δ-learning,即 ML 模型对低成本的量子化学模型进行修正,并将它们修改为类似于使用 NN 进行的更昂贵的计算。具体来说,OrbNet 使用来自半经验计算的对称适应原子轨道特征来实现高学习效率和大大降低计算成本。

图示:模型结构方案。(来源:论文)

在这里,LANL 的研究人员通过使用 ML 模型动态参数化有效的哈密顿量,对 ML 和 QM 之间的接口提出了不同的看法。已建立的半经验量子力学(SEQM)方法利用了量子化学领域的知识,而 HIPNN 促进了模型的动态更改以提高其准确性。HIPNN 充当编码器,学习从每个原子的局部环境预测 SEQM 哈密顿参数。

这种基于哈密顿量的方法(表示为 HIPNN+SEQM),具有这些调整参数,然后求解在降维空间中相互作用电子的 Hartree-Fock 方程。因此,该方法保留了半经验 QM 的结构,用于通过自洽场(SCF)过程和显式库仑相互作用项来考虑非局部效应。

研究人员通过 SCF 程序启用了反向传播,使具有分子能量、力、轨道能量和其他属性的多任务训练成为可能。通过结合已知的物理学,可以使用少量的训练数据实现强大的可迁移性和可扩展性。另一个优点是该方法可以通过重用现有的 SEQM 参数化自然地扩展到新的原子类型。最后一个优势是可解释性:NN 修改了诸如「轨道能量」或「轨道径向指数项」之类的参数,这些参数已经确立了物理意义。

此外,研究人员证明这些参数的改变与量子化学中原子轨道杂化和键合的传统概念密切相关,这验证了模型的可解释性并深入了解不同化学环境中原子的电子结构。

图示:基于哈密顿量的 HIPNN+SEQM 模型的 SEQM 预测参数 Upp(p 轨道上的能量)的直方图。(来源:论文)

具体来说,该团队通过将半经验方法的量子领域知识实施到 NN 框架中来展示性能改进。将传统神经网络(HIPNN)与半经验哈密顿量(SEQM)模块相结合,以生成保留基本量子力学概念的混合半经验模型(HIPNN+SEQM)。与之前试图设计经验函数公式来描述 SEQM 方法中的相互作用的工作非常相似,HIPNN+SEQM 允许构成半经验哈密顿量的参数随特定原子的化学环境而变化。

NNs 是有效的一般函数形式,似乎是寻找这些隐含的经验函数的理想选择。加入 NN 以动态改变 SEQM 参数立即将该方法在预测分子能量和力方面的准确性提高了约 60%,而计算成本的增加可以忽略不计。它还纠正了 SEQM 方法在预测键长和振动频率方面的偏差误差。

同时,当应用于比原始训练集中包含的系统大得多的系统时,这种基于哈密顿量的 HIPNN+SEQM 模型与 HIPNN 等纯 NN 架构相比,表现出更好的可扩展性。虽然传统的基于 NN 的模型由于适应局部特征以进行近视假设而在远程交互情况下表现出非物理性能,但 HIPNN+SEQM 对于大型系统仍然保持准确。此外,提高的准确性将模型的使用扩展到对高度非平衡配置进行采样的高温区域。

图示:四个模型的 COMP6 子集三肽上的预测与 DFT 参考原子力。(来源:论文)

此外,与环境相关的哈密顿参数也极大地缓解了源自正交压缩基组的半经验方法的可迁移性问题。虽然在传统的 SEQM 中使用恒定的哈密顿参数来描述具有非常不同结构的系统是有问题的,但 NN 推断的哈密顿参数可以适应局部结构的变化,相应地调整它们的值,以提高可迁移性。除了出色的可迁移性外,受物理启发的 HIPNN+SEQM 方法的另一个重要优势是数据要求更小。

此处显示的可迁移性和可扩展性结果仅通过 61,842 个训练数据点实现。这比用于训练 HIPNN 参考模型的数据少 10 倍,比完整的 ANI-1x 数据集少近两个数量级。这支持不同的 ML 模型范式,这些范式结合了物理学来准确模拟不同类别的分子系统。这些 ML 模型还将大大减少对训练数据的要求,从而限制运行昂贵的从头计算所花费的时间。因为 HIPNN+SEQM 模型依赖于成熟的量子化学,它也为解释 ML 预测提供了更多机会。为了强调 HIPNN+SEQM 确实捕获了正确的基础物理,研究人员表示它在预测分子 HOMO-LUMO 间隙方面的性能仅比原始 PM3 稍差,这是训练过程中未使用的属性。

图示:PM3、PM3* 和 HIPNN+SEQM 模型与 DFT 参考值的预测带隙。(来源:论文)

尽管 HIPNN+SEQM 代表了对原始 PM3 的改进,但 SEQM 模型仍然存在一些问题。对于涉及扭转旋转和氢键的情况,它仍然表现不佳,继承了 SEQM 方法的一些已知缺点。研究人员通过包括 D3H4 修正来解决这个问题;然而,氢键和质子亲和力的改善很小,扭转旋转没有改善。

图示:各类能量分布。(来源:论文)

长程非共价键得到加强,这为氢键提供了更好的能垒。这可以归因于训练数据集,该数据集主要由小分子组成,过分强调短程相互作用,而将用于长程相互作用的 HIPNN+SEQM 参数固定。HIPNN+SEQM 在预测键、角度和振动频率等局部特性方面的成功证明了这一点,同时产生了具有相似 RMSD 的优化结构。

为了解决这个问题,可以使用主动学习方法或使用其他复杂的半经验方法来扩充训练数据集,如 OMx(具有正交化的半经验模型)和 GFN2-xTB(提供多极静电和密度相关色散贡献的半经验量子方法)可以以类似的方式与 NN 连接。

ML 优化的 SEQM 模型的一个非常有前景的应用是研究激发态动力学。电子激发分子的表面跳跃和 Ehrenfest 动力学需要数千次激发态计算,迫使他们只使用廉价的 QM 方法。使用 HIPNN+SEQM 或半经验与机器学习的类似混合来提高从 SEQM 哈密顿量计算得到的激发态的准确性是合理的。在这里,该团队已经证明,与原始 SEQM 模型相比,HIPNN+SEQM 模型的 HOMO-LUMO 间隙几乎保持不变,这表明波函数和哈密顿量适用于激发态计算。通过将模型显式训练为激发态量,可以获得进一步的改进。这些方法的另一个有希望的应用是化学反应的研究,其中电子结构信息,例如自由基或电荷状态,可以显着改变分子的反应性。

论文链接:https://www.pnas.org/doi/full/10.1073/pnas.2120333119

相关报道:https://phys.org/news/2022-09-breakthrough-machine-learning-enhanced-quantum-chemistry.html

相关文章
|
20天前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的五大技巧
【4月更文挑战第7天】 在数据科学迅猛发展的今天,机器学习已成为解决复杂问题的重要工具。然而,构建一个既精确又高效的机器学习模型并非易事。本文将分享五种提升机器学习模型性能的有效技巧,包括数据预处理、特征工程、模型选择、超参数调优以及交叉验证。这些方法不仅能帮助初学者快速提高模型准确度,也为经验丰富的数据科学家提供了进一步提升模型性能的思路。
|
24天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的最佳实践
【4月更文挑战第3天】在数据驱动的时代,构建高效的机器学习模型已成为解决复杂问题的关键。本文将探讨一系列实用的技术策略,旨在提高模型的性能和泛化能力。我们将从数据预处理、特征工程、模型选择、超参数调优到集成学习等方面进行详细讨论,并通过实例分析展示如何在实践中应用这些策略。
17 1
|
4天前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的最佳实践
【4月更文挑战第23天】在数据驱动的时代,机器学习已成为创新的核心动力。本文深入探讨了构建高效机器学习模型的关键步骤,包括数据预处理、特征工程、模型选择、训练技巧以及性能评估。通过实例分析与经验总结,旨在为从业者提供一套实用的技术指南,帮助他们在复杂数据环境中提升模型的准确性和泛化能力。
|
2天前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的最佳实践
【4月更文挑战第25天】 在数据驱动的时代,机器学习已成为创新和效率提升的关键工具。本文将探讨一系列实用的策略和技术,旨在帮助读者构建出更高效、更精确的机器学习模型。我们将从数据处理开始,讨论特征选择的重要性以及如何避免过拟合,接着深入到模型选择与优化,最后讨论模型部署和维护的实践要点。通过遵循这些最佳实践,读者能够提升其机器学习项目的成功率并实现更好的业务成果。
|
10天前
|
机器学习/深度学习 算法 数据处理
构建自定义机器学习模型:Scikit-learn的高级应用
【4月更文挑战第17天】本文探讨了如何利用Scikit-learn构建自定义机器学习模型,包括创建自定义估计器、使用管道集成数据处理和模型、深化特征工程以及调优与评估模型。通过继承`BaseEstimator`和相关Mixin类,用户可实现自定义算法。管道允许串联多个步骤,而特征工程涉及多项式特征和自定义变换。模型调优可借助交叉验证和参数搜索工具。掌握这些高级技巧能提升机器学习项目的效果和效率。
|
11天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从特征工程到模型调优
【4月更文挑战第16天】 在数据驱动的时代,机器学习已成为解决复杂问题的关键工具。本文旨在分享一套实用的技术流程,帮助读者构建高效的机器学习模型。我们将重点讨论特征工程的重要性、选择合适算法的策略,以及通过交叉验证和网格搜索进行模型调优的方法。文章的目标是为初学者提供一个清晰的指南,同时为有经验的实践者提供一些高级技巧。
|
21天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从数据预处理到模型优化
【4月更文挑战第6天】本文聚焦于机器学习模型的开发流程,旨在提供一套系统的方法论以构建出更高效的模型。我们将深入探讨数据预处理的重要性,特征工程的策略,以及如何通过交叉验证和超参数调优来提升模型性能。文章不仅涉及理论分析,还包括了实际案例的代码实现,为读者呈现一个从数据处理到模型部署的完整蓝图。
15 0
|
22天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从数据预处理到模型优化
【4月更文挑战第5天】 在机器学习领域,构建一个高效的模型并非易事。它涉及多个阶段,包括数据预处理、特征工程、模型选择、训练以及最终的评估和优化。本文深入探讨了如何通过精确的数据预处理技巧和细致的特征工程来提升模型性能,同时介绍了几种常见的模型优化策略。我们的目标是为读者提供一套实用的指导方案,帮助他们在面对复杂数据集时能够有效地构建和调整机器学习模型。
|
23天前
|
机器学习/深度学习 算法 数据挖掘
构建高效机器学习模型:从特征工程到模型调优
【4月更文挑战第4天】在数据驱动的时代,构建一个高效的机器学习模型是解决复杂问题的关键。本文将深入探讨特征工程的重要性,并分享如何通过自动化技术进行特征选择与构造。接着,我们将讨论不同的机器学习算法及其适用场景,并提供模型训练、验证和测试的最佳实践。最后,文章将展示如何使用网格搜索和交叉验证来微调模型参数,以达到最优性能。读者将获得一套完整的指南,用以提升机器学习项目的预测准确率和泛化能力。
|
30天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的策略与优化方法
在机器学习领域,构建一个既高效又准确的预测模型是每个数据科学家追求的目标。本文将探讨一系列策略和优化方法,用于提高机器学习模型的性能和效率。我们将从数据处理技巧、特征选择、算法调优以及模型评估等方面进行详细讨论。特别地,文章将重点介绍如何通过集成学习和自动化模型调优工具来提升模型的泛化能力。这些技术不仅能帮助减少过拟合的风险,还能确保模型在未知数据集上的表现更加鲁棒。