机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量

简介: 机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量

计算化学中的传统机器学习(ML)模型学习使用仅用于参考数据的量子化学直接预测分子性质。虽然这些启发式 ML 方法显示出量子级精度,速度比传统量子化学方法快几个数量级,但它们的可扩展性和可转移性很差;即,它们的准确性在大型或新化学系统上会降低。将量子化学框架整合到 ML 模型中直接解决了这个问题。

在这里,美国洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory,LANL)的研究人员采用半经验量子力学(SEQM)方法的结构来构建动态响应的哈密顿量。SEQM 方法使用符合实验性质的经验参数来构造降阶哈密顿量,这比从头算方法促进了更快的计算,但精度有所降低。通过用从本地环境推断的机器学习动态值替换这些静态参数,大大提高了 SEQM 方法的准确性。

这些动态生成的哈密顿参数经过分子能量和原子力的训练,显示出与原子杂化和键合的强相关性。仅使用大约 60,000 个小有机分子构象异构体进行训练,生成的模型在测试更大的化学系统和预测各种分子特性时保留了可解释性、可扩展性和可转移性。总体而言,这项工作展示了将基于物理的描述与 ML 相结合以开发同时准确、可转移和可解释的模型的优点。

该研究以「Deep learning of dynamically responsive chemical Hamiltonians with semiempirical quantum mechanics」为题,于 2022 年 7 月 1 日发布在《PNAS》。

模拟电子和原子核之间的相互作用是化学和材料系统研究的核心。传统的量子力学(QM)近似包括密度泛函理论(DFT)、耦合簇(CC)和配置相互作用(CI)方法。这些技术通常可以提供对物理特性的高度准确的预测。然而,相对于经典力场或半经验 QM 等替代方法,从头算 QM 方法的计算成本很高,这限制了这些方法在非常大的系统和材料的高通量筛选中的应用。幸运的是,近年来,机器学习(ML)方法已显示出以 QM 级精度进行预测的前景,但计算成本大大降低。

ML 现在经常用于直接预测材料和化学性质。一种常见的策略是提取表征局部原子几何形状的描述符,并将它们输入到回归模型中,例如多层神经网络(NN)。这种类型的 NN 架构包括分层交互粒子神经网络(HIPNN)、MoleculeNet、TensorMol、DPMD、SchNet、ANI-1 和 PhysNet 等等。虽然这些方法主要用于构建势能表面和原子力,但它们也被用于预测各种性质,如原子电荷、偶极子、自旋分布、带隙等。这些进步已经使大规模分子动力学(MD)模拟具有前所未有的准确性。

尽管取得了这些成功,但经过训练以直接预测材料特性的 ML 模型缺乏描述训练集不易获得的特性的能力。训练数据集通常采用数百万原子配置的形式来覆盖感兴趣的化学和构象空间,并具有预先计算的所需属性,在计算上生成起来非常昂贵。

这与 QM 方法形成对比,后者在一次计算中提供了最理想的属性,例如能量、轨道和电荷密度信息。此外,大多数现有的 ML 方法难以预测系统的密集特性(即与系统大小无关的特性),这通常可能包括电子离域效应、激发态跃迁能等。因此,它们通常仅限于特定类型的系统。

典型的 ML 模型采用近视原理,强制将某些属性(例如能量)表示为局部贡献的总和(加上已知形式的长程相互作用,例如库仑)。然而,在许多情况下,人们想要预测与远程和多体效应相关且不具有简单函数形式的属性。例如,尽管努力预测一些激发态量,例如非绝热耦合,但激发态特性的 ML 预测中的真正可转移性仍然有限。

虽然一些工作表明单线态-三线态间隙可以以一般方式预测,但将这些方法更广泛地应用于分子轨道衍生特性或扩展到更大的系统(如脂质或蛋白质)是一个巨大的挑战。大多数现有 ML 模型的最后一个挑战是可解释性和不确定性量化。很难理解为什么会做出某些预测,因此很难相信它们。

将更多物理知识纳入 ML 模型可能有助于提高可迁移性。之前,Yaron 团队开创的一种方法使用 NN 和基于样条的 ML 模型来预测自洽电荷密度泛函紧束缚(SCC-DFTB)哈密顿量的矩阵元素。这种自动参数化技术后来在扩展的 Hückel 方法中进行了调整,并显示出很好的可解释性。另一种策略利用 Δ-learning,即 ML 模型对低成本的量子化学模型进行修正,并将它们修改为类似于使用 NN 进行的更昂贵的计算。具体来说,OrbNet 使用来自半经验计算的对称适应原子轨道特征来实现高学习效率和大大降低计算成本。

图示:模型结构方案。(来源:论文)

在这里,LANL 的研究人员通过使用 ML 模型动态参数化有效的哈密顿量,对 ML 和 QM 之间的接口提出了不同的看法。已建立的半经验量子力学(SEQM)方法利用了量子化学领域的知识,而 HIPNN 促进了模型的动态更改以提高其准确性。HIPNN 充当编码器,学习从每个原子的局部环境预测 SEQM 哈密顿参数。

这种基于哈密顿量的方法(表示为 HIPNN+SEQM),具有这些调整参数,然后求解在降维空间中相互作用电子的 Hartree-Fock 方程。因此,该方法保留了半经验 QM 的结构,用于通过自洽场(SCF)过程和显式库仑相互作用项来考虑非局部效应。

研究人员通过 SCF 程序启用了反向传播,使具有分子能量、力、轨道能量和其他属性的多任务训练成为可能。通过结合已知的物理学,可以使用少量的训练数据实现强大的可迁移性和可扩展性。另一个优点是该方法可以通过重用现有的 SEQM 参数化自然地扩展到新的原子类型。最后一个优势是可解释性:NN 修改了诸如「轨道能量」或「轨道径向指数项」之类的参数,这些参数已经确立了物理意义。

此外,研究人员证明这些参数的改变与量子化学中原子轨道杂化和键合的传统概念密切相关,这验证了模型的可解释性并深入了解不同化学环境中原子的电子结构。

图示:基于哈密顿量的 HIPNN+SEQM 模型的 SEQM 预测参数 Upp(p 轨道上的能量)的直方图。(来源:论文)

具体来说,该团队通过将半经验方法的量子领域知识实施到 NN 框架中来展示性能改进。将传统神经网络(HIPNN)与半经验哈密顿量(SEQM)模块相结合,以生成保留基本量子力学概念的混合半经验模型(HIPNN+SEQM)。与之前试图设计经验函数公式来描述 SEQM 方法中的相互作用的工作非常相似,HIPNN+SEQM 允许构成半经验哈密顿量的参数随特定原子的化学环境而变化。

NNs 是有效的一般函数形式,似乎是寻找这些隐含的经验函数的理想选择。加入 NN 以动态改变 SEQM 参数立即将该方法在预测分子能量和力方面的准确性提高了约 60%,而计算成本的增加可以忽略不计。它还纠正了 SEQM 方法在预测键长和振动频率方面的偏差误差。

同时,当应用于比原始训练集中包含的系统大得多的系统时,这种基于哈密顿量的 HIPNN+SEQM 模型与 HIPNN 等纯 NN 架构相比,表现出更好的可扩展性。虽然传统的基于 NN 的模型由于适应局部特征以进行近视假设而在远程交互情况下表现出非物理性能,但 HIPNN+SEQM 对于大型系统仍然保持准确。此外,提高的准确性将模型的使用扩展到对高度非平衡配置进行采样的高温区域。

图示:四个模型的 COMP6 子集三肽上的预测与 DFT 参考原子力。(来源:论文)

此外,与环境相关的哈密顿参数也极大地缓解了源自正交压缩基组的半经验方法的可迁移性问题。虽然在传统的 SEQM 中使用恒定的哈密顿参数来描述具有非常不同结构的系统是有问题的,但 NN 推断的哈密顿参数可以适应局部结构的变化,相应地调整它们的值,以提高可迁移性。除了出色的可迁移性外,受物理启发的 HIPNN+SEQM 方法的另一个重要优势是数据要求更小。

此处显示的可迁移性和可扩展性结果仅通过 61,842 个训练数据点实现。这比用于训练 HIPNN 参考模型的数据少 10 倍,比完整的 ANI-1x 数据集少近两个数量级。这支持不同的 ML 模型范式,这些范式结合了物理学来准确模拟不同类别的分子系统。这些 ML 模型还将大大减少对训练数据的要求,从而限制运行昂贵的从头计算所花费的时间。因为 HIPNN+SEQM 模型依赖于成熟的量子化学,它也为解释 ML 预测提供了更多机会。为了强调 HIPNN+SEQM 确实捕获了正确的基础物理,研究人员表示它在预测分子 HOMO-LUMO 间隙方面的性能仅比原始 PM3 稍差,这是训练过程中未使用的属性。

图示:PM3、PM3* 和 HIPNN+SEQM 模型与 DFT 参考值的预测带隙。(来源:论文)

尽管 HIPNN+SEQM 代表了对原始 PM3 的改进,但 SEQM 模型仍然存在一些问题。对于涉及扭转旋转和氢键的情况,它仍然表现不佳,继承了 SEQM 方法的一些已知缺点。研究人员通过包括 D3H4 修正来解决这个问题;然而,氢键和质子亲和力的改善很小,扭转旋转没有改善。

图示:各类能量分布。(来源:论文)

长程非共价键得到加强,这为氢键提供了更好的能垒。这可以归因于训练数据集,该数据集主要由小分子组成,过分强调短程相互作用,而将用于长程相互作用的 HIPNN+SEQM 参数固定。HIPNN+SEQM 在预测键、角度和振动频率等局部特性方面的成功证明了这一点,同时产生了具有相似 RMSD 的优化结构。

为了解决这个问题,可以使用主动学习方法或使用其他复杂的半经验方法来扩充训练数据集,如 OMx(具有正交化的半经验模型)和 GFN2-xTB(提供多极静电和密度相关色散贡献的半经验量子方法)可以以类似的方式与 NN 连接。

ML 优化的 SEQM 模型的一个非常有前景的应用是研究激发态动力学。电子激发分子的表面跳跃和 Ehrenfest 动力学需要数千次激发态计算,迫使他们只使用廉价的 QM 方法。使用 HIPNN+SEQM 或半经验与机器学习的类似混合来提高从 SEQM 哈密顿量计算得到的激发态的准确性是合理的。在这里,该团队已经证明,与原始 SEQM 模型相比,HIPNN+SEQM 模型的 HOMO-LUMO 间隙几乎保持不变,这表明波函数和哈密顿量适用于激发态计算。通过将模型显式训练为激发态量,可以获得进一步的改进。这些方法的另一个有希望的应用是化学反应的研究,其中电子结构信息,例如自由基或电荷状态,可以显着改变分子的反应性。

论文链接:https://www.pnas.org/doi/full/10.1073/pnas.2120333119

相关报道:https://phys.org/news/2022-09-breakthrough-machine-learning-enhanced-quantum-chemistry.html

目录
打赏
0
0
0
0
367
分享
相关文章
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
102 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
275 13
机器学习算法的优化与改进:提升模型性能的策略与方法
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
132 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
70 6
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
193 6
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
253 1
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
56 2
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
79 4
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
145 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
如何用贝叶斯方法来解决机器学习中的分类问题?
【10月更文挑战第5天】如何用贝叶斯方法来解决机器学习中的分类问题?

热门文章

最新文章