将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯
编辑 | 绿萝
原子间势(interatomic potential)是凝聚态物质中原子与原子间相互作用的势能。是 2011 年公布的材料科学技术名词。
机器学习 (ML) 模型,如果针对高保真量子模拟的数据集进行训练,可以产生准确高效的原子间势。主动学习 (AL) 是迭代生成不同数据集的强大工具。
在这种方法中,ML 模型提供了不确定性估计及其对每个新原子构型(configuration)的预测。如果不确定性估计超过某个阈值,则该构型将包含在数据集中。
近日,来自美国洛斯阿拉莫斯国家实验室的研究人员制定了一种策略:主动学习的不确定性驱动动力学 (uncertainty-driven dynamics for active learning,UDD-AL),以更快地发现有意义地扩充训练数据集的构型。UDD-AL 修改了分子动力学模拟中使用的势能面,以支持存在较大模型不确定性的构型空间区域。UDD-AL 的性能在两个 AL 任务中得到了证明。
该研究以「Uncertainty-driven dynamics for active learning of interatomic potentials」为题,于 2023 年 3 月 6 日发布在《Nature Computational Science》上。
ML 模型的一个特殊优势是,在针对高保真量子化学模拟的大型和多样化数据集进行训练时,可以稳健地表示分子和材料系统的势能面。
然而,无论 ML 模型架构多么复杂,训练数据的质量和多样性对于最终的模型准确性仍然至关重要。
AL 尝试在 ML 模型最不确定的区域扩展数据集,从而更快地改进模型。AL 的另一个特点是它可以使用具有物理意义的动态轨迹来对构型进行采样。在此,研究人员演示了如何保持 AL 的这些优势,同时加快新数据收集的速度。
AL 旨在迭代收集各种训练数据集,以解决 ML 模型预测中发现的任何弱点。为此,有必要估计模型预测的不确定性。对于具有 NN 潜力的 AL,一个行之有效的实用策略是「基于委员会的查询」 (query by committee,QBC)。在 QBC 策略中,如果观察到这个整体方差很大,那么训练集将增加新的量子模拟数据。
AL 估计在每次迭代时为基础采样器生成的结构预测的属性的不确定性。分子动力学 (MD) 是对具有化学意义的势能表面进行采样的最流行方法。元动力学(Metadynamics)是一种有效的势能面探索方法,它基于集体变量 (CV) 的概念运作。但这种方式不适用于自动采样。
UDD-AL
在这里,遵循 QBC 和集合不确定性的思想,提出了一种偏向于高不确定性区域的 AL 采样算法——不确定性驱动动力学 (uncertainty-driven dynamics,UDD)。
图示:甘氨酸测试用例的 UDD-AL 和 MD-AL 方法比较。(来源:论文)
UDD-AL 相对于常规高温采样的主要优势在于,UDD-AL 有助于对重要的代表性不足的化学数据进行采样,而不会出现高温条件引起的随机结构失真。此功能可用于对温度敏感或亚稳态系统的构象、构型空间进行有效采样。
测试还表明,偏置电位(bias potential)可以促进高能化学空间的采样,而不会牺牲低能构型的采样。这意味着 UDD 将产生适用于低能、近 GM(global energy minimum)数据和高能化学空间的强大数据集,这些数据通常对应于重要的反应结构数据,例如过渡态和中间体。未来研究的一个主题可能是在 UDD-AL 数据上训练的 ML 电位与加权集成方法的接口,以获得化学反应的途径和速率。
两个测试用例
研究人员通过两个测试用例证明了所提方法的价值。
首先,UDD-AL 用于甘氨酸分子的构象采样。发现偏置电位技术生成了涵盖低能和高能区域的多样化数据集。
图示:UMAP 降维技术处理的甘氨酸构象空间的二维表示。(来源:论文)
在甘氨酸测试用例中,因为所有模型都使用相同的超参数,所以如果进行单独的超参数搜索,每个模型都有可能表现得更好。涵盖更广泛化学空间的数据集可能需要更多可学习的参数才能足够灵活,以适应它们正在接受训练的有效更大的自由度。这将是未来研究的课题。
接下来,研究人员进一步研究了 UDD 的性能和可转移性,用于对较大分子(乙酰丙酮烯醇互变异构体)中的反应途径进行采样。在这里,没有使用 AL 技术,而是使用一组预训练的 ANI-1x 原子间势,它们没有接受过键断裂反应的训练,并分析了 UDD 和 MD 模拟的轨迹。
图示:乙酰丙酮中的集合不确定性和 UDD。(来源:论文)
研究发现,在低温条件下使用乙酰丙酮进行的测试中,观察到偏置电位以鼓励对与质子转移相关的相空间进行采样。发现与常规高温 MD 相比,偏置电位技术鼓励反应过渡,对系统中其他自由度的分布几乎没有失真。
UDD-AL 的意义与局限
结果表明,基于不确定性的偏置电位是一种很有前途的技术,可用于对罕见事件进行采样,同时相对「忠实」于物理平衡分布。UDD 在使用偏置电位方面类似于元动力学。然而,与元动力学相比,UDD 的一个显著优势是 UDD 避免了手动选择 CV 或识别吸引力区域的需要,这需要大量的领域专业知识和反复试验。在某种程度上,它为 AL 的目的定义了最佳 CV:训练更通用和更强大的 ML 潜力。
UDD-AL 的主要限制是该方法需要选择两个参数:偏置幅度和宽度。在该研究中,这些参数是依赖于上下文的,并根据感兴趣的势垒的高度和偏差/真实原子间力的比率来选择的。然而,开发一种可以通过算法调整这些的方法将是一项富有成效的未来活动。
当使用线性偏置函数而不是指数函数时,也许这个问题可以简化为只选择一个参数——偏置幅度。此外,用于自动选择不确定性标准的算法可以提高采样效率。
论文链接:https://www.nature.com/articles/s43588-023-00406-5