Nature子刊 | 不确定性驱动、用于主动学习的动力学用于自动采样

简介: Nature子刊 | 不确定性驱动、用于主动学习的动力学用于自动采样



将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯



编辑 | 绿萝

原子间势(interatomic potential)是凝聚态物质中原子与原子间相互作用的势能。是 2011 年公布的材料科学技术名词。

机器学习 (ML) 模型,如果针对高保真量子模拟的数据集进行训练,可以产生准确高效的原子间势。主动学习 (AL) 是迭代生成不同数据集的强大工具。

在这种方法中,ML 模型提供了不确定性估计及其对每个新原子构型(configuration)的预测。如果不确定性估计超过某个阈值,则该构型将包含在数据集中。

近日,来自美国洛斯阿拉莫斯国家实验室的研究人员制定了一种策略:主动学习的不确定性驱动动力学 (uncertainty-driven dynamics for active learning,UDD-AL),以更快地发现有意义地扩充训练数据集的构型。UDD-AL 修改了分子动力学模拟中使用的势能面,以支持存在较大模型不确定性的构型空间区域。UDD-AL 的性能在两个 AL 任务中得到了证明。

该研究以Uncertainty-driven dynamics for active learning of interatomic potentials」为题,于 2023 年 3 月 6 日发布在《Nature Computational Science》上。

ML 模型的一个特殊优势是,在针对高保真量子化学模拟的大型和多样化数据集进行训练时,可以稳健地表示分子和材料系统的势能面。

然而,无论 ML 模型架构多么复杂,训练数据的质量和多样性对于最终的模型准确性仍然至关重要。

AL 尝试在 ML 模型最不确定的区域扩展数据集,从而更快地改进模型。AL 的另一个特点是它可以使用具有物理意义的动态轨迹来对构型进行采样。在此,研究人员演示了如何保持 AL 的这些优势,同时加快新数据收集的速度。

AL 旨在迭代收集各种训练数据集,以解决 ML 模型预测中发现的任何弱点。为此,有必要估计模型预测的不确定性。对于具有 NN 潜力的 AL,一个行之有效的实用策略是「基于委员会的查询」 (query by committee,QBC)。在 QBC 策略中,如果观察到这个整体方差很大,那么训练集将增加新的量子模拟数据。

AL 估计在每次迭代时为基础采样器生成的结构预测的属性的不确定性。分子动力学 (MD) 是对具有化学意义的势能表面进行采样的最流行方法。元动力学(Metadynamics)是一种有效的势能面探索方法,它基于集体变量 (CV) 的概念运作。但这种方式不适用于自动采样。

UDD-AL

在这里,遵循 QBC 和集合不确定性的思想,提出了一种偏向于高不确定性区域的 AL 采样算法——不确定性驱动动力学 (uncertainty-driven dynamics,UDD)。

图示:甘氨酸测试用例的 UDD-AL 和 MD-AL 方法比较。(来源:论文)

UDD-AL 相对于常规高温采样的主要优势在于,UDD-AL 有助于对重要的代表性不足的化学数据进行采样,而不会出现高温条件引起的随机结构失真。此功能可用于对温度敏感或亚稳态系统的构象、构型空间进行有效采样。

测试还表明,偏置电位(bias potential)可以促进高能化学空间的采样,而不会牺牲低能构型的采样。这意味着 UDD 将产生适用于低能、近 GM(global energy minimum)数据和高能化学空间的强大数据集,这些数据通常对应于重要的反应结构数据,例如过渡态和中间体。未来研究的一个主题可能是在 UDD-AL 数据上训练的 ML 电位与加权集成方法的接口,以获得化学反应的途径和速率。

两个测试用例

研究人员通过两个测试用例证明了所提方法的价值。

首先,UDD-AL 用于甘氨酸分子的构象采样。发现偏置电位技术生成了涵盖低能和高能区域的多样化数据集。

图示:UMAP 降维技术处理的甘氨酸构象空间的二维表示。(来源:论文)

在甘氨酸测试用例中,因为所有模型都使用相同的超参数,所以如果进行单独的超参数搜索,每个模型都有可能表现得更好。涵盖更广泛化学空间的数据集可能需要更多可学习的参数才能足够灵活,以适应它们正在接受训练的有效更大的自由度。这将是未来研究的课题。

接下来,研究人员进一步研究了 UDD 的性能和可转移性,用于对较大分子(乙酰丙酮烯醇互变异构体)中的反应途径进行采样。在这里,没有使用 AL 技术,而是使用一组预训练的 ANI-1x 原子间势,它们没有接受过键断裂反应的训练,并分析了 UDD 和 MD 模拟的轨迹。

图示:乙酰丙酮中的集合不确定性和 UDD。(来源:论文)

研究发现,在低温条件下使用乙酰丙酮进行的测试中,观察到偏置电位以鼓励对与质子转移相关的相空间进行采样。发现与常规高温 MD 相比,偏置电位技术鼓励反应过渡,对系统中其他自由度的分布几乎没有失真。

UDD-AL 的意义与局限

结果表明,基于不确定性的偏置电位是一种很有前途的技术,可用于对罕见事件进行采样,同时相对「忠实」于物理平衡分布。UDD 在使用偏置电位方面类似于元动力学。然而,与元动力学相比,UDD 的一个显著优势是 UDD 避免了手动选择 CV 或识别吸引力区域的需要,这需要大量的领域专业知识和反复试验。在某种程度上,它为 AL 的目的定义了最佳 CV:训练更通用和更强大的 ML 潜力。

UDD-AL 的主要限制是该方法需要选择两个参数:偏置幅度和宽度。在该研究中,这些参数是依赖于上下文的,并根据感兴趣的势垒的高度和偏差/真实原子间力的比率来选择的。然而,开发一种可以通过算法调整这些的方法将是一项富有成效的未来活动。

当使用线性偏置函数而不是指数函数时,也许这个问题可以简化为只选择一个参数——偏置幅度。此外,用于自动选择不确定性标准的算法可以提高采样效率。

论文链接:https://www.nature.com/articles/s43588-023-00406-5


相关文章
|
29天前
|
数据采集 人工智能 自然语言处理
中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
【8月更文挑战第14天】中科大与华为联合提出的Entropy Law理论,揭示了大语言模型性能与数据压缩率及训练损失的关系,指出低压缩率和高数据一致性有利于提升模型效能。基于此,开发出ZIP数据选择算法,通过多阶段贪婪策略优选低冗余样本,有效提高了模型训练效率和性能,同时降低了计算成本。这一成果为优化大模型训练提供了新途径。论文详述请见链接:https://arxiv.org/pdf/2407.06645。
118 65
|
7天前
|
机器学习/深度学习
数百万晶体数据训练、解决晶体学相位问题,深度学习方法PhAI登Science
【9月更文挑战第5天】近期,《科学》杂志报道了一项名为PhAI的深度学习技术,在晶体学相位问题上取得重要突破。相位问题旨在确定晶体中分子或原子的位置与方向,对理解其物理化学特性至关重要。PhAI通过数百万晶体数据训练,能高效准确地解决这一难题,有望大幅提升研究效率,加速新材料和药物的设计。但其准确性及对未知结构处理能力仍面临挑战。论文详情参见:https://www.science.org/doi/10.1126/science.adn2777。
12 1
|
4月前
|
机器学习/深度学习
药物分子设计新策略,微软条件扩散模型DiffLinker登Nature子刊
【5月更文挑战第5天】微软研究院在Nature子刊发表新成果,提出药物分子设计模型DiffLinker。该深度学习模型利用扩散过程生成具有特定化学性质的分子结构,优化药物效能。DiffLinker能加速设计过程,提高效率,但需大量数据训练,且生成结果可能受数据偏差影响。[[1](https://www.nature.com/articles/s42256-024-00815-9)]
47 2
|
4月前
|
机器学习/深度学习 开发框架 算法
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
|
4月前
|
移动开发 安全 算法
社交网络分析6:社交网络不实信息传播分析 、 ILDR(Ignorant-Lurker-Disseminator-Removed)传播动力学模型 、 平衡点 、 平衡点的稳定性分析 、数值仿真
社交网络分析6:社交网络不实信息传播分析 、 ILDR(Ignorant-Lurker-Disseminator-Removed)传播动力学模型 、 平衡点 、 平衡点的稳定性分析 、数值仿真
214 0
|
机器学习/深度学习 算法 机器人
PETS:伯克利大神Sergey Levine指导的概率集成轨迹采样算法
PETS:伯克利大神Sergey Levine指导的概率集成轨迹采样算法
106 0
|
机器学习/深度学习 编解码 自动驾驶
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
322 0
|
机器学习/深度学习 算法 数据可视化
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
|
机器学习/深度学习 编解码 算法
CenterNet++ | CenterNet携手CornerNet终于杀回来了,实时高精度检测值得拥有!(一)
CenterNet++ | CenterNet携手CornerNet终于杀回来了,实时高精度检测值得拥有!(一)
139 0
|
编解码 vr&ar 计算机视觉
CenterNet++ | CenterNet携手CornerNet终于杀回来了,实时高精度检测值得拥有!(二)
CenterNet++ | CenterNet携手CornerNet终于杀回来了,实时高精度检测值得拥有!(二)
177 0