Nature子刊 | 不确定性驱动、用于主动学习的动力学用于自动采样

简介: Nature子刊 | 不确定性驱动、用于主动学习的动力学用于自动采样



将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯



编辑 | 绿萝

原子间势(interatomic potential)是凝聚态物质中原子与原子间相互作用的势能。是 2011 年公布的材料科学技术名词。

机器学习 (ML) 模型,如果针对高保真量子模拟的数据集进行训练,可以产生准确高效的原子间势。主动学习 (AL) 是迭代生成不同数据集的强大工具。

在这种方法中,ML 模型提供了不确定性估计及其对每个新原子构型(configuration)的预测。如果不确定性估计超过某个阈值,则该构型将包含在数据集中。

近日,来自美国洛斯阿拉莫斯国家实验室的研究人员制定了一种策略:主动学习的不确定性驱动动力学 (uncertainty-driven dynamics for active learning,UDD-AL),以更快地发现有意义地扩充训练数据集的构型。UDD-AL 修改了分子动力学模拟中使用的势能面,以支持存在较大模型不确定性的构型空间区域。UDD-AL 的性能在两个 AL 任务中得到了证明。

该研究以Uncertainty-driven dynamics for active learning of interatomic potentials」为题,于 2023 年 3 月 6 日发布在《Nature Computational Science》上。

ML 模型的一个特殊优势是,在针对高保真量子化学模拟的大型和多样化数据集进行训练时,可以稳健地表示分子和材料系统的势能面。

然而,无论 ML 模型架构多么复杂,训练数据的质量和多样性对于最终的模型准确性仍然至关重要。

AL 尝试在 ML 模型最不确定的区域扩展数据集,从而更快地改进模型。AL 的另一个特点是它可以使用具有物理意义的动态轨迹来对构型进行采样。在此,研究人员演示了如何保持 AL 的这些优势,同时加快新数据收集的速度。

AL 旨在迭代收集各种训练数据集,以解决 ML 模型预测中发现的任何弱点。为此,有必要估计模型预测的不确定性。对于具有 NN 潜力的 AL,一个行之有效的实用策略是「基于委员会的查询」 (query by committee,QBC)。在 QBC 策略中,如果观察到这个整体方差很大,那么训练集将增加新的量子模拟数据。

AL 估计在每次迭代时为基础采样器生成的结构预测的属性的不确定性。分子动力学 (MD) 是对具有化学意义的势能表面进行采样的最流行方法。元动力学(Metadynamics)是一种有效的势能面探索方法,它基于集体变量 (CV) 的概念运作。但这种方式不适用于自动采样。

UDD-AL

在这里,遵循 QBC 和集合不确定性的思想,提出了一种偏向于高不确定性区域的 AL 采样算法——不确定性驱动动力学 (uncertainty-driven dynamics,UDD)。

图示:甘氨酸测试用例的 UDD-AL 和 MD-AL 方法比较。(来源:论文)

UDD-AL 相对于常规高温采样的主要优势在于,UDD-AL 有助于对重要的代表性不足的化学数据进行采样,而不会出现高温条件引起的随机结构失真。此功能可用于对温度敏感或亚稳态系统的构象、构型空间进行有效采样。

测试还表明,偏置电位(bias potential)可以促进高能化学空间的采样,而不会牺牲低能构型的采样。这意味着 UDD 将产生适用于低能、近 GM(global energy minimum)数据和高能化学空间的强大数据集,这些数据通常对应于重要的反应结构数据,例如过渡态和中间体。未来研究的一个主题可能是在 UDD-AL 数据上训练的 ML 电位与加权集成方法的接口,以获得化学反应的途径和速率。

两个测试用例

研究人员通过两个测试用例证明了所提方法的价值。

首先,UDD-AL 用于甘氨酸分子的构象采样。发现偏置电位技术生成了涵盖低能和高能区域的多样化数据集。

图示:UMAP 降维技术处理的甘氨酸构象空间的二维表示。(来源:论文)

在甘氨酸测试用例中,因为所有模型都使用相同的超参数,所以如果进行单独的超参数搜索,每个模型都有可能表现得更好。涵盖更广泛化学空间的数据集可能需要更多可学习的参数才能足够灵活,以适应它们正在接受训练的有效更大的自由度。这将是未来研究的课题。

接下来,研究人员进一步研究了 UDD 的性能和可转移性,用于对较大分子(乙酰丙酮烯醇互变异构体)中的反应途径进行采样。在这里,没有使用 AL 技术,而是使用一组预训练的 ANI-1x 原子间势,它们没有接受过键断裂反应的训练,并分析了 UDD 和 MD 模拟的轨迹。

图示:乙酰丙酮中的集合不确定性和 UDD。(来源:论文)

研究发现,在低温条件下使用乙酰丙酮进行的测试中,观察到偏置电位以鼓励对与质子转移相关的相空间进行采样。发现与常规高温 MD 相比,偏置电位技术鼓励反应过渡,对系统中其他自由度的分布几乎没有失真。

UDD-AL 的意义与局限

结果表明,基于不确定性的偏置电位是一种很有前途的技术,可用于对罕见事件进行采样,同时相对「忠实」于物理平衡分布。UDD 在使用偏置电位方面类似于元动力学。然而,与元动力学相比,UDD 的一个显著优势是 UDD 避免了手动选择 CV 或识别吸引力区域的需要,这需要大量的领域专业知识和反复试验。在某种程度上,它为 AL 的目的定义了最佳 CV:训练更通用和更强大的 ML 潜力。

UDD-AL 的主要限制是该方法需要选择两个参数:偏置幅度和宽度。在该研究中,这些参数是依赖于上下文的,并根据感兴趣的势垒的高度和偏差/真实原子间力的比率来选择的。然而,开发一种可以通过算法调整这些的方法将是一项富有成效的未来活动。

当使用线性偏置函数而不是指数函数时,也许这个问题可以简化为只选择一个参数——偏置幅度。此外,用于自动选择不确定性标准的算法可以提高采样效率。

论文链接:https://www.nature.com/articles/s43588-023-00406-5


相关文章
|
6月前
|
自然语言处理 测试技术 计算机视觉
ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
98 2
|
2月前
|
机器学习/深度学习
数百万晶体数据训练、解决晶体学相位问题,深度学习方法PhAI登Science
【9月更文挑战第5天】近期,《科学》杂志报道了一项名为PhAI的深度学习技术,在晶体学相位问题上取得重要突破。相位问题旨在确定晶体中分子或原子的位置与方向,对理解其物理化学特性至关重要。PhAI通过数百万晶体数据训练,能高效准确地解决这一难题,有望大幅提升研究效率,加速新材料和药物的设计。但其准确性及对未知结构处理能力仍面临挑战。论文详情参见:https://www.science.org/doi/10.1126/science.adn2777。
40 1
|
4月前
|
机器学习/深度学习 数据采集 搜索推荐
打开黑盒神经网络!港大推出全新会说话的推荐系统大模型XRec,从黑盒预测到可解释
【7月更文挑战第2天】港大研发XRec模型,将可解释性引入推荐系统。XRec结合大型语言模型的语义理解与协同过滤,生成推荐的文本解释,提升透明度。该模型无关设计允许与各类推荐系统配合,增强用户体验。然而,计算资源需求高、数据质量和用户理解能力可能影响其效果。[查看论文](https://arxiv.org/pdf/2406.02377)**
68 11
|
6月前
|
机器学习/深度学习
药物分子设计新策略,微软条件扩散模型DiffLinker登Nature子刊
【5月更文挑战第5天】微软研究院在Nature子刊发表新成果,提出药物分子设计模型DiffLinker。该深度学习模型利用扩散过程生成具有特定化学性质的分子结构,优化药物效能。DiffLinker能加速设计过程,提高效率,但需大量数据训练,且生成结果可能受数据偏差影响。[[1](https://www.nature.com/articles/s42256-024-00815-9)]
64 2
|
编解码 计算机视觉
在网格化数据集上轻松执行 2D 高通、低通、带通或带阻滤波器研究(Matlab代码实现)
在网格化数据集上轻松执行 2D 高通、低通、带通或带阻滤波器研究(Matlab代码实现)
125 0
|
算法 测试技术
【语音处理】基于加权压力匹配方法(WPMM)的私人声音系统研究(Matlab代码实现)
【语音处理】基于加权压力匹配方法(WPMM)的私人声音系统研究(Matlab代码实现)
|
机器学习/深度学习 算法 机器人
PETS:伯克利大神Sergey Levine指导的概率集成轨迹采样算法
PETS:伯克利大神Sergey Levine指导的概率集成轨迹采样算法
120 0
|
资源调度
【鲁棒、状态估计】用于电力系统动态状态估计的鲁棒迭代扩展卡尔曼滤波器研究(Matlab代码实现)
【鲁棒、状态估计】用于电力系统动态状态估计的鲁棒迭代扩展卡尔曼滤波器研究(Matlab代码实现)
|
人工智能
IJCAI 2022 | 用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块
IJCAI 2022 | 用一行代码大幅提升零样本学习方法效果,南京理工&牛津提出即插即用分类器模块
150 0
|
机器学习/深度学习 传感器 并行计算
基于量子化学计算和机器学习,从头开始创建肉眼可检测的荧光分子
基于量子化学计算和机器学习,从头开始创建肉眼可检测的荧光分子
126 0
下一篇
无影云桌面