浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能

简介: 浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能



编辑 | 绿萝

化学反应的预测建模在药物发现和材料科学等各个行业中起着至关重要的作用。然而,由于化学转化的复杂性和多样性,实现具有所需外推能力和化学可解释性的合成转化预测模型具有挑战性。

为了弥补丰富的化学领域知识与先进的分子图模型之间的差距,来自浙江大学洪鑫课题组提出了一种嵌入数字化空间和电子信息的基于知识的分子图模型:SEMG-MIGNN。此外,还开发了分子相互作用模块,以了解反应组分的协同影响。

该研究证明了这种基于知识的图模型可以很好地预测反应产率和空间选择性,其外推能力得到了实验证实。由于局部环境的嵌入,该模型可以在原子水平上解释空间和电子对整体合成性能的影响,这为分子工程实现目标合成功能提供了有用的指导。该模型为反应性能预测提供了一种外推和可解释的方法,指出了化学知识约束反应建模对于合成目的的重要性。

该研究以「Reaction performance prediction with an extrapolative and interpretable graph model based on chemical knowledge」为题,于 2023 年 6 月 15 日发布在《Nature Communications》上。

SPR 预测

对化学的理解和对反应性和选择性的准确预测,为合理、高效地探索大规模合成空间提供了基础。结构-性能关系(Structure–performance Relationship,SPR)的建立主要集中在反应机理的研究和决定性过渡态模型的阐明。

利用过渡态模型,化学家可以阐明观察到的反应性/选择性趋势的来源,并根据化学理论和经验进行合成判断。但在没有明确的机制基础和解析方程的情况下处理高维 SPR 是一个挑战。

数据驱动的方法最近已成为 SPR 建立的强大策略。通过利用合成数据中的相互关系,现代机器学习(ML)算法可以为合成预测创建强大的模型。然而,人工合成转化的机器学习预测和设计还远未成熟。主要瓶颈之一是适合 SPR 预测的分子编码方法和 ML 框架的可用性。

除了人类指定的分子编码工程之外,化学预测领域对表征学习的兴趣也越来越大。通过表征学习的创新和应用,数据驱动的分子性质和反应性能预测取得了重大进展。

特别是在 SPR 预测方面,MIT 的 Coley 及其同事将经典的图神经网络(GNN)模型与选定的反应位点量子化学描述符相结合,开发了一种名为 QM-GNN 的融合模型。这种融合模型将特定于位点的电子信息嵌入到 ML 建模中,从而提高了对一系列转换的区域选择性和反应性的预测能力。QM-GNN 模型的成功表明,增强局部化学信息的表达可以为约束合成建模提供有价值的支持。

受 QM-GNN 模型的启发,研究人员推测可以通过丰富化学环境的局部编码和加强反应组分之间的信息相互作用来进一步改进 SPR 预测。

图 1:合成性能和分子特性的机器学习预测。(来源:论文)

基于化学知识的 ML 模型用于预测合成性能

在此,研究人员开发了一种名为「基于分子相互作用图神经网络的空间和电子嵌入分子图」(Sterics-and Electronics-embedded Molecular Graph with Molecular Interaction Graph Neural Network,SEMG-MIGNN)的基于化学知识的 ML 模型,用于预测合成性能。SEMG-MIGNN 有两个主要创新设计:首先,空间和电子效应的局部化学环境被数字化并嵌入到图表示中。这显著丰富了模型对原子环境的表征,并提高了模型对新分子结构的外推能力。此外,分子相互作用模块可以有效地学习多个反应组分的协同控制,从而使分子建模有效地扩展到 SPR 建模领域。

具体而言,该研究引入了一种称为空间和电子嵌入分子图(SEMG)的分子图模型,该模型结合了外部化学知识,以提高模型对局部化学环境的区分能力。该知识增强分子图的设计的关键是在节点中嵌入空间和电子环境的原子信息。图 2 以 1-氯-4-(三氟甲基)苯为例,展示了设计的分子图模型的生成工作流程。

图 2:SEMG 的生成工作流程。(来源:论文)

基于 SEMG 丰富的化学信息,接下来,研究人员修改了 GNN 的框架,使其适用于 SPR 预测。特别是,开发了分子相互作用模块以增强模型训练过程中反应组分之间的信息交换。与超图不同,研究人员设计的分子相互作用 GNN(MIGNN)依赖于矩阵运算来实现信息交换。

图 3:分子相互作用图神经网络(MIGNN)的框架和相互作用模块的设计。(来源:论文)

MIGNN 的交互模块为 ML 模型提供了捕捉反应组分协同效应的机会,这对传统的 SPR 预测 ML 框架具有挑战性。在 MIGNN 中,相互作用矩阵允许具有物理意义的反应组分的所有可能组合充分交换它们的编码信息,从而支持模型在反应组分交织的高维合成空间中的预测。

模型性能预测

该模型在一系列具有挑战性的任务中获得了出色的产率和空间选择性预测。

在 Pd 催化的 C-N 交叉偶联反应的产率预测和手性磷酸(CPA)催化的硫醇加成 N-酰基亚胺的对映选择性预测中发现了很好的预测。对额外的 CPA 催化剂的进一步实验测试证实了该模型在新催化剂预测中的外推能力。特别是,研究发现 SEMG-MIGNN 模型在基于支架的拆分任务中表现出卓越的外推能力,考虑到需要扩展可用 SPR 数据的领域,这对于合成预测来说是非常可取的。

图 4:SEMG-MIGNN 模型(空间和电子嵌入分子图与分子相互作用图神经网络)预测反应产率。(来源:论文)

图 5:SEMG-MIGNN 模型预测对映体选择性。(来源:论文)

除了出色的预测能力外,空间和电子效应的物理意义编码还提供了原子级的化学解释。对训练模型的分析表明,电子效应对 C-N 交叉偶联的产率预测起着至关重要的作用,而对映体选择性预测则严重依赖于空间效应。

此外,该模型能够识别分子结构的热点,用于确定合成性能,为未来的设计提供有用的见解。该模型的有效性表明,将表示学习与数字化化学知识相结合可以支持化学空间中可泛化模型的开发,为数据驱动的合成转换设计提供机会。

论文链接:https://www.nature.com/articles/s41467-023-39283-x

相关文章
|
23天前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的五大技巧
【4月更文挑战第7天】 在数据科学迅猛发展的今天,机器学习已成为解决复杂问题的重要工具。然而,构建一个既精确又高效的机器学习模型并非易事。本文将分享五种提升机器学习模型性能的有效技巧,包括数据预处理、特征工程、模型选择、超参数调优以及交叉验证。这些方法不仅能帮助初学者快速提高模型准确度,也为经验丰富的数据科学家提供了进一步提升模型性能的思路。
|
23天前
|
人工智能
一键生成视频!用 PAI-EAS 部署 AI 视频生成模型 SVD 工作流(清晰的实例)
用 PAI-EAS 部署 AI 视频生成模型 SVD 工作流(清晰的实例)
159 2
|
6天前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的最佳实践
【4月更文挑战第25天】 在数据驱动的时代,机器学习已成为创新和效率提升的关键工具。本文将探讨一系列实用的策略和技术,旨在帮助读者构建出更高效、更精确的机器学习模型。我们将从数据处理开始,讨论特征选择的重要性以及如何避免过拟合,接着深入到模型选择与优化,最后讨论模型部署和维护的实践要点。通过遵循这些最佳实践,读者能够提升其机器学习项目的成功率并实现更好的业务成果。
|
8天前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的最佳实践
【4月更文挑战第23天】在数据驱动的时代,机器学习已成为创新的核心动力。本文深入探讨了构建高效机器学习模型的关键步骤,包括数据预处理、特征工程、模型选择、训练技巧以及性能评估。通过实例分析与经验总结,旨在为从业者提供一套实用的技术指南,帮助他们在复杂数据环境中提升模型的准确性和泛化能力。
|
1天前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的策略与实践云端防御:融合云计算与网络安全的未来策略
【4月更文挑战第29天】 在数据驱动的时代,构建一个高效的机器学习模型对于解决复杂问题至关重要。本文将探讨一系列策略和最佳实践,旨在提高机器学习模型的性能和泛化能力。我们将从数据处理的重要性入手,进而讨论模型选择、训练技巧、超参数调优以及模型评估方法。通过这些策略的实施,读者将能够构建出更加健壮、准确的模型,并有效地避免过拟合和欠拟合问题。
|
2天前
|
机器学习/深度学习 存储 人工智能
人工智能平台PAI产品使用合集之是否可以在模型部署发布后以http接口形式提供给业务开发人员使用
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2天前
|
机器学习/深度学习 人工智能 NoSQL
人工智能平台PAI产品使用合集之机器学习PAI EasyRec训练时,怎么去除没有意义的辅助任务的模型,用于部署
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何配置DSSM模型负采样item表的schema
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2天前
|
机器学习/深度学习 人工智能 PyTorch
人工智能平台PAI 操作报错合集之机器学习PAI,用Triton Inference Server 22.05 部署模型,遇到SaveV3这个op的问题,如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
7天前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
33 12

热门文章

最新文章