机器学习模型以出色的精度进行有机反应机理分类

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 机器学习模型以出色的精度进行有机反应机理分类


化学反应的发现不仅受到获得实验数据的速度的影响,还受到化学家理解这些数据的难易程度的影响。揭示新的催化反应的机理基础是一个特别复杂的问题,通常需要计算和物理有机化学的专业知识。然而,研究催化反应很重要,因为它们代表了最有效的化学过程。

近日,来自英国曼彻斯特大学(UoM)化学系的 Burés 和 Larrosa 报告了一种机器学习模型,展示了可以训练深度神经网络模型来分析普通动力学数据并自动阐明相应的机理类别,而无需任何额外的用户输入。该模型以出色的精度识别各种类型的机理。

研究结果表明,人工智能引导的机理分类是一种强大的新工具,可以简化和自动化机理阐明。预计这项工作将进一步推动全自动有机反应发现和开发的发展。

该研究以「Organic reaction mechanism classification using machine learning」为题,于 2023 年 1 月 25 日发布在《Nature》上。

论文链接:https://www.nature.com/articles/s41586-022-05639-4

化学反应机理的传统阐明方式

确定将底物转化为产品所涉及的基本步骤的确切顺序,对于合理改进合成方法、设计新催化剂和安全扩大工业过程至关重要。为了阐明反应机理,需要收集多个动力学曲线,人类专家必须对数据进行动力学分析。尽管反应监测技术在过去几十年中有了显著改进,以至于动力学数据收集可以完全自动化,但机理阐明的基础理论框架并没有以同样的速度发展。

当前的动力学分析流程包括三个主要步骤:从实验数据中提取动力学特性,预测所有可能机理的动力学特性,以及将实验提取的特性与预测的特性进行比较。

一个多世纪以来,化学家们一直在从反应速率中提取机理信息。今天仍在使用的一种方法是评估反应的初始速率,重点关注最初百分之几的起始物质的消耗。这种方法很受欢迎,因为在大多数情况下,反应物浓度随时间的变化在反应开始时是线性的,因此分析起来很简单。虽然很有见解,但这种技术忽略了在大部分时间过程中发生的反应速率和浓度的变化。

在过去的几十年里,已经发展出了更先进的方法来评估整个反应过程中反应组分的浓度。数学技术进一步促进了这些方法,这些技术从反应动力学图中揭示了参与一个反应步骤的组分的数量(也称为反应组分的顺序)。这些技术肯定会继续为化学反应性提供深刻的见解,但它们局限于分析反应组分的顺序,而不是提供一个更全面的机理假设来描述催化系统的动力学行为。

图 1:动力学分析的相关性和最新技术。(来源:论文)

AI 改变动力学分析领域

机器学习正在彻底改变化学家解决问题的方式,从设计分子和路线到合成分子,再到理解反应机理。Burés 和 Larrosa 现在通过机器学习模型,根据模拟的反应动力学特征对反应进行分类,为动力学分析带来了这场革命。

在这里,研究人员证明了一个基于模拟动力学数据训练的深度学习模型能够正确地阐明来自时间浓度分布的各种机理。机器学习模型消除了速率定律推导和动力学性质提取和预测的需要,从而简化了动力学分析,极大地促进了所有合成实验室对反应机理的阐明。

由于对所有可用动力学数据进行了整体分析,该方法提高了询问反应曲线的能力,消除了动力学分析过程中潜在的人为错误,并扩大了可分析的动力学范围,包括非稳态(包括活化和失活过程)和可逆反应。这种方法将是对目前可用的动力学分析方法的补充,并将在最具挑战性的情况下特别有用。

具体研究

研究人员定义了 20 类反应机理,并为每一类制定了速率定律。每种机理都由一组动力学常数(k1, … kn) 和化学物质浓度的常微分方程(ODE)函数进行数学描述。然后,他们求解了这些方程式,生成了数百万个描述反应物衰变和产物生成的模拟。这些模拟动力学数据用于训练学习算法以识别每个机理类别的特征签名。生成的分类模型使用动力学曲线作为输入,包括初始和时间浓度数据,并输出反应的机理类别。

图 2:机理范围和数据构成。(来源:论文)

深度学习模型的训练通常需要大量数据,当必须通过实验收集这些数据时,这可能会带来相当大的挑战。

Burés 和 Larrosa 训练算法的方法避免了产生大量实验动力学数据的瓶颈。在案例中,研究人员能够通过数值求解 ODE 集来生成 500 万个动力学样本用于模型的训练和验证,而无需使用稳态近似。

模型包含 576,000 个可训练参数,并结合使用两种类型的神经网络:(1) 长短期记忆神经网络,一种用于处理时间数据序列(即时间浓度数据)的循环神经网络;(2) 全连接神经网络,用于处理非时间数据(即每次动力学运行中催化剂的初始浓度和长短期记忆提取的特征)。该模型输出每种机理的概率,概率总和等于 1。

研究人员使用模拟动力学曲线的测试集评估了训练模型,并证明它正确地将这些曲线分配给机理类,准确率为 92.6%。

图 3:机器学习模型在测试集上的性能,每个动力学曲线有六个时间点。(来源:论文)

即使有意引入「嘈杂」数据,该模型也表现良好,这意味着它可用于对实验数据进行分类。

图 4:误差和数据点数量对机器学习模型性能的影响。(来源:论文)

最后,研究人员使用先前报道的几个实验动力学曲线对他们的模型进行了基准测试。预测的机理与早期动力学研究的结论非常吻合。在某些情况下,该模型还识别了在原始工作中没有检测到的机理细节。对于一个具有挑战性的反应,该模型提出了三个非常相似的机理类别。然而,作者正确地说,这个结果不是一个错误,而是他们模型的一个特征,因为它表明需要进一步的具体实验来探索机理。

图 5:具有实验动力学数据的案例研究。(来源:论文)

总之,Burés 和 Larrosa 开发了一种方法,不仅可以自动执行从动力学研究中推导出机理假设的漫长过程,还可以对具有挑战性的反应机理进行动力学分析。与数据分析中的任何技术进步一样,由此产生的机理分类应被视为需要进一步实验支持的假设。误解动力学数据的风险始终存在,但该算法能够在少量实验的基础上以高精度识别正确的反应路径,可以说服更多研究人员尝试动力学分析。

因此,这种方法可以普及和推动动力学分析纳入反应开发流程,尤其是当化学家对机器学习算法越来越熟悉时。

参考内容:https://www.nature.com/articles/d41586-023-00145-7


目录
打赏
0
0
0
0
367
分享
相关文章
多元线性回归:机器学习中的经典模型探讨
多元线性回归是统计学和机器学习中广泛应用的回归分析方法,通过分析多个自变量与因变量之间的关系,帮助理解和预测数据行为。本文深入探讨其理论背景、数学原理、模型构建及实际应用,涵盖房价预测、销售预测和医疗研究等领域。文章还讨论了多重共线性、过拟合等挑战,并展望了未来发展方向,如模型压缩与高效推理、跨模态学习和自监督学习。通过理解这些内容,读者可以更好地运用多元线性回归解决实际问题。
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
1月前
如何看PAI产品下训练(train)模型任务的费用细节
PAI产品下训练(train)模型任务的费用细节
85 6
FastAPI + ONNX 部署机器学习模型最佳实践
本文介绍了如何结合FastAPI和ONNX实现机器学习模型的高效部署。面对模型兼容性、性能瓶颈、服务稳定性和安全性等挑战,FastAPI与ONNX提供了高性能、易于开发维护、跨框架支持和活跃社区的优势。通过将模型转换为ONNX格式、构建FastAPI应用、进行性能优化及考虑安全性,可以简化部署流程,提升推理性能,确保服务的可靠性与安全性。最后,以手写数字识别模型为例,展示了完整的部署过程,帮助读者更好地理解和应用这些技术。
96 20
云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践
本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
102 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
275 13
机器学习算法的优化与改进:提升模型性能的策略与方法
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
74 12
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

热门文章

最新文章

相关产品

  • 人工智能平台 PAI
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等