Science | 化学合成文献数字化自动执行通用系统

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: Science | 化学合成文献数字化自动执行通用系统

今天给大家介绍格拉斯哥大学化学系S. Hessam M. Mehr等人在Science上发表的文章“A universal system for digitization and automatic execution of the chemical synthesis literature”。进行已知反应的典型化学家将从发现已发表论文中描述的方法开始。Mehr等报告了一个软件平台,该平台使用自然语言处理将有机化学文献直接翻译为可编辑的代码,然后可以对其进行编译以驱动化合物在实验室中的自动合成。该合成程序旨在普遍适用于以批处理反应体系结构运行的机器人系统。已证明了用于合成止痛药以及常见氧化剂和氟化剂的完整工艺。


image.png

image.png

合成化学仍然是劳动密集型的,一些协议存在错误或模糊性。近来,分子的机器人合成发展迅速,但新的发展仅限于特定的反应类型,缺乏一种通用的化学合成文献自动编码和验证的方法,这意味着自动化目前只是将精力从手工劳动转移到编程上。众多的机器人解决方案进一步加重了负担,这些解决方案缺乏通用的标准架构。我们需要的是一个抽象的,不仅能实现文献,还能适应新的合成方法,按照一个标准,保证硬件系统之间的互操作性。目前,新的化合物合成的记录和后续报告的标准差异很大,程序往往只能以不完整和含糊不清的散文形式提供,依靠专家来填补任何空白。这意味着许多反应数据库中存储的数据质量差异很大,给重复性带来了许多问题,同时也阻碍了可靠的数字方法的发展,无法预测反应性、新结构和功能。这些限制也阻碍了化学的实际数字化,即开发能够运行反应和制造分子的自动化系统,因为缺乏将反应依赖性与标准硬件控制和规范联系起来的标准,以及记录合成程序的机器可读标准。


阻碍化学数字化的一个关键因素是缺乏一种通用的化学编程语言,尽管最近化学自动化平台大量涌现。例如,研究人员最近开发了Chemputer,这是一个可编程模块系统,其硬件能够执行化学合成的基本过程。Chemputer能够实现批量合成程序的自动化,但仅限于执行一组专门的低级硬件指令,而且没有提供统一的开发环境或通用的硬件接口或规范,使代码能够在其他系统上运行。因此,以前的自动合成需要将合成程序手动翻译成这些低级指令,既费力又容易出错,这就排除了向其他平台移植的可能性,而且需要编程的专业技术以及系统的机器人操作的详细知识。这样的实现展示了硬件的能力,但并不是一种合适或可持续的化学合成自动化方式。缺少一种通用的化学编程语言,远非仅限于Chemputer,而是有可能破坏新生的自动合成生态系统的可行性。来自不同公司或研究小组的自动化平台都有定制的指令集,它们之间或与文献之间没有明显的语义联系。这种断裂的联系阻碍了化学的数字化。庞大的合成知识库如今无法由机器人直接执行。为了解决这个问题,研究人员设想一个新的架构必须依赖于硬件独立的指令,用标准的化学语言来表示,可以表达几乎任何分子的合成(Fig. 1A)。

image.png

无论是由化学家手动进行,还是由机器人自动进行,批量合成程序的执行都遵循着一套固定的步骤,传统工作流程中的手动操作与数字工作流程中的自动操作有相似之处(Fig. 1B)

image.png

比较两种工作流程,可以发现实现数字工作流程的必要步骤。这些步骤都是在程序中的动作的中间表示上操作或参考。为了使用一个有足够能力的批量合成机器人来实现化学的普遍数字化,因此研究人员假设机器人的硬件抽象必须通过一个可执行的连接到实际合成硬件无关的化学编程语言。这种面向特定领域的通用化学标记语言使人们能够将通常报道的方法指令映射到硬件无关的化学指令。此外,这种语言与实验室批量合成之间的语义联系,使实验室合成程序的机器人执行无需人工调整或修改。因此,指令可以在两者之间进行翻译,而不会损失信息,因为不再需要跨越化学和机器人操作之间的巨大语义鸿沟。


在此,研究人员提出了一种通过使化学文献直接在自动合成平台上执行来实现化学数字化的系统。为了实现该系统需要一种语言,用这种语言可以通过使用与文献中类似的词汇简洁地表达合成程序,并在任何兼容的机器人平台上执行。为此,研究人员设计了一种化学编程语言和相关的可视化开发环境,使用户能够毫不含糊地对程序进行编码,并使用标准格式进行交换。研究人员的化学描述语言XDL,通过将合成过程表示为发生在抽象容器中的过程序列,并以无处不在的XML格式为基础,来实现这一目标。然后,研究人员的化学开发环境检查这种表示,并确定哪些硬件组件是在虚拟机上执行它所必需的,产生能够运行该程序的平台规格。给定一个具有所需硬件模块的机器人平台,符合标准架构,程序的通用XDL描述被编译成一个特定于平台的可执行文件,并在目标硬件上运行,以进行自动合成(Fig. 2)。

image.png

合成程序一旦用研究人员的标准化学编程语言写成,就提供了一种通用的、与硬件无关的化学合成数字化的方法。然而,还必须有一种方法,在不需要编程知识或重复劳动的情况下,轻松地将用自然语言编写的合成程序转换为代码,同时利用合成化学家的专业知识。为此,研究人员的系统包括一个化学综合开发环境(ChemIDE),该环境使用一种名为SynthReader的自然语言处理(NLP)算法方便导入文献程序。在此背景下,其他小组最近将基于NLP的文本挖掘应用于化学合成文本的非结构化数据,以提取有机和无机反应的合成作用。这一点已通过使用模式匹配技术和机器学习得到证明。


尽管这些方法对于挖掘庞大的文献数据集是有用的,但研究人员需要一个系统能够输出一个具有足够过程细节的机器可读的过程表示,以便在自动化平台上明确地执行该过程。这不仅仅是简单的标记文献程序中发现的化学实体,因为它还需要对整个程序中不同试剂的位置进行结构化声明,推断隐含的过程细节,如相分离和回流温度,以及一个开发环境,让化学专家可以毫不含糊地编辑输出。SynthReader通过对文本进行相关实体的标记,将标记的文本转换为操作列表,然后添加隐含的过程信息和具体的试剂位置,并以XDL格式输出过程,其中包含所有必要的信息,以便在自动化平台上明确地执行过程。研究人员通过实验证明了这种方法的有效性,利用SynthReader将文献合成转换为XDL,并通过执行生成的XDL合成目标分子。


系统的设计与实施


研究人员系统观察的关键是,任何合成步骤都是由一系列相连的过程(添加、加热、过滤等)组成的。基于这一观察,研究人员的系统集成了以下组件,以实现从文献中提取的自动合成。(i)一个标记语言,能够表示这些提取的化学过程,并将它们组合在一个上下文中,在这个上下文中,它们可以作为一个化学合成来执行;(ii)一个IDE,允许非程序员轻松地编辑这个化学合成的表示;(iii)一个工具,能够自动地将现有的程序导入IDE,直接从文献中导入;(iv)一个虚拟机,能够将这些化学过程转化为基本操作,可以直接在一个给定的自动化平台上执行。

image.png

创建XDL标记语言是为了以一种强大的,机器可读的方式描述化学合成。在XDL中将化学合成表示为一系列离散操作是SynthReader,ChemIDE和虚拟机以及执行该合成所需的物理硬件操作之间的桥梁。


由于大多数合成化学家在编程方面没有经验,研究人员创建了ChemIDE提供了可视的用户界面,可以在其中使用自然语言来编辑化学代码。可以使用SynthReader NLP算法将现有文献程序导入此环境,然后由用户检查和增强,然后再编译为由虚拟机在特定硬件目标上执行。


XDL的内部基于XML的表示形式将过程信息从步骤传播到子步骤。


虚拟机中的多步骤过程将化学合成步骤映射到目标平台内的相关硬件模块,并递归扩展每个步骤,直到将其简化为硬件可以理解的基本硬件操作为止。


系统的实验验证


研究人员已经使用我们的方法在Chemputer上自动执行12个文献程序,而无需进行任何其他编程或硬件更改。为了举例说明该过程,研究人员将在此处详细介绍三种化合物的合成:利多卡因,Dess-Martin高碘烷(DMP)和AlkylFluor。利多卡因用作局部麻醉剂,用于治疗心律不齐和癫痫。参考的有关利多卡因合成的文献方法描述了一个简单的两步过程,涉及形成α-氯酰胺中间体及其随后与二乙胺的亲核取代反应。这些步骤以直接的方式映射到所示的流程图。研究人员将未经修饰的利多卡因合成程序喂入系统以在Chemputer上运行。

image.png

总结


总而言之,研究人员为实现合成化学各个方面(从文本到分子)自动化的目标迈出了重要的一步,并引入了允许化学合成数字化的抽象概念。尽管在没有人工干预的情况下仍无法使用研究人员的系统转换所有文献,但ChemIDE允许用户通过轻松检查原始文本并确认翻译成处理步骤来纠正错误。将来,研究人员将使用化学自动校正功能自动执行此验证步骤。SynthReader的NLP功能可与当前技术水平相媲美,并且由于设计具有确定性,因此可以通过新规则轻松进行扩充。来自分析仪器的实时反馈可用于确认过程是否如XDL所述进行,从而使系统具有自适应性和容错性。此外,可以将IDE与其他NLP引擎或硬件编译目标接口,从而进一步增加了将研究人员的系统与任何化学机器人和更广泛的文献进行接口的可能性。



目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 安全
大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献
TeleAI 团队发布了一篇关于大模型驱动的具身智能综述文章,系统回顾了该领域的研究进展与挑战,涵盖了300篇相关文献。具身智能通过将智能体与现实环境结合,提升了其感知、决策及执行能力。大模型的应用不仅增强了智能体的学习与适应能力,还提高了其泛化性和鲁棒性。然而,计算复杂度、可解释性及安全性等问题仍需解决。代表性工作包括智能机器人导航和无人机自主飞行等。论文地址:https://www.sciengine.com/SSI/doi/10.1360/SSI-2024-0076
61 4
|
5月前
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
机器学习/深度学习 存储 人工智能
人工智能平台PAI产品使用合集之如何通过通用文本标记解决方案文档与PAI机器学习平台一起使用
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI产品使用合集之创建特征视图时遇到报错,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI产品使用合集之机器学习PAI可以通过再建一个done分区或者使用instance.status来进行部署吗
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI 操作报错合集之在PAI-DSW(平台上的AI数据科学工作站)上尝试修改实例名时,收到"实例不存在"的错误信息如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
241 0
|
传感器 监控 自动驾驶
Paper:自动驾驶领域SAE标准之《道路机动车辆驾驶自动化系统相关术语的分类和定义》官方英文原文翻译与解读(一)
Paper:自动驾驶领域SAE标准之《道路机动车辆驾驶自动化系统相关术语的分类和定义》官方英文原文翻译与解读(一)
Paper:自动驾驶领域SAE标准之《道路机动车辆驾驶自动化系统相关术语的分类和定义》官方英文原文翻译与解读(一)
Science | COVID-19大流行期间,研究重点应放在高质量研究
Science | COVID-19大流行期间,研究重点应放在高质量研究
120 0
Science | COVID-19大流行期间,研究重点应放在高质量研究