表现优于 GPT-4,ChemCrow 集成 13 种化学工具,增强大型语言模型的化学性能

简介: 表现优于 GPT-4,ChemCrow 集成 13 种化学工具,增强大型语言模型的化学性能




编辑 | 紫罗最近,大型语言模型 (LLM) 在各种跨领域任务中表现出强大的性能,但在处理化学相关的问题上却举步维艰。此外,LLM 缺乏外部知识来源,限制了其在科学研究中的应用。来自洛桑联邦理工学院(EPFL)和罗切斯特大学的研究人员开发了 ChemCrow,一种 LLM 化学智能体,旨在完成有机合成、药物发现和材料设计等各种任务。通过集成 13 种专家设计的工具,ChemCrow 增强了 LLM 在化学方面的表现,并出现了新的功能。该研究通过 LLM 和专家人工评估,证明了 ChemCrow 在自动化各种化学任务方面的有效性。令人惊讶的是,作为评估器的 GPT-4 无法区分明显错误的 GPT-4 completions 和 GPT-4 + ChemCrow 性能。该研究以「ChemCrow: Augmenting large-language models with chemistry tools」为题,于 2023 年 4 月 11 日发布在 arXiv 预印上。在过去几年中,LLM 通过自动化自然语言任务改变了各个领域。然而,LLM 往往难以完成看似简单的任务,例如基础数学和化学操作。AI 已用于化学研究,例如反应预测、逆合成规划、分子特性预测、从头分子生成、材料设计以及最近的贝叶斯优化等。然而,与其他领域相比,化学领域实现的自动化水平仍然相对较低,这主要是由于其高度实验性和偶尔的手工性质,以及计算工具的范围和适用性有限,即使在指定领域内也是如此。受 LLM 在其他领域成功应用的启发,研究人员提出一个 LLM 驱动的化学引擎 ChemCrow,旨在简化药物、材料设计和合成等领域中各种常见化学任务的推理过程。ChemCrow 整合 13 种专家设计的化学工具,并通过提示 LLM(GPT-4) 提供有关任务和所需格式的具体说明来操作。

图 1:ChemCrow 的工具集。(来源:论文)

使用各种与化学相关的软件包和软件,创建了一套工具。然后将这些工具和用户提示提供给 LLM。LLM 然后通过一个自动的、迭代的思维链过程,在得出最终答案之前决定它的路径、工具的选择和输入。

图 2:ChemCrow 流程概述。(来源:论文)

ChemCrow 充当专家化学家的助手,同时通过提供一个简单的界面来获取准确的化学知识,从而降低非专家的进入门槛。研究人员分析了 ChemCrow 在 12 个用例上的功能,包括合成目标分子、安全控制以及搜索具有相似作用模式的分子。结果表明,ChemCrow 大大优于普通的 LLM,尤其是在更复杂的任务上。GPT-4 未能系统地给出事实准确的信息(平均得分为 4.79,而 ChemCrow 为 9.25),示例中的大多数错误要么给出了错误的分子名称或 SMILES,要么预测了错误的反应。在完成分数上,GPT-4 的表现略好于 fact 分数 (6.87),但仍远低于 ChemCrow 的水平 (9.62),显示出 ChemCrow 在解决化学任务方面的有效性。

图 3:得分结果。(来源:论文)

下图给出了一个示例,模型的任务是提出药物阿托伐他汀(Atorvastatin)的合成计划,包括步骤、成分列表、成本和供应商。

图 4:阿托伐他汀的合成计划(Task 1)。(来源:论文)

GPT-4 对阿托伐他汀的合成过程总体上是错误的,因为它不会产生最终产品。从这个意义上说,ChemCrow 在人类评估中排名很高,而 GPT-4 得分较低。然而,值得注意的是,GPT-4 提出的总体计划似乎从早期阶段就解决了 β,δ-二羟基酸的合成问题。虽然 GPT-4 未能解释如何合成叔丁酯,但似乎表明这是羧酸的前体,它在合成的最后一步水解为羧酸,与 ChemCrow 的提议类似(IBM 的 RXN4Chemistry)。另一方面,ChemCrow 的结果受到所提供工具质量的限制。可以通过优化底层合成引擎来改进。

图 5:GPT-4 的人类分析(左)和 ChemCrow(右)对 Task 1 的回答。(来源:论文)

然而,要强调的是,对于缺乏评估结果的化学推理或适当的实验室培训的非专家来说,可能会出现潜在的风险,因为进行实验仍然需要全面的实验室经验。研究人员指出,滥用 ChemCrow 等工具的风险很大。而正确使用 ChemCrow 工作,不仅有助于专业化学家,降低非专业人士的门槛,而且通过弥合实验化学和计算化学之间的差距来促进科学进步。

论文链接:https://doi.org/10.48550/arXiv.2304.05376

参考内容:https://twitter.com/andrewwhite01/status/1645945791540854785

相关文章
|
4月前
|
jenkins Java 持续交付
【项目集成工具】Jenkins
【项目集成工具】Jenkins
|
1月前
|
缓存 Linux iOS开发
【C/C++ 集成内存调试、内存泄漏检测和性能分析的工具 Valgrind 】Linux 下 Valgrind 工具的全面使用指南
【C/C++ 集成内存调试、内存泄漏检测和性能分析的工具 Valgrind 】Linux 下 Valgrind 工具的全面使用指南
66 1
|
2月前
|
弹性计算 前端开发 Java
通义千问API:让大模型写代码和跑代码
基于前面三章的铺垫,本章我们将展示大模型Agent的强大能力。我们不仅要实现让大模型同时使用多种查询工具,还要实现让大模型能查询天气情况,最后让大模型自己写代码来查询天气情况。
59708 448
通义千问API:让大模型写代码和跑代码
|
2月前
|
监控 测试技术 API
自动化测试工具与电脑桌面监控软件的集成:Selenium与Python的无缝整合
在当今数字化时代,软件质量保证是每个软件开发团队都必须面对的重要挑战之一。自动化测试工具和电脑桌面监控软件的结合,为开发团队提供了一种有效的方式来确保软件的稳定性和性能。本文将介绍如何利用Python编程语言中的Selenium库,与桌面监控软件进行无缝整合,以实现对应用程序的自动化测试和桌面监控。
201 5
|
6月前
|
Web App开发 搜索推荐 NoSQL
如何搭建一个集成导航与在线工具的个性化浏览器私有书签(附详细搭建教程)
在这个信息爆炸的时代,我们都希望拥有一个能够轻松解决多端、多浏览器的收藏和笔记同步问题的神奇工具。Mtab书签正是为此而设计的顶级应用。它将基础导航、记事本、在线小工具和多端同步集于一身,为用户提供了更便利的网络浏览体验,并解决了多端同步的烦恼。
170 0
如何搭建一个集成导航与在线工具的个性化浏览器私有书签(附详细搭建教程)
|
2月前
|
小程序 物联网 API
社区每周丨API 集成工具文档更新及开发者日上海站即将举行(6.19-6.23)
社区每周丨API 集成工具文档更新及开发者日上海站即将举行(6.19-6.23)
35 0
|
2月前
|
小程序 IDE 定位技术
【社区每周】小程序支持预拉取地理位置;验收工具组件集成至“商家券”等产品文档(11月第五期)
【社区每周】小程序支持预拉取地理位置;验收工具组件集成至“商家券”等产品文档(11月第五期)
37 0
|
2月前
|
移动开发 小程序 数据管理
9月开发者日回顾|小程序跳转接口等多个JSAPI更新,能力集成提供场景化排查工具
9月开发者日回顾|小程序跳转接口等多个JSAPI更新,能力集成提供场景化排查工具
27 0
|
7月前
|
人工智能 API Docker
智能文档检索和简便集成的开源 AI 问答工具:Danswer
当你使用 Danswer 时,只需以自然的方式提出问题,就像与朋友交谈一样简单,它会自动搜索公司内部的文件和资料,然后给你一个可靠的答案,并附上来源。
|
3月前
|
数据采集 缓存 JavaScript
Python神器!WEB自动化测试集成工具 DrissionPage
Python神器!WEB自动化测试集成工具 DrissionPage
96 0