表现优于 GPT-4,ChemCrow 集成 13 种化学工具,增强大型语言模型的化学性能

简介: 表现优于 GPT-4,ChemCrow 集成 13 种化学工具,增强大型语言模型的化学性能




编辑 | 紫罗最近,大型语言模型 (LLM) 在各种跨领域任务中表现出强大的性能,但在处理化学相关的问题上却举步维艰。此外,LLM 缺乏外部知识来源,限制了其在科学研究中的应用。来自洛桑联邦理工学院(EPFL)和罗切斯特大学的研究人员开发了 ChemCrow,一种 LLM 化学智能体,旨在完成有机合成、药物发现和材料设计等各种任务。通过集成 13 种专家设计的工具,ChemCrow 增强了 LLM 在化学方面的表现,并出现了新的功能。该研究通过 LLM 和专家人工评估,证明了 ChemCrow 在自动化各种化学任务方面的有效性。令人惊讶的是,作为评估器的 GPT-4 无法区分明显错误的 GPT-4 completions 和 GPT-4 + ChemCrow 性能。该研究以「ChemCrow: Augmenting large-language models with chemistry tools」为题,于 2023 年 4 月 11 日发布在 arXiv 预印上。在过去几年中,LLM 通过自动化自然语言任务改变了各个领域。然而,LLM 往往难以完成看似简单的任务,例如基础数学和化学操作。AI 已用于化学研究,例如反应预测、逆合成规划、分子特性预测、从头分子生成、材料设计以及最近的贝叶斯优化等。然而,与其他领域相比,化学领域实现的自动化水平仍然相对较低,这主要是由于其高度实验性和偶尔的手工性质,以及计算工具的范围和适用性有限,即使在指定领域内也是如此。受 LLM 在其他领域成功应用的启发,研究人员提出一个 LLM 驱动的化学引擎 ChemCrow,旨在简化药物、材料设计和合成等领域中各种常见化学任务的推理过程。ChemCrow 整合 13 种专家设计的化学工具,并通过提示 LLM(GPT-4) 提供有关任务和所需格式的具体说明来操作。

图 1:ChemCrow 的工具集。(来源:论文)

使用各种与化学相关的软件包和软件,创建了一套工具。然后将这些工具和用户提示提供给 LLM。LLM 然后通过一个自动的、迭代的思维链过程,在得出最终答案之前决定它的路径、工具的选择和输入。

图 2:ChemCrow 流程概述。(来源:论文)

ChemCrow 充当专家化学家的助手,同时通过提供一个简单的界面来获取准确的化学知识,从而降低非专家的进入门槛。研究人员分析了 ChemCrow 在 12 个用例上的功能,包括合成目标分子、安全控制以及搜索具有相似作用模式的分子。结果表明,ChemCrow 大大优于普通的 LLM,尤其是在更复杂的任务上。GPT-4 未能系统地给出事实准确的信息(平均得分为 4.79,而 ChemCrow 为 9.25),示例中的大多数错误要么给出了错误的分子名称或 SMILES,要么预测了错误的反应。在完成分数上,GPT-4 的表现略好于 fact 分数 (6.87),但仍远低于 ChemCrow 的水平 (9.62),显示出 ChemCrow 在解决化学任务方面的有效性。

图 3:得分结果。(来源:论文)

下图给出了一个示例,模型的任务是提出药物阿托伐他汀(Atorvastatin)的合成计划,包括步骤、成分列表、成本和供应商。

图 4:阿托伐他汀的合成计划(Task 1)。(来源:论文)

GPT-4 对阿托伐他汀的合成过程总体上是错误的,因为它不会产生最终产品。从这个意义上说,ChemCrow 在人类评估中排名很高,而 GPT-4 得分较低。然而,值得注意的是,GPT-4 提出的总体计划似乎从早期阶段就解决了 β,δ-二羟基酸的合成问题。虽然 GPT-4 未能解释如何合成叔丁酯,但似乎表明这是羧酸的前体,它在合成的最后一步水解为羧酸,与 ChemCrow 的提议类似(IBM 的 RXN4Chemistry)。另一方面,ChemCrow 的结果受到所提供工具质量的限制。可以通过优化底层合成引擎来改进。

图 5:GPT-4 的人类分析(左)和 ChemCrow(右)对 Task 1 的回答。(来源:论文)

然而,要强调的是,对于缺乏评估结果的化学推理或适当的实验室培训的非专家来说,可能会出现潜在的风险,因为进行实验仍然需要全面的实验室经验。研究人员指出,滥用 ChemCrow 等工具的风险很大。而正确使用 ChemCrow 工作,不仅有助于专业化学家,降低非专业人士的门槛,而且通过弥合实验化学和计算化学之间的差距来促进科学进步。

论文链接:https://doi.org/10.48550/arXiv.2304.05376

参考内容:https://twitter.com/andrewwhite01/status/1645945791540854785

相关文章
|
2月前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
851 11
|
3月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute 生态系统中的数据集成工具
【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
115 0
|
4月前
|
SQL 安全 Java
探索软件测试的多维策略:从单元到集成,再到性能与安全
在软件开发生命周期中,测试是不可或缺的一环。本文将深入探讨软件测试的多维策略,从单元测试、集成测试到性能测试和安全测试等各个层面进行剖析。我们将通过具体的统计数据和案例分析,揭示不同测试策略的优势和应用场景。文章旨在为读者提供一个全面的测试框架,帮助他们构建更稳定、高效和安全的系统。
95 2
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
16 3
|
3月前
|
自然语言处理 测试技术 计算机视觉
ECCV 2024:提升GPT-4V、Gemini检测任务性能,你需要这种提示范式
【8月更文挑战第14天】在2024年ECCV上,一篇论文介绍了DetToolChain——一种创新提示范式,旨在提升GPT-4V等多模态大型语言模型在检测任务上的表现。它利用精心设计的视觉提示引导模型关注图像的关键区域,并通过Chain-of-Thought方法将复杂任务分解为简单步骤,显著提高了零样本目标检测的准确性。实验显示,在多个基准测试上,DetToolChain带来了高达24.23%的性能提升。然而,这种方法可能需要大量计算资源,并且在不同任务和数据集上的效果仍有待验证。
171 66
|
2月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
2月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
3月前
|
小程序 开发者
微信开发者工具如何集成SVN、同时解决集成SVN无效果的问题
这篇文章介绍了如何在微信开发者工具中集成SVN版本控制系统,并提供了解决集成后无效果问题的方法。
微信开发者工具如何集成SVN、同时解决集成SVN无效果的问题
|
2月前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
2月前
|
存储 NoSQL 数据处理
组合和继承怎么集成一个性能较好的项目
组合与继承是面向对象编程的核心概念,前者通过对象间关联实现高效解耦,后者则重用代码以节省空间和内存。组合常用于现代项目,利用代理与依赖注入简化代码管理;而继承简化了子模块对父模块资源的应用,但修改会影响整体。随着分层解耦及微服务架构如SpringCloud的出现,这些技术进一步优化了数据处理效率和服务响应性能,尤其在分布式存储与高并发场景下。同步异步调用、Redis分布式应用等也广泛运用组合与继承,实现代码和内存空间的有效复用。
下一篇
无影云桌面