GPT-3 在化学与材料科学任务中的应用表现如何?

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: GPT-3 在化学与材料科学任务中的应用表现如何?



编辑 | 紫罗

机器学习在化学和材料科学的许多领域发挥着越来越重要的作用。

最近 OpenAI 的 GPT 已经更新到了 4.0,越来越多的人利用其 API,开始做系统性的测试,来试图揭秘这个语言黑箱模型。

近日,来自洛桑联邦理工学院(EPFL)的研究人员在之前 GPT-3 时代做了一系列测试。研究展示了经过从互联网上提取的大量文本训练的大型语言模型(GPT-3),只需用自然语言提示它们化学问题,就可以很容易地适应于解决化学和材料科学中的各种任务。

研究人员将 GPT-3 与专用机器学习模型进行了比较,适用于从分子和材料特性到化学反应产率的许多应用。令人惊讶的是,这种方法的性能与传统技术相当,甚至优于传统技术——尤其是在低数据限制方面。此外,通过简单地反转问题,甚至可以成功地进行逆向设计。特别是对于小数据集,结合易用性,可以对科学家如何在化学和材料科学中利用机器学习产生根本影响。

该研究以《Is GPT-3 all you need for low-data discovery in chemistry?》为题,于 2023 年 2 月 14 日发布在 Chemrxiv 预印平台。

大型语言模型应用于化学和材料科学

大型语言模型 (LLM),即所谓的基础模型,代表着 AI 领域的重大进步。这些模型因其简单而吸引人;给定任何文本提示,如短语或句子,这些模型会返回以自然语言完成短语的文本。

由于大多数化学问题都可以用文本形式表示,科学家应该能够训练 LLM 来回答化学家或材料科学家的问题。例如,如果我改变金属有机骨架中的金属,它在水中会稳定吗?或者,我的材料的带隙是多少? 这些问题通常无法用理论来回答,或者需要高度复杂的模拟或实验。

对于化学和材料科学的应用,常常只有很少的(实验)数据。因此,重要的是这种学习不需要数百万个数据点,而是可以通过数十到数百个数据点获得有意义的结果。

2020 年 5 月,人工智能公司 OpenAI 发布 GPT-3 模型,有 1750 亿个参数。在该研究中,研究人员表明 GPT-3 模型在一系列非常不同的化学问题上表现出惊人的出色表现,通常优于专门为这些任务开发的最先进的机器学习模型。

图 1:该研究中处理的数据集和任务概述。(来源:论文)

研究人员选择了一组问题:从材料的特性、如何合成材料,甚至如何设计材料,来说明 GPT-3 模型可以回答广泛的科学问题。

如何在实践中微调 GPT-3 模型

首先,研究人员讨论了如何在实践中微调 GPT-3 模型。针对高熵合金的相界面数预测的分类问题,设计对应的问题(prompt)与回答(completion)。其中回答用 0 和 1 分别代表多相与单一相。

表 1:针对高熵合金的相界面数预测的分类问题所设计的问题与答案。(来源:论文)

模型微调需要几分钟,并提供了一个新模型,与材料科学中专用型的机器学习方法相比,能够在较少的数据时取得较好的成绩,因此体现了较好的数据效率(Data Efficiency)。

研究人员还研究了分子、材料和化学反应的一系列问题。将经过微调的 GPT-3 模型的性能与基线进行了比较。

图 2:随机生成的光开关分子的分子云。(来源:论文)

对于分子,研究人员研究了从 HOMO-LUMO 间隙和水中溶解度到有机光伏性能的各种特性。对于材料,专注于合金、金属有机框架和聚合物的特性。最后,对于化学反应,研究了有机化学中的两个关键交叉偶联反应。

表 2:基于 GPT-3 的最佳性能方法与最佳性能基线的数据效率比较。(来源:论文)

研究得出,在低数据状态下,GPT-3 模型通常至少与传统的 ML 模型一样好,并且需要更少的数据。在高数据领域,传统的 ML 模型往往赶上 GPT-3 模型。

此外,作者也尝试了分子的不同表示方式:IUPAC 命名、SMILES 和 SELFIES,发现更加接近自然语言的 IUPAC 命名表现往往最好,但是其他表示方式的效果也不差。

在建立回归模型上,研究人员仍然获得了可以接近最先进的性能。

逆向设计

鉴于 GPT-3 模型可以用非常小的数据集预测分子和材料的特性,尝试逆向设计策略是很有诱惑力的。

在这里,研究人员研究了这个设置:经过微调的 GPT-3 能否提出有效的分子和材料,来满足自然语言提示中指定的约束或所需属性?

分子光开关是具有扩展芳香系统的有机分子,使它们对光有反应,并且在辐射下,它们在不同的异构体之间可逆地切换。这些光开关的重要特性之一是 E 和 Z 异构体的吸收光谱中存在最大值的波长。因此,研究人员使用 Griffiths 等人(https://doi.org/10.1039/D2SC04306H)使用的相同数据对 GPT-3 进行了微调。

对于 GPT-3,逆向设计就像训练问题和完成颠倒的模型一样简单。也就是说,回答问题:What is a photoswitch with transition wavelengths of 324.0 nm and 442 nm, respectively with text completion that should be an SMILES string that is a meaningful molecule

正如预期的那样,许多分子来自训练集(图中橙色)。重要的是,许多分子不在训练集中,有趣的是,有些分子甚至不在已知化学物质的 PubChem 数据库中。

图 3:生成的光开关和训练集的 TMAP 可视化。(来源:论文)

量化新生成的分子的新颖性很有趣。为此研究人员将这些分子与 Griffiths 等人的分子进行了比较。正如预期的那样,在 Griffiths 数据库中发现了许多分子衍生物的新结构。然而,也发现了不属于 Griffiths 等人库中不包含的分支。说明真正进行了逆向设计。

在生成以上分子时,研究人员在 GPT-3 设置中调整了所谓的 softmax 温度。

下图显示了温度参数的影响。在低温下,生成的分子通常来自训练集并且仅显示低多样性。在所有温度下,生成的分子似乎都是可合成的,正如低 SA 分数所判断的那样。升高温度会带来更多样、更新颖的结构,但人们也可以期待更多没有化学意义的结构,即无效的。

图 4:光开关逆向设计指标作为温度的函数。(来源:论文)

挑战极限

光电开关的结果说明了 GPT-3 模型在化学方面的潜力。由于这些模型只需要很少的化学知识,因此就提出了结果是否可信的问题。

为了更深入地了解为什么可以相信这些 GPT-3 预测,研究人员进行了一些试图扩大极限的实验。

在微调测试中已经看到,无论如何表示分子(IUPAC 名称、SMILES 或 SELFIES),都可以获得良好的结果,但是 GPT-3 可以解释研究者发明的分子的抽象表示吗?

Jablonka 开发了一种采用粗粒度方法设计分散剂的主动学习方法。由于 GPT-3 无法了解粗粒聚合物的性质或表示,有趣的是,如果问:粗粒分散剂AAAABBBBDDDDAAAACCCC的吸附自由能是多少?或逆向设计,给出一个自由能为 17 的粗粒分散剂的结构。是否能得到任何合理的结果?

令人惊讶的是,对于吸附自由能的预测,GPT-3 模型优于 Jablonka 等人开发的模型。此外,它还可以成功地进行逆向设计并生成单体序列,给出所需的组成,平均百分比误差约为 22%,所需的吸附自由能。这个例子阐明了 GPT-3 微调的威力。因此,可以利用 GPT-3 学到的那些材料的属性之间的所有相关性。

为了详细探索可以在多大程度上扩展可生成的新分子的极限,研究人员选择了一个已知量子计算可以足够准确地预测实验值的应用。HOMO-LUMO 间隙就是这样的应用。

研究人员通过实验来测试 GPT-3 模型在没有接受过任何训练的情况下如何外推 HOMO-LUMO 间隙。有趣的是,GPT-3 模型确实提供了一种结构分布,通过量子计算证实了其中很大一部分具有 > 4.0 eV 的 HOMO-LUMO 间隙。在训练集中,没有一个分子的带隙 > 3.5 eV,这表明 GPT-3 模型可以进行有意义的外推。

表 3:完成无效或没有任何化学意义的查询。(来源:论文)

有趣的是,研究人员的微调模型查询没有任何化学意义的问题,例如,Berend 的跃迁波长是多少?对于那些测试,模型总是生成相同的类。此外,对于逆向设计模型,经常获得相同的输出分子。GPT-3 可能会对明显无效的输入产生令人信服的幻觉答案。对于这些情况,GPT-3 的优势,即它可以从许多不同的输入中学习化学,也是它的主要弱点;它没有过滤没有任何化学意义的问题,也不能保证答案具有化学意义。

结语

正如在研究中展示的那样,使用 GPT-3 构建的机器学习系统对于化学中的各种问题都表现得非常好。与传统的机器学习相比,它有很多优点。GPT-3 可用于许多不同的应用。

另一个重要的实用点是,在研究中使用 GPT-3 模型类似于文献检索。它将使化学家能够非常有效地利用所收集的化学知识。为化学家和材料科学家等打开了许多可能性。

总之,在 GPT-3 时代,大型自然语言模型在化学问题,尤其是在低数据情况下,有着不错的表现与潜力。如今 GPT 已迭代到 4 代,就一些简单的非正式测试来看,OpenAI 的大型语言模型对于化学、材料科学、生命科学的了解更加准确与深入,有可能是在开发过程中接受了专业领域的反馈,也有可能是语料库增加了专业领域的文本。

之后期待能有各类任务的基准测试来考验一下 GPT-4 的能力,让人们进一步了解这个语言黑箱模型的原理与潜力。

相关代码:https://github.com/kjappelbaum/gptchem论文链接:https://chemrxiv.org/engage/chemrxiv/article-details/63eb5a669da0bc6b33e97a35参考内容:https://mp.weixin.qq.com/s/zPw1kYh1Fd_hB9YWc4KdEA

相关文章
|
6月前
|
机器学习/深度学习
智能体DS-Agent基于案例推理,让GPT-4数据科学任务接近100%
【4月更文挑战第20天】DS-Agent是结合案例推理(CBR)和大型语言模型的新研究,旨在提升自动化数据科学任务效率。通过自动迭代管道,它能理解任务、构建模型并优化性能。在开发阶段,成功率高达100%,部署阶段平均提高36%的一次通过率,降低成本,使开源LLMs也能高效处理数据科学任务。然而,LLMs的生成问题和资源限制仍是挑战。论文链接:https://arxiv.org/pdf/2402.17453.pdf
154 4
|
6月前
|
人工智能 自然语言处理 测试技术
使用 GPT4 和 ChatGPT 开发应用:第四章到第五章
使用 GPT4 和 ChatGPT 开发应用:第四章到第五章
170 0
|
6月前
|
自然语言处理
深入了解Prompt工程及其在GPT-3中的应用
深入了解Prompt工程及其在GPT-3中的应用
108 0
|
机器学习/深度学习 运维 数据可视化
chat GPT在常用的数据分析方法中的应用
ChatGPT在常用的数据分析方法中有多种应用,包括描述统计分析、探索性数据分析、假设检验、回归分析和聚类分析等。下面将详细介绍ChatGPT在这些数据分析方法中的应用。 1. 描述统计分析: 描述统计分析是对数据进行总结和描述的方法,包括计算中心趋势、离散程度和分布形状等指标。ChatGPT可以帮助你理解和计算这些描述统计指标。你可以向ChatGPT询问如何计算平均值、中位数、标准差和百分位数等指标,它可以给出相应的公式和计算方法。此外,ChatGPT还可以为你提供绘制直方图、箱线图和散点图等图表的方法,帮助你可视化数据的分布和特征。 2. 探索性数据分析: 探索性数据分析是对数据进行探
254 0
|
1月前
|
SQL 数据采集 自然语言处理
NL2SQL之DB-GPT-Hub<详解篇>:text2sql任务的微调框架和基准对比
NL2SQL之DB-GPT-Hub<详解篇>:text2sql任务的微调框架和基准对比
|
1月前
|
数据采集 人工智能 安全
超越文本,GPT-4在虹膜生物识别的创新应用
在人工智能领域,研究人员利用GPT-4多模态大语言模型探索了其在虹膜识别中的潜力,采用零样本学习方法,通过多种实验展示了GPT-4在复杂条件下的出色适应性和精确性,甚至能检测化妆对虹膜识别的影响。相较于谷歌的Gemini Advanced,GPT-4在用户体验和性能上更胜一筹。尽管存在局限性,这项研究为生物识别安全解决方案提供了新方向,结合LLM与专业生物识别技术,有望实现更高效、鲁棒的应用。论文详情见:https://arxiv.org/abs/2408.04868。
109 60
|
3月前
|
自然语言处理 搜索推荐 API
GPT-4o mini:探索最具成本效益的语言模型及其在开发中的应用
【8月更文第5天】随着自然语言处理技术的快速发展,语言模型正变得越来越强大且易于访问。OpenAI 最新发布的 GPT-4o mini 模型以其卓越的性能和极具竞争力的价格,迅速成为了业界关注的焦点。作为开发者,您是否已经开始探索这个“迄今为止最具成本效益的小模型”?本文旨在鼓励开发者分享使用 GPT-4o mini 及其他大型语言模型的经验,并探讨如何有效地利用这些工具来提升开发效率和创新能力。
161 0
|
3月前
|
自然语言处理 测试技术 计算机视觉
ECCV 2024:提升GPT-4V、Gemini检测任务性能,你需要这种提示范式
【8月更文挑战第14天】在2024年ECCV上,一篇论文介绍了DetToolChain——一种创新提示范式,旨在提升GPT-4V等多模态大型语言模型在检测任务上的表现。它利用精心设计的视觉提示引导模型关注图像的关键区域,并通过Chain-of-Thought方法将复杂任务分解为简单步骤,显著提高了零样本目标检测的准确性。实验显示,在多个基准测试上,DetToolChain带来了高达24.23%的性能提升。然而,这种方法可能需要大量计算资源,并且在不同任务和数据集上的效果仍有待验证。
177 66
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
全新TextGrad框架:用GPT-4o作引擎,自动优化端到端任务
【7月更文挑战第15天】TextGrad框架利用GPT-4o自动优化AI系统,通过文本反馈调整组件性能,提升问答、编程任务和分子设计等领域的效果。在Proof QA中提升准确率至55%,LeetCode难题解决效率提高20%。虽依赖LLM质量且易用性有限,但展示了强大的潜力,尚处于研究阶段。[arXiv:2406.07496](https://arxiv.org/abs/2406.07496)**
72 1
|
4月前
|
自然语言处理 PyTorch API
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。

热门文章

最新文章