编辑 | 紫罗
机器学习在化学和材料科学的许多领域发挥着越来越重要的作用。
最近 OpenAI 的 GPT 已经更新到了 4.0,越来越多的人利用其 API,开始做系统性的测试,来试图揭秘这个语言黑箱模型。
近日,来自洛桑联邦理工学院(EPFL)的研究人员在之前 GPT-3 时代做了一系列测试。研究展示了经过从互联网上提取的大量文本训练的大型语言模型(GPT-3),只需用自然语言提示它们化学问题,就可以很容易地适应于解决化学和材料科学中的各种任务。
研究人员将 GPT-3 与专用机器学习模型进行了比较,适用于从分子和材料特性到化学反应产率的许多应用。令人惊讶的是,这种方法的性能与传统技术相当,甚至优于传统技术——尤其是在低数据限制方面。此外,通过简单地反转问题,甚至可以成功地进行逆向设计。特别是对于小数据集,结合易用性,可以对科学家如何在化学和材料科学中利用机器学习产生根本影响。
该研究以《Is GPT-3 all you need for low-data discovery in chemistry?》为题,于 2023 年 2 月 14 日发布在 Chemrxiv 预印平台。
大型语言模型应用于化学和材料科学
大型语言模型 (LLM),即所谓的基础模型,代表着 AI 领域的重大进步。这些模型因其简单而吸引人;给定任何文本提示,如短语或句子,这些模型会返回以自然语言完成短语的文本。
由于大多数化学问题都可以用文本形式表示,科学家应该能够训练 LLM 来回答化学家或材料科学家的问题。例如,「如果我改变金属有机骨架中的金属,它在水中会稳定吗?」或者,「我的材料的带隙是多少?」 这些问题通常无法用理论来回答,或者需要高度复杂的模拟或实验。
对于化学和材料科学的应用,常常只有很少的(实验)数据。因此,重要的是这种学习不需要数百万个数据点,而是可以通过数十到数百个数据点获得有意义的结果。
2020 年 5 月,人工智能公司 OpenAI 发布 GPT-3 模型,有 1750 亿个参数。在该研究中,研究人员表明 GPT-3 模型在一系列非常不同的化学问题上表现出惊人的出色表现,通常优于专门为这些任务开发的最先进的机器学习模型。
图 1:该研究中处理的数据集和任务概述。(来源:论文)
研究人员选择了一组问题:从材料的特性、如何合成材料,甚至如何设计材料,来说明 GPT-3 模型可以回答广泛的科学问题。
如何在实践中微调 GPT-3 模型
首先,研究人员讨论了如何在实践中微调 GPT-3 模型。针对高熵合金的相界面数预测的分类问题,设计对应的「问题」(prompt)与「回答」(completion)。其中「回答」用 0 和 1 分别代表多相与单一相。
表 1:针对高熵合金的相界面数预测的分类问题所设计的问题与答案。(来源:论文)
模型微调需要几分钟,并提供了一个新模型,与材料科学中专用型的机器学习方法相比,能够在较少的数据时取得较好的成绩,因此体现了较好的数据效率(Data Efficiency)。
研究人员还研究了分子、材料和化学反应的一系列问题。将经过微调的 GPT-3 模型的性能与基线进行了比较。
图 2:随机生成的光开关分子的分子云。(来源:论文)
对于分子,研究人员研究了从 HOMO-LUMO 间隙和水中溶解度到有机光伏性能的各种特性。对于材料,专注于合金、金属有机框架和聚合物的特性。最后,对于化学反应,研究了有机化学中的两个关键交叉偶联反应。
表 2:基于 GPT-3 的最佳性能方法与最佳性能基线的数据效率比较。(来源:论文)
研究得出,在低数据状态下,GPT-3 模型通常至少与传统的 ML 模型一样好,并且需要更少的数据。在高数据领域,传统的 ML 模型往往赶上 GPT-3 模型。
此外,作者也尝试了分子的不同表示方式:IUPAC 命名、SMILES 和 SELFIES,发现更加接近自然语言的 IUPAC 命名表现往往最好,但是其他表示方式的效果也不差。
在建立回归模型上,研究人员仍然获得了可以接近最先进的性能。
逆向设计
鉴于 GPT-3 模型可以用非常小的数据集预测分子和材料的特性,尝试逆向设计策略是很有诱惑力的。
在这里,研究人员研究了这个设置:经过微调的 GPT-3 能否提出有效的分子和材料,来满足自然语言提示中指定的约束或所需属性?
分子光开关是具有扩展芳香系统的有机分子,使它们对光有反应,并且在辐射下,它们在不同的异构体之间可逆地切换。这些光开关的重要特性之一是 E 和 Z 异构体的吸收光谱中存在最大值的波长。因此,研究人员使用 Griffiths 等人(https://doi.org/10.1039/D2SC04306H)使用的相同数据对 GPT-3 进行了微调。
对于 GPT-3,逆向设计就像训练问题和完成颠倒的模型一样简单。也就是说,回答问题:「What is a photoswitch with transition wavelengths of 324.0 nm and 442 nm, respectively with text completion that should be an SMILES string that is a meaningful molecule」。
正如预期的那样,许多分子来自训练集(图中橙色)。重要的是,许多分子不在训练集中,有趣的是,有些分子甚至不在已知化学物质的 PubChem 数据库中。
图 3:生成的光开关和训练集的 TMAP 可视化。(来源:论文)
量化新生成的分子的新颖性很有趣。为此研究人员将这些分子与 Griffiths 等人的分子进行了比较。正如预期的那样,在 Griffiths 数据库中发现了许多分子衍生物的新结构。然而,也发现了不属于 Griffiths 等人库中不包含的分支。说明真正进行了逆向设计。
在生成以上分子时,研究人员在 GPT-3 设置中调整了所谓的 softmax 温度。
下图显示了温度参数的影响。在低温下,生成的分子通常来自训练集并且仅显示低多样性。在所有温度下,生成的分子似乎都是可合成的,正如低 SA 分数所判断的那样。升高温度会带来更多样、更新颖的结构,但人们也可以期待更多没有化学意义的结构,即无效的。
图 4:光开关逆向设计指标作为温度的函数。(来源:论文)
挑战极限
光电开关的结果说明了 GPT-3 模型在化学方面的潜力。由于这些模型只需要很少的化学知识,因此就提出了结果是否可信的问题。
为了更深入地了解为什么可以相信这些 GPT-3 预测,研究人员进行了一些试图扩大极限的实验。
在微调测试中已经看到,无论如何表示分子(IUPAC 名称、SMILES 或 SELFIES),都可以获得良好的结果,但是 GPT-3 可以解释研究者发明的分子的抽象表示吗?
Jablonka 开发了一种采用粗粒度方法设计分散剂的主动学习方法。由于 GPT-3 无法了解粗粒聚合物的性质或表示,有趣的是,如果问:粗粒分散剂「AAAABBBBDDDDAAAACCCC」的吸附自由能是多少?或逆向设计,给出一个自由能为 17 的粗粒分散剂的结构。是否能得到任何合理的结果?
令人惊讶的是,对于吸附自由能的预测,GPT-3 模型优于 Jablonka 等人开发的模型。此外,它还可以成功地进行逆向设计并生成单体序列,给出所需的组成,平均百分比误差约为 22%,所需的吸附自由能。这个例子阐明了 GPT-3 微调的威力。因此,可以利用 GPT-3 学到的那些材料的属性之间的所有相关性。
为了详细探索可以在多大程度上扩展可生成的新分子的极限,研究人员选择了一个已知量子计算可以足够准确地预测实验值的应用。HOMO-LUMO 间隙就是这样的应用。
研究人员通过实验来测试 GPT-3 模型在没有接受过任何训练的情况下如何外推 HOMO-LUMO 间隙。有趣的是,GPT-3 模型确实提供了一种结构分布,通过量子计算证实了其中很大一部分具有 > 4.0 eV 的 HOMO-LUMO 间隙。在训练集中,没有一个分子的带隙 > 3.5 eV,这表明 GPT-3 模型可以进行有意义的外推。
表 3:完成无效或没有任何化学意义的查询。(来源:论文)
有趣的是,研究人员的微调模型查询没有任何化学意义的问题,例如,Berend 的跃迁波长是多少?对于那些测试,模型总是生成相同的类。此外,对于逆向设计模型,经常获得相同的输出分子。GPT-3 可能会对明显无效的输入产生令人信服的幻觉答案。对于这些情况,GPT-3 的优势,即它可以从许多不同的输入中学习化学,也是它的主要弱点;它没有过滤没有任何化学意义的问题,也不能保证答案具有化学意义。
结语
正如在研究中展示的那样,使用 GPT-3 构建的机器学习系统对于化学中的各种问题都表现得非常好。与传统的机器学习相比,它有很多优点。GPT-3 可用于许多不同的应用。
另一个重要的实用点是,在研究中使用 GPT-3 模型类似于文献检索。它将使化学家能够非常有效地利用所收集的化学知识。为化学家和材料科学家等打开了许多可能性。
总之,在 GPT-3 时代,大型自然语言模型在化学问题,尤其是在低数据情况下,有着不错的表现与潜力。如今 GPT 已迭代到 4 代,就一些简单的非正式测试来看,OpenAI 的大型语言模型对于化学、材料科学、生命科学的了解更加准确与深入,有可能是在开发过程中接受了专业领域的反馈,也有可能是语料库增加了专业领域的文本。
之后期待能有各类任务的基准测试来考验一下 GPT-4 的能力,让人们进一步了解这个语言黑箱模型的原理与潜力。
相关代码:https://github.com/kjappelbaum/gptchem论文链接:https://chemrxiv.org/engage/chemrxiv/article-details/63eb5a669da0bc6b33e97a35参考内容:https://mp.weixin.qq.com/s/zPw1kYh1Fd_hB9YWc4KdEA