化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物

简介: 化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物

聚合物是我们日常生活中不可或缺的一部分,几乎触及生活的方方面面。从塑料袋、水瓶,到橡胶和木材,再到DNA、RNA 等。

聚合物化学空间如此之大,为识别合适的特定应用候选聚合物提供了前所未有的机遇和重大挑战。

聚合物信息学这个新兴领域可以深入了解聚合物「宇宙」,其中机器学习(ML)模型极具潜力。

近日,来自佐治亚理工学院(GT)的研究人员提出了一种化学语言模型:polyBERT——一个完整的端到端机器驱动的聚合物信息学管道,可以以前所未有的速度和准确性在这个空间中搜索合适的候选聚合物。

polyBERT 是一位化学语言学家,将聚合物的化学结构视为一种化学语言。

该方法超越了目前基于手工指纹方案的聚合物性能预测的最佳概念,在保持准确性的同时,速度提高了两个数量级,从而使其成为部署在包括云基础设施在内的可扩展架构中的强有力候选者。

该研究以「polyBERT: a chemical language model to enable fully machine-driven ultrafast polymer informatics」为题,于 2023 年 7 月 11 日发布在《Nature Communications》上。

论文链接:https://www.nature.com/articles/s41467-023-39868-6

机器学习框架在聚合物特性预测器的开发和解决逆向问题方面取得了实质性进展,在逆向问题中,满足特定特性要求的聚合物要么从候选集中识别,要么使用遗传或生成算法重新设计。

聚合物信息学管道中的一个重要步骤是将聚合物化学结构转换为通常称为指纹、特征或描述符的数字表示(见图 1a 中的蓝色框)。

图 1:使用 polyBERT 进行聚合物信息学。

过去的手工指纹识别方法利用化学信息学工具对聚合物的关键化学和结构特征进行数字编码。尽管这种手工制作的指纹建立在宝贵的直觉和经验的基础上,但它们开发起来很乏味,涉及复杂的计算,通常会消耗模型训练和推理期间的大部分时间,并且缺乏对所有高分子化学类别的泛化。

因此,使用手工指纹的机器学习管道在探索新的聚合物化学类别时很容易出错。此外,手工制作的指纹为完全机器驱动的管道的开发和部署带来了障碍,这些管道适合云计算和高吞吐量环境中的可扩展性。

克服前面提到的限制的一种方法是用完全机器制作的「Transformer」指纹代替手工制作的指纹(见图 1a 的右侧管道)。Transformer 已成为 ML 语言建模的黄金标准。

另一种有前途的神经网络架构,即图神经网络,它将化学结构视为图,已应用于分子和聚合物化学空间。与 Transformer 相反,图神经网络将原子表示为节点,将键表示为图的边,从而对原子之间的直接和扩展连接进行编码。因此,图神经网络并不像 Transformer 那样直接基于 PSMILES 字符串,而是依赖于需要为每个节点计算并分配给每个节点的一组初始特征向量(例如原子类型、隐式价等)。

在此,研究人员设想将简化分子线性输入规范(SMILES)字符串作为聚合物的「化学语言」来表示聚合物。研究使用数百万个聚合物 SMILES (PSMILES) 字符串来训练名为 polyBERT 的语言模型,使其成为聚合物化学语言的专家(语言学家)。与多任务深度神经网络相结合,polyBERT 实现了完全端到端机器驱动的聚合物信息学管道,该管道使用并释放了人工智能方法的真正力量。多任务深度神经网络利用多保真度和多属性数据集中的固有相关性,在云计算环境中轻松扩展,并推广到多个预测任务。

该研究几个关键要素如下:

首先,通过枚举组合从 13000 多种合成聚合物列表中提取的化学片段,生成了 1 亿个假设聚合物的数据集。

接下来,使用这个假设的聚合物数据集来训练 PolyBERT(一种基于 DeBERTa 的仅编码器 Transformer),使其成为一名高分子化学语言学家。在训练过程中,polyBERT 学习将输入 PSMILES 字符串转换为其用作聚合物指纹的数字表示。

最后,使用其多任务机器学习框架将 PolyBERT 指纹映射到大约 36 种聚合物属性,以产生完全机器驱动的超快聚合物属性预测器。为了进行基准测试,将这种新的端到端属性预测管道的性能(准确性和速度)与之前开创的基于手工制作的 Polymer Genome (PG) 指纹的管道进行了比较。使用超快的 PolyBERT 聚合物信息学管道,能够预测 1 亿种假设聚合物的属性,旨在找到聚合物宇宙的属性边界。

该研究通过利用语言、数据和人工智能模型的力量,有助于加快聚合物的发现、设计、开发和部署。

属性预测

为了对 PolyBERT 和 PG 指纹的属性预测准确性进行基准测试,研究人员为表 1 中定义的每个属性类别训练多任务深度神经网络。

表 1:属性预测器的训练数据集。(来源:论文)

图 2a 显示了 29 种聚合物特性交叉验证过程的五个验证数据集的决定系数 (R^2) 平均值和标准差。研究发现共聚物的热性能和机械性能(相对于均聚物)的预测精度更高,而透气率的预测精度稍差,这与之前的发现类似。

图 2b 显示了每个元学习器(每个类别一个)的高 R^2 值,表明所有属性都具有出色的预测性能。

基于 PolyBERT 的超快且准确的聚合物信息学管道使研究人员能够预测最初为训练 polyBERT 而创建的 1 亿个假设聚合物的所有 29 个属性。图 2c 显示了每个属性的最小值、平均值和最大值。

图 2:polyBERT (PB) 和聚合物基因组 (PG) 指纹的决定系数 (R^2) 性能值。(来源:论文)

总体而言,PG 表现最好 (R^2 = 0.81),但紧随其后的是 polyBERT (R^2 = 0.80)。指纹类型的整体性能顺序与类别平均值和属性一致,但 Xc、 Xe 和 ϵb 除外,其中 polyBERT 略优于 PG 指纹。注意到,polyBERT 和 PG 指纹都是聚合物特征化的实用途径,因为它们的 R^2 值非常接近并且通常很高。polyBERT 指纹具有手工制作的 PG 指纹的准确性,但速度快了两个数量级以上。

图 3:聚合物指纹的计算时间。(来源:论文)

PolyBERT 的其它三个优势

前馈网络在 PolyBERT 自监督训练期间预测屏蔽标记,能够将数字潜在空间(即指纹)映射到 PSMILES 字符串。

polyBERT 方法的第二个优点是可解释性。更详细地分析 PolyBERT 指纹的化学相关性可以揭示聚合物结构部分的化学功能和相互作用。

PolyBERT 方法的另一个优点是它覆盖整个化学空间。分子 SMILES 字符串是聚合物 SMILES 字符串的子集,仅区别两个星 ([*]) 符号,表示聚合物重复单元的两个端点。polyBERT 没有内在的限制或功能来阻碍预测分子 SMILES 字符串的指纹。

总之,polyBERT 是一种可通用、超快且准确的聚合物信息学管道,可在云硬件上无缝扩展,适用于巨大聚合物空间的高通量筛选。polyBERT 能够大规模探索这个巨大的聚合物宇宙。PolyBERT 为新型聚合物的发现铺平了道路。


相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
1月前
|
机器学习/深度学习 自然语言处理
【绝技揭秘】模型微调与RAG神技合璧——看深度学习高手如何玩转数据,缔造预测传奇!
【10月更文挑战第5天】随着深度学习的发展,预训练模型因泛化能力和高效训练而备受关注。直接应用预训练模型常难达最佳效果,需进行微调以适应特定任务。本文介绍模型微调方法,并通过Hugging Face的Transformers库演示BERT微调过程。同时,文章探讨了检索增强生成(RAG)技术,该技术结合检索和生成模型,在开放域问答中表现出色。通过实际案例展示了RAG的工作原理及优势,提供了微调和RAG应用的深入理解。
49 0
|
4月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
34 2
|
6月前
|
机器学习/深度学习 算法
机器学习的魔法(二)超越预测的界限-揭秘机器学习的黑科技-探索监督学习中的回归和分类问题
机器学习的魔法(二)超越预测的界限-揭秘机器学习的黑科技-探索监督学习中的回归和分类问题
174 0
|
算法
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
108 0
|
机器学习/深度学习 人工智能 编解码
人脑90%都是自监督学习,AI大模型离模拟大脑还有多远?
人脑90%都是自监督学习,AI大模型离模拟大脑还有多远?
211 0
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
151 0
|
机器学习/深度学习 传感器 编解码
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(下)
为了在动态环境中安全驾驶,自动驾驶车辆应该能够预测附近交通参与者的未来状态,尤其是周围车辆,类似于人类驾驶员的预测驾驶能力。这就是为什么研究人员致力于轨迹预测领域并提出不同的方法。本文旨在对过去二十年中提出的自动驾驶轨迹预测方法进行全面和比较性的回顾!!!它从问题公式和算法分类开始。然后,详细介绍和分析了基于物理、经典机器学习、深度学习和强化学习的流行方法。最后,论文评估了每种方法的性能,并概述了潜在的研究方向。
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(下)
|
机器学习/深度学习 传感器 自然语言处理
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(上)
为了在动态环境中安全驾驶,自动驾驶车辆应该能够预测附近交通参与者的未来状态,尤其是周围车辆,类似于人类驾驶员的预测驾驶能力。这就是为什么研究人员致力于轨迹预测领域并提出不同的方法。本文旨在对过去二十年中提出的自动驾驶轨迹预测方法进行全面和比较性的回顾!!!它从问题公式和算法分类开始。然后,详细介绍和分析了基于物理、经典机器学习、深度学习和强化学习的流行方法。最后,论文评估了每种方法的性能,并概述了潜在的研究方向。
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(上)