化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物

简介: 化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物

聚合物是我们日常生活中不可或缺的一部分,几乎触及生活的方方面面。从塑料袋、水瓶,到橡胶和木材,再到DNA、RNA 等。

聚合物化学空间如此之大,为识别合适的特定应用候选聚合物提供了前所未有的机遇和重大挑战。

聚合物信息学这个新兴领域可以深入了解聚合物「宇宙」,其中机器学习(ML)模型极具潜力。

近日,来自佐治亚理工学院(GT)的研究人员提出了一种化学语言模型:polyBERT——一个完整的端到端机器驱动的聚合物信息学管道,可以以前所未有的速度和准确性在这个空间中搜索合适的候选聚合物。

polyBERT 是一位化学语言学家,将聚合物的化学结构视为一种化学语言。

该方法超越了目前基于手工指纹方案的聚合物性能预测的最佳概念,在保持准确性的同时,速度提高了两个数量级,从而使其成为部署在包括云基础设施在内的可扩展架构中的强有力候选者。

该研究以「polyBERT: a chemical language model to enable fully machine-driven ultrafast polymer informatics」为题,于 2023 年 7 月 11 日发布在《Nature Communications》上。

论文链接:https://www.nature.com/articles/s41467-023-39868-6

机器学习框架在聚合物特性预测器的开发和解决逆向问题方面取得了实质性进展,在逆向问题中,满足特定特性要求的聚合物要么从候选集中识别,要么使用遗传或生成算法重新设计。

聚合物信息学管道中的一个重要步骤是将聚合物化学结构转换为通常称为指纹、特征或描述符的数字表示(见图 1a 中的蓝色框)。

图 1:使用 polyBERT 进行聚合物信息学。

过去的手工指纹识别方法利用化学信息学工具对聚合物的关键化学和结构特征进行数字编码。尽管这种手工制作的指纹建立在宝贵的直觉和经验的基础上,但它们开发起来很乏味,涉及复杂的计算,通常会消耗模型训练和推理期间的大部分时间,并且缺乏对所有高分子化学类别的泛化。

因此,使用手工指纹的机器学习管道在探索新的聚合物化学类别时很容易出错。此外,手工制作的指纹为完全机器驱动的管道的开发和部署带来了障碍,这些管道适合云计算和高吞吐量环境中的可扩展性。

克服前面提到的限制的一种方法是用完全机器制作的「Transformer」指纹代替手工制作的指纹(见图 1a 的右侧管道)。Transformer 已成为 ML 语言建模的黄金标准。

另一种有前途的神经网络架构,即图神经网络,它将化学结构视为图,已应用于分子和聚合物化学空间。与 Transformer 相反,图神经网络将原子表示为节点,将键表示为图的边,从而对原子之间的直接和扩展连接进行编码。因此,图神经网络并不像 Transformer 那样直接基于 PSMILES 字符串,而是依赖于需要为每个节点计算并分配给每个节点的一组初始特征向量(例如原子类型、隐式价等)。

在此,研究人员设想将简化分子线性输入规范(SMILES)字符串作为聚合物的「化学语言」来表示聚合物。研究使用数百万个聚合物 SMILES (PSMILES) 字符串来训练名为 polyBERT 的语言模型,使其成为聚合物化学语言的专家(语言学家)。与多任务深度神经网络相结合,polyBERT 实现了完全端到端机器驱动的聚合物信息学管道,该管道使用并释放了人工智能方法的真正力量。多任务深度神经网络利用多保真度和多属性数据集中的固有相关性,在云计算环境中轻松扩展,并推广到多个预测任务。

该研究几个关键要素如下:

首先,通过枚举组合从 13000 多种合成聚合物列表中提取的化学片段,生成了 1 亿个假设聚合物的数据集。

接下来,使用这个假设的聚合物数据集来训练 PolyBERT(一种基于 DeBERTa 的仅编码器 Transformer),使其成为一名高分子化学语言学家。在训练过程中,polyBERT 学习将输入 PSMILES 字符串转换为其用作聚合物指纹的数字表示。

最后,使用其多任务机器学习框架将 PolyBERT 指纹映射到大约 36 种聚合物属性,以产生完全机器驱动的超快聚合物属性预测器。为了进行基准测试,将这种新的端到端属性预测管道的性能(准确性和速度)与之前开创的基于手工制作的 Polymer Genome (PG) 指纹的管道进行了比较。使用超快的 PolyBERT 聚合物信息学管道,能够预测 1 亿种假设聚合物的属性,旨在找到聚合物宇宙的属性边界。

该研究通过利用语言、数据和人工智能模型的力量,有助于加快聚合物的发现、设计、开发和部署。

属性预测

为了对 PolyBERT 和 PG 指纹的属性预测准确性进行基准测试,研究人员为表 1 中定义的每个属性类别训练多任务深度神经网络。

表 1:属性预测器的训练数据集。(来源:论文)

图 2a 显示了 29 种聚合物特性交叉验证过程的五个验证数据集的决定系数 (R^2) 平均值和标准差。研究发现共聚物的热性能和机械性能(相对于均聚物)的预测精度更高,而透气率的预测精度稍差,这与之前的发现类似。

图 2b 显示了每个元学习器(每个类别一个)的高 R^2 值,表明所有属性都具有出色的预测性能。

基于 PolyBERT 的超快且准确的聚合物信息学管道使研究人员能够预测最初为训练 polyBERT 而创建的 1 亿个假设聚合物的所有 29 个属性。图 2c 显示了每个属性的最小值、平均值和最大值。

图 2:polyBERT (PB) 和聚合物基因组 (PG) 指纹的决定系数 (R^2) 性能值。(来源:论文)

总体而言,PG 表现最好 (R^2 = 0.81),但紧随其后的是 polyBERT (R^2 = 0.80)。指纹类型的整体性能顺序与类别平均值和属性一致,但 Xc、 Xe 和 ϵb 除外,其中 polyBERT 略优于 PG 指纹。注意到,polyBERT 和 PG 指纹都是聚合物特征化的实用途径,因为它们的 R^2 值非常接近并且通常很高。polyBERT 指纹具有手工制作的 PG 指纹的准确性,但速度快了两个数量级以上。

图 3:聚合物指纹的计算时间。(来源:论文)

PolyBERT 的其它三个优势

前馈网络在 PolyBERT 自监督训练期间预测屏蔽标记,能够将数字潜在空间(即指纹)映射到 PSMILES 字符串。

polyBERT 方法的第二个优点是可解释性。更详细地分析 PolyBERT 指纹的化学相关性可以揭示聚合物结构部分的化学功能和相互作用。

PolyBERT 方法的另一个优点是它覆盖整个化学空间。分子 SMILES 字符串是聚合物 SMILES 字符串的子集,仅区别两个星 ([*]) 符号,表示聚合物重复单元的两个端点。polyBERT 没有内在的限制或功能来阻碍预测分子 SMILES 字符串的指纹。

总之,polyBERT 是一种可通用、超快且准确的聚合物信息学管道,可在云硬件上无缝扩展,适用于巨大聚合物空间的高通量筛选。polyBERT 能够大规模探索这个巨大的聚合物宇宙。PolyBERT 为新型聚合物的发现铺平了道路。


相关文章
|
2月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
38 1
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
46 25
|
4月前
|
人工智能 自然语言处理 算法
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
【8月更文挑战第26天】在人工智能领域,尽管大型语言模型(LLMs)作为自动评估工具展现了巨大潜力,但在自然语言生成质量评估中仍存偏见问题,且难以确保一致性。为解决这一挑战,研究者开发了Pairwise-preference Search(PairS)算法,一种基于不确定性的搜索方法,通过成对比较及不确定性引导实现高效文本排名,有效减少了偏见、提升了评估效率和可解释性。PairS在多项任务中表现出色,相较于传统评分法有显著提升,为自然语言处理评估提供了新思路。更多详情参阅论文:https://arxiv.org/abs/2403.16950。
82 4
|
2月前
|
机器学习/深度学习 自然语言处理 算法
超越传统搜索:探索基于GraphRAG的信息检索新范式
【10月更文挑战第10天】随着信息爆炸时代的到来,如何从海量的数据中快速准确地找到所需的信息成为了一个亟待解决的问题。传统的信息检索系统主要依赖于关键词匹配和文档排名算法来提供结果,但这种方法往往无法捕捉到数据间的复杂关系,也无法很好地理解用户的查询意图。近年来,一种新的信息检索方法——基于图的检索增强生成(Graph-based Retrieval-Augmented Generation, GraphRAG)应运而生,它通过结合知识图谱与机器学习技术,为信息检索带来了全新的视角。
78 1
|
2月前
|
机器学习/深度学习 自然语言处理
【绝技揭秘】模型微调与RAG神技合璧——看深度学习高手如何玩转数据,缔造预测传奇!
【10月更文挑战第5天】随着深度学习的发展,预训练模型因泛化能力和高效训练而备受关注。直接应用预训练模型常难达最佳效果,需进行微调以适应特定任务。本文介绍模型微调方法,并通过Hugging Face的Transformers库演示BERT微调过程。同时,文章探讨了检索增强生成(RAG)技术,该技术结合检索和生成模型,在开放域问答中表现出色。通过实际案例展示了RAG的工作原理及优势,提供了微调和RAG应用的深入理解。
89 0
|
3月前
|
机器学习/深度学习 算法 数据处理
深度学习之多模态信息检索
基于深度学习的多模态信息检索(Multimodal Information Retrieval, MMIR)是指利用深度学习技术,从包含多种模态(如文本、图像、视频、音频等)的数据集中检索出满足用户查询意图的相关信息。
122 5
|
6月前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
132 1
|
7月前
|
搜索推荐 安全 物联网
【大模型】LLMs被广泛地融入日常生活的未来场景分析
【5月更文挑战第7天】【大模型】LLMs被广泛地融入日常生活的未来场景分析
【大模型】LLMs被广泛地融入日常生活的未来场景分析
|
7月前
|
机器学习/深度学习 人工智能
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
【2月更文挑战第25天】ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
100 7
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT 加持,决策大模型距离 AGI 更进一步
ChatGPT 加持,决策大模型距离 AGI 更进一步
221 0
下一篇
DataWorks