大规模的化学语言 transformer 模型捕捉分子结构和性质

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 大规模的化学语言 transformer 模型捕捉分子结构和性质

1

编辑 | 绿萝基于机器学习的模型可以实现准确、快速的分子特性预测,这对药物发现和材料设计很有意义。各种有监督的机器学习模型已经证明了有前途的性能,但是广阔的化学空间和有限的属性标签使监督学习具有挑战性。最近,在大型无标签语料库上预训练的无监督基于 transformer 的语言模型在许多下游自然语言处理任务中产生了最先进的结果。受此启发,来自美国 IBM 研究院的研究人员提出了通过训练高效的 transformer 编码器模型 MOLFORMER 获得的分子嵌入,该模型使用旋转位置嵌入。该模型对来自 PubChem 和 ZINC 数据集的 11 亿个未标记分子的 SMILES 序列采用线性注意机制,并结合高度分布式训练。研究表明,在来自十个基准数据集的几个下游任务上,学习到的分子表示优于现有基线,包括监督和自我监督的图神经网络和语言模型。进一步的分析,特别是通过注意力的镜头,表明经过化学 SMILES 训练的 MOLFORMER 确实学习了分子内原子之间的空间关系。这些结果提供了令人鼓舞的证据,表明大规模分子语言模型可以捕获足够的化学和结构信息来预测各种不同的分子特性,包括量子化学特性。该研究以「Large-scale chemical language representations capture molecular structure and properties」为题,于 2022 年 12 月 21 日发布在《Nature Machine Intelligence》上。



论文链接:https://www.nature.com/articles/s42256-022-00580-7机器学习 (ML) 已成为一种有吸引力的、计算效率高的预测分子特性的方法,对药物发现和材料工程具有重要意义。分子的 ML 模型可以直接在预定义的化学描述符上进行训练。然而,最近的 ML 模型侧重于从编码连接信息的自然图或分子结构的线注释中自动学习特征,例如流行的 SMILES 表示。SMILES 学习已被广泛用于分子特性预测。然而,SMILES 语法复杂且有限制;适当字符集上的大多数序列不属于明确定义的分子。用于分子特性预测的 GNN 和语言模型的监督训练面临的一个挑战是标记数据的稀缺性。分子的标签注释通常很昂贵,而且由需要注释的似是而非的化学物质组成的空间的大小是天文数字(10^60 到 10^100),这一事实使这个问题更加复杂。这种情况产生了对分子表示学习的需求,这种学习可以推广到非/自我监督环境中的各种属性预测任务。基于大型 transformer 基础模型的成功,使用学习任务不可知语言表示的范例,通过对大型未标记语料库进行预训练并随后将其用于对感兴趣的下游任务进行微调,已扩展到其他领域。用于预测分子特性的预训练语言模型和 GNN 最近才开始出现。然而,在数十亿个分子的大型语料库上训练的预训练语言模型在多大程度上能够捕获各种下游任务中的分子-属性关系仍未得到探索。在此,研究人员提出了称为 MOLFORMER(分子语言 transformer)的分子 SMILES transformer 模型。将性能最佳的 MOLFORMER 变体命名为 MOLFORMER-XL。MOLFORMER-XL 是使用在 11 亿个分子的大型语料库上训练的有效线性注意机制获得的。结果表明,分子 SMILES 的预训练 transformer 编码器在预测各种分子特性(包括量子力学特性)方面与现有的监督或无监督语言模型和 GNN 基线相比具有竞争力。图 1:MOLFORMER 管道概览。(来源:论文)

主要贡献如下:

  • 研究人员在超过十亿个分子上训练了一个大规模高效的分子语言模型 transformer (MOLFORMER),硬件资源相对有限(最多 16 个 V100 图形处理单元 (GPU))。可扩展性和加速归功于高效的线性时间注意力、批处理的自适应分桶( bucketing)以及 PyTorch Lightning 和 NCCL 中提供的开源并行化。通过结合分桶和线性注意力,能够实现每个 GPU 1,600 个分子的批量大小。使用 16 个 GPU,需要 208 小时才能完成 MOLFORMER-XL 的四个预训练阶段。要在没有分桶和线性注意力的情况下在相同的时间内完成训练,将限制在每个 GPU 少于 50 个分子,并且需要超过 1,000 个 GPU 来完成该任务。
  • 探讨了表示分子 SMILES 时绝对位置嵌入和相对位置嵌入之间的差异。还为最近提出的相对位置 RoFormer 提供了一种新的、高效且准确的线性注意力近似。
  • 对来自十个基准数据集的几个分类和回归任务进行了广泛的实验和消融研究,涵盖了来自 MoleculeNet 的小分子化学品的量子力学、物理、生物物理学和生理学特性预测。
  • 结果提供了令人鼓舞的证据,表明 MOLFORMER 表示可以准确地捕获足够的化学和结构信息来预测各种化学性质。此外,MOLFORMER 的性能优于或相当于最先进的 GNN,这些 GNN 从精确的图形拓扑信息和其他信息(例如,键距离)中学习。
  • 提供了进一步的分析,以证明 MOLFORMER 可以仅从 SMILES 注释中捕获子结构以及分子内的空间原子间距离。

本研究探讨了预训练化学语言模型在预测从量子化学到生理学的广泛下游分子特性方面的代表性能力。特别是,单独从 SMILES 字符串预测量子化学特性并非易事,因为这些特性在很大程度上取决于准确的三维 (3D) 分子几何信息,这些信息被认为是特权信息,通常不可用具体而言,MOLFORMER 在各种分子回归和分类基准上优于现有的基于图形的基线。这项工作验证了大规模自监督预训练分子语言模型在预测从量子化学到生理学的整个范围内的分子特性方面的能力。此外,通过分析学习到的注意力,表明在 SMILES 序列上训练的 MOLFORMER 确实知道分子内的原子间关系,甚至超出了二维拓扑。

表 1:微调的 MoLFormer 与现有监督和预训练/自监督基线在多个分类基准上的比较。(来源:论文)

最后,在大规模学习端,展示了 MOLFORMER 对计算资源的高效和环保使用,将执行训练所需的 GPU 数量减少了 60 倍(1,000 对 16)。MOLFORMER 具有在不同靶标上更快地进行分子计算机筛选的直接潜力,这对材料设计和药物发现应用具有积极的社会影响。然而,应该注意的是,在湿实验室中未经适当的实验和科学验证而滥用此类技术可能会产生有害影响。此外,目前的工作需要进一步探索 MOLFORMER 在其直接从化学语言中学习结构分子信息的能力的背景下的表征能力,并且可以扩展到本工作中研究的有机小分子之外。未来的工作还将致力于通过采用更大的模型和更多的训练数据、使用改进的和/或特定领域的自监督任务以及使用其他基于字符串的表示(例如 SELFIES)来改进 MOLFORMER。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
编译器
overleaf 参考文献引用,创建引用目录.bib文件,在文档中引用参考文献,生成参考文献列表
overleaf 参考文献引用,创建引用目录.bib文件,在文档中引用参考文献,生成参考文献列表
8946 0
sklearn中分类模型评估指标(一):准确率、Top准确率、平衡准确率
accuracy_score函数计算准确率分数,即预测正确的分数(默认)或计数(当normalize=False时)。 在多标签分类中,该函数返回子集准确率(subset accuracy)。 如果样本的整个预测标签集与真实标签集严格匹配,则子集准确率为 1.0; 否则为 0.0。
|
人工智能 安全 算法
5G 网络中的加密:守护你的数据安全
5G 网络中的加密:守护你的数据安全
1057 0
|
并行计算 PyTorch Linux
大概率(5重方法)解决RuntimeError: CUDA out of memory. Tried to allocate ... MiB
大概率(5重方法)解决RuntimeError: CUDA out of memory. Tried to allocate ... MiB
9803 0
|
11月前
|
存储 消息中间件 缓存
独特架构打造新一代消息队列Apache Pulsar
Apache Pulsar 是一个开源的分布式消息流平台,由雅虎开发并于 2016 年开源,2018 年成为 Apache 顶级项目。Pulsar 通过独特的架构提供多租户、持久化存储和批处理等高级功能,支持高吞吐量、低延迟的消息传递。其核心组件包括 Broker、Apache BookKeeper 和 Apache ZooKeeper,分别负责消息处理、持久化存储和集群管理。
425 1
|
机器学习/深度学习 传感器 人工智能
【博士每天一篇论文-综述】Brain Inspired Computing : A Systematic Survey and Future Trends
本文提供了对脑启发计算(BIC)领域的系统性综述,深入探讨了BIC的理论模型、硬件架构、软件工具、基准数据集,并分析了该领域在人工智能中的重要性、最新进展、主要挑战和未来发展趋势。
466 2
【博士每天一篇论文-综述】Brain Inspired Computing : A Systematic Survey and Future Trends
|
Ubuntu Python
全网最简约的Vscode配置Anaconda环境(百分百成功)
全网最简约的Vscode配置Anaconda环境(百分百成功)
31316 0
全网最简约的Vscode配置Anaconda环境(百分百成功)
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术革新:智能创造如何重塑艺术与设计行业
AIGC技术,人工智能生成内容,正引领艺术与设计行业的变革。借助深度学习和自然语言处理等技术,AIGC能自动生成文本、图像等内容,丰富创作手段并提供创新机会。在艺术领域,它模拟各种风格作品,助力高效创作;在设计领域,它根据用户需求生成设计方案,提升个性化选择。AIGC打破了传统界限,提高了创作效率,并满足了用户的个性化需求。未来,随着技术进步和应用场景拓展,AIGC将在虚拟现实等领域的结合中,为艺术与设计带来更沉浸式、交互式的体验,重塑行业未来。【6月更文挑战第4天】
1308 1
|
存储 安全 数据管理
磁盘分区全解:快速搞定硬盘分区
本文介绍了磁盘分区的重要性和好处,如数据管理、性能提升和安全增强,并为初学者提供了Windows系统下的磁盘分区指南。文章提到了三种磁盘分区工具:磁盘管理器、Diskpart命令行工具和第三方软件DiskGenius。同时,详细阐述了如何在磁盘管理器中创建新分区、使用DiskGenius一键重新分区、拆分现有分区以及通过Diskpart命令创建分区的步骤。最后,文章强调了磁盘分区在数据管理和系统优化中的价值。
|
机器学习/深度学习 编解码 人工智能
2024年2月深度学习的论文推荐
我们这篇文章将推荐2月份发布的10篇深度学习的论文
506 1

热门文章

最新文章

下一篇
oss云网关配置