NeurIPS-21 | MGSSL: 基于官能团的分子属性预测图网络自监督预训练

简介: NeurIPS-21 | MGSSL: 基于官能团的分子属性预测图网络自监督预训练

本文介绍一篇来自中国科学技术大学刘淇教授课题组和腾讯量子实验室联合发表的一篇文章。该文章提出了基于官能团的分子属性预测图网络自监督预训练方法MGSSL。MGSSL结合化学领域知识,在大量无标签分子数据中划分官能团和构建官能团树,并进一步通过官能团生成式自监督任务,使得预训练的图网络可以学习到官能团的结构和语义信息,提高下游分子属性预测任务的效果。


image.png

image.png

1.研究背景

分子属性预测任务对于药物合成和筛选具有重要意义,例如新冠病毒药物筛选。传统通过实验和理论计算的方法的得到分子属性耗时且昂贵。近年来,基于深度学习的分子属性预测方法大大减少了预测时间和成本。为了保留分子的结构信息,分子通常可以表示成图,并利用图网络进行分子属性预测。但是训练图网络用于分子属性预测需要大量有标签分子数据,否则图网络模型易于过拟合并且泛化性能差。


为了克服有标签分子数据匮乏的问题,可以考虑引入类似于CV和NLP中自监督预训练的方法:先在大量无标签分子数据上预训练图网络,然后再在下游有标签分子数据上微调。如何对于图数据特别是分子数据,设计合适的自监督预训练方法是当下的研究热点和难点。目前的图自监督预训练方法大致可以分为两类:基于对比学习的方法和基于预测的方法。(1)基于对比学习的方法,让来自同一个图的视图表示接近,不同图的视图表示相异;(2)基于预测的方法从数据本身特点构建预测任务,例如通过周围的结点预测被遮掩住结点的类型。


然而当前分子图网络模型的自监督预训练无法有效利用分子官能团的信息,使得预训练效果受到限制。分子官能图指的是分子中经常出现并且对于分子属性具有决定作用的片段。例如,具有(-OH)的小分子通常水溶性比较好。因此,设计基于官能团的图网络自监督预训练方法。


2.MGSSL 方法

image.png

图1 MGSSL方法示意图

MGSSL 创新的提出了一种自监督官能团生成预测任务,使得预训练的图网络可以有效捕捉分子图中官能团的结构与语义信息。如图1所示,MGSSL 同时考虑了原子层级和官能团层级的自监督任务。在原子层级,MGSSL使用了遮掩并预测原子/化学键种类的方法学习到原子层级的信息。在官能团层级,MGSSL自监督框架由三部分构成:由化学领域知识启发的分子官能团划分,官能团生成预测和多层级自监督预训练。

image.png

图2 分子官能团划分


如图2所示,为了划分分子官能团,我们首先使用了基于化学反应模板的 BRICS(Breaking of Retrosynthetically Interesting Chemical Substructures)方法。然而通过BRICS划分得到的官能团词典较为冗余,我们还定义了两个规则去除冗余的官能团,最终构建 motif tree:(1)当一个化学键连接的两个原子,一个在环上,一个不在环上时,断开化学键;(2)当不在环上的原子有三个或者三个以上邻居时,断开与邻居间的化学键,并且选取所述不在环上的原子作为新的官能团。在划分官能团后,我们可以构建官能团树并且得到预训练数据集的官能团词典。

image.png

图3 官能团树生成(深度优先顺序和广度优先顺序)

如图3所示,利用构建的官能团树,可以建立官能团生成的自监督预训练任务,官能团生成的每一步都进行拓扑预测和官能团种类预测。其中官能团的生成顺序,主要包括深度优先顺序和广度优先顺序。最终MGSSL自监督预训练的损失函数包括原子层级和官能团层级的损失函数。


3.实验结果

image.png

表1分子属性预测实验结果

在论文中,作者主要考虑分子属性预测任务。自监督预训练在ZINC15 中250k 个分子数据上进行。下游分子属性预测数据集使用的是MoleculeNet中8个双分类数据集。实验中数据集划分使用的是scaffold-split。MGSSL的对比方法主要有Infomax, Attribute masking, GCC, GPT-GNN 和 Grover。


下游分子属性预测实验结果如表1所示,MGSSL 在MoleculeNet 8个数据集中的7个得到了最好的表现,验证了基于分子官能团的自监督预训练的有效性。


image.png

图4 不同预训练方法的训练和测试曲线

在图4中,我们展示了不同预训练方法的训练和测试ROC-AUC随着微调epoch的变化。可以看出,对比其他自监督预训练和没有预训练直接微调,MGSSL预训练过的图网络具有更快的收敛速度。一旦使用MGSSL预训练好之后,图网络可以以很小的预训练开销快速迁移到各种下游任务中去。

image.png

表2 对比MGSSL在不同图网络模型的效果提升


在表2中,我们进一步对比了使用MGSSL在不同图网络模型的效果提升。可以看到MGSSL是通用的图网络自监督预训练方法,可以提升GCN,GIN, RGCN, DAGNN, 和GraphSAGE在分子属性预测任务中的表现。


4.总结

这篇论文提出了一种基于官能团生成的图网络自监督预训练方法MGSSL。大量实验表明MGSSL可以使得预训练图网络学习到官能团结构和语义信息,提升下游分子属性预测的表现。未来的研究工作包括:(1)设计更多基于官能团的图网络自监督学习任务 (2)探索基于官能团的自监督学习在其他领域的应用。


目录
相关文章
|
6月前
|
算法 5G 网络性能优化
基于遗传优化的多属性判决5G-Wifi网络切换算法matlab仿真
基于遗传优化的多属性判决5G-Wifi网络切换算法matlab仿真
|
6月前
|
机器学习/深度学习 算法 计算机视觉
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
|
6月前
|
机器学习/深度学习 计算机视觉 网络架构
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
|
6月前
|
前端开发
elementui-upload组件自定义样式上传(upload中常用的属性,但是网络上却找不到教程)(解决bug删除之后再次上传会上传删除的图片)专注后端工程师的前端速成
elementui-upload组件自定义样式上传(upload中常用的属性,但是网络上却找不到教程)(解决bug删除之后再次上传会上传删除的图片)专注后端工程师的前端速成
696 0
|
6月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
|
存储 安全 数据安全/隐私保护
网络信息安全基本属性
常见的网络信息安全基本属性主要有机密性、完整性、可用性、不可抵赖性和可控性等,其中机密性(Confidentiality)、完整性(Integrity)、可用性(Availability)被称为网络信息系统核心的CIA安全属性,此外还有其他的安全属性包括:真实性、时效性、合规性、隐私性等。
510 0
|
机器学习/深度学习 数据可视化 数据挖掘
图注意力网络论文详解和PyTorch实现
图神经网络(gnn)是一类功能强大的神经网络,它对图结构数据进行操作。它们通过从节点的局部邻域聚合信息来学习节点表示(嵌入)。这个概念在图表示学习文献中被称为“消息传递”。
105 0
一张能让你把网络数据包传输说20分钟的图
特别好的一张图,不要失传了。 按理这图应该对应有很好的一篇文章或者博客
106 2
|
机器学习/深度学习 存储 人工智能
大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍
大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍
大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍
|
机器学习/深度学习 文字识别
使用预训练的CRAFT网络和OCR自动检测和识别文本
使用基于深度学习的文本检测器和 OCR 执行文本识别。
298 0

热门文章

最新文章