MolCLR | 对比学习在分子图表示任务中大有作为

简介: MolCLR | 对比学习在分子图表示任务中大有作为

image.png

今天给大家介绍卡耐基梅隆大学Amir Barati Farimani团队近期发表在arxiv上的关于如何利用对比学习和图神经网络进行分子表示,并服务于下游任务的研究。分子机器学习在分子性质预测和药物发现方面具有广阔的应用前景。然而,由于标记数据有限和分子的化学空间十分广阔,有监督学习模型泛化能力较差。这大大限制了机器学习方法在分子设计和发现中的应用。为解决上述问题,作者提出了一个用于大型无标记分子库的自监督学习框架:MolCLR,该模型通过图神经网络(GNNs)结合对比学习学习分子表示。实验表明,MolCLR学习到的分子表征可以迁移到多个下游分子性质预测任务中,在许多具有挑战性的数据集上实现了最先进的性能。该文还证明了文章中提出的分子图增强算法在有监督的分子分类任务中也十分有效。


MolCLR模型框架


image.png

image.png

image.png

图1 通过图神经网络表示的分子对比学习


N个分子的SMLIES表示sn转换成分子图Gn。对每个图应用两个随机分子图增强方法,得到两个相关遮盖图:G̃2n−1和G̃2n。基于图卷积的读出操作的特征编码器提取表示h2n−1,利用对比损失来最大化MLP投影头的潜在向量z2n−1、z2n之间的一致性。

image.png

图2 三种分子图增强策略。(a)原子遮盖,随机遮挡原子节点的特征。(b)键删除,随机地删除两个原子之间的键。(c)子图删除,从原始分子图中随机删除一个诱导子图。


总结


作者提出了基于GNNs的分子表征对比学习框架MolCLR和三种分子图增强策略:原子遮盖、键删除和子图删除。实验表明,与以监督学习方式训练的模型相比,MolCLR预训练的GNN模型在各种分子任务上都有不错的效果,并且具有更好的泛化能力。


目录
打赏
0
0
0
0
15
分享
相关文章
神经网络中的分位数回归和分位数损失
在使用机器学习构建预测模型时,我们不只是想知道“预测值(点预测)”,而是想知道“预测值落在某个范围内的可能性有多大(区间预测)”。例如当需要进行需求预测时,如果只储备最可能的需求预测量,那么缺货的概率非常的大。但是如果库存处于预测的第95个百分位数(需求有95%的可能性小于或等于该值),那么缺货数量会减少到大约20分之1。
638 2
|
11月前
|
C/C++每日一练(20230425) 成绩分布、汇总区间、矩阵置零
C/C++每日一练(20230425) 成绩分布、汇总区间、矩阵置零
86 0
C/C++每日一练(20230425) 成绩分布、汇总区间、矩阵置零
|
11月前
考研高数之无穷级数题型一:判断收敛性、求收敛半径以及收敛域和收敛区间(题目讲解)
考研高数之无穷级数题型一:判断收敛性、求收敛半径以及收敛域和收敛区间(题目讲解)
580 0
区间预测 | MATLAB实现QRBiLSTM双向长短期记忆神经网络分位数回归时间序列区间预测
区间预测 | MATLAB实现QRBiLSTM双向长短期记忆神经网络分位数回归时间序列区间预测
通过求解数学模型来选择编码节点的最佳数量和位置(Matlab代码实现)
通过求解数学模型来选择编码节点的最佳数量和位置(Matlab代码实现)
通过求解数学模型来选择编码节点的最佳数量和位置(Matlab代码实现)
区间预测 | MATLAB实现QRBiGRU双向门控循环单元分位数回归时间序列区间预测
区间预测 | MATLAB实现QRBiGRU双向门控循环单元分位数回归时间序列区间预测
概率图表示之贝叶斯网络
有向图模型(又称贝叶斯网络)是一类概率分布,它让有向图可以自然地描述紧凑参数化。形式地讲,贝叶斯网络是一个有向图G = (V,E)。
9515 0
概率图表示之贝叶斯网络
L2-023 图着色问题 (25 分)(图的遍历)
L2-023 图着色问题 (25 分)(图的遍历)
119 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等