MolCLR | 对比学习在分子图表示任务中大有作为

简介: MolCLR | 对比学习在分子图表示任务中大有作为

image.png

今天给大家介绍卡耐基梅隆大学Amir Barati Farimani团队近期发表在arxiv上的关于如何利用对比学习和图神经网络进行分子表示,并服务于下游任务的研究。分子机器学习在分子性质预测和药物发现方面具有广阔的应用前景。然而,由于标记数据有限和分子的化学空间十分广阔,有监督学习模型泛化能力较差。这大大限制了机器学习方法在分子设计和发现中的应用。为解决上述问题,作者提出了一个用于大型无标记分子库的自监督学习框架:MolCLR,该模型通过图神经网络(GNNs)结合对比学习学习分子表示。实验表明,MolCLR学习到的分子表征可以迁移到多个下游分子性质预测任务中,在许多具有挑战性的数据集上实现了最先进的性能。该文还证明了文章中提出的分子图增强算法在有监督的分子分类任务中也十分有效。


MolCLR模型框架


image.png

image.png

image.png

图1 通过图神经网络表示的分子对比学习


N个分子的SMLIES表示sn转换成分子图Gn。对每个图应用两个随机分子图增强方法,得到两个相关遮盖图:G̃2n−1和G̃2n。基于图卷积的读出操作的特征编码器提取表示h2n−1,利用对比损失来最大化MLP投影头的潜在向量z2n−1、z2n之间的一致性。

image.png

图2 三种分子图增强策略。(a)原子遮盖,随机遮挡原子节点的特征。(b)键删除,随机地删除两个原子之间的键。(c)子图删除,从原始分子图中随机删除一个诱导子图。


总结


作者提出了基于GNNs的分子表征对比学习框架MolCLR和三种分子图增强策略:原子遮盖、键删除和子图删除。实验表明,与以监督学习方式训练的模型相比,MolCLR预训练的GNN模型在各种分子任务上都有不错的效果,并且具有更好的泛化能力。


目录
相关文章
R实战 | 对称云雨图 + 箱线图 + 配对散点 + 误差棒图 +均值连线
R实战 | 对称云雨图 + 箱线图 + 配对散点 + 误差棒图 +均值连线
1497 1
R实战 | 对称云雨图 + 箱线图 + 配对散点 + 误差棒图 +均值连线
|
4月前
|
机器学习/深度学习 数据处理 Python
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
本文探讨了统计学与机器学习中的二元投影技术,它基于二元正态分布,用于预测一个变量在给定另一变量值时的期望值。文章分为三部分:首先介绍了二元正态投影的基本公式及其在回归中的应用;接着通过直观解释和模拟展示了不同相关性下变量间的关系;最后运用投影公式推导出线性回归的参数估计,并通过实例说明其在预测房屋价格等场景中的应用。附录中详细推导了二元线性投影的过程。二元投影作为一种强大工具,在数据分析中帮助简化复杂问题并揭示数据背后的规律。
60 1
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
|
7月前
求模式的投影(例题向)
求模式的投影(例题向)
38 1
|
7月前
6366. 在网格图中访问一个格子的最少时间(dijkstra在矩阵上的运用)
6366. 在网格图中访问一个格子的最少时间(dijkstra在矩阵上的运用)
|
算法 测试技术 C++
C++算法:图中的最短环
C++算法:图中的最短环
跟着 Cell 学作图 | 分组蜂群图+均值线+差异分析(组间+组内)
跟着 Cell 学作图 | 分组蜂群图+均值线+差异分析(组间+组内)
190 0
|
数据挖掘
这图怎么画| 多组箱线图+组间/内差异分析
这图怎么画| 多组箱线图+组间/内差异分析
237 0
L2-023 图着色问题 (25 分)(图的遍历)
L2-023 图着色问题 (25 分)(图的遍历)
69 0
ggplot2|发散性“正负”图
ggplot2|发散性“正负”图
107 0
|
人工智能 JavaScript 算法
基础算法-子矩阵的和
与前缀和的基本思想类似,上一篇博文对前缀和有所介绍,不是很理解的友友可以阅读一下。一般的前缀和可以看作一维运算,而子矩阵的和则可以看作是二维运算,但本质也是一样的。 原数组可以看作 a[i][j],s[i][j] 是所求区域的数组值和,以下图为例