MolCLR | 对比学习在分子图表示任务中大有作为

简介: MolCLR | 对比学习在分子图表示任务中大有作为

image.png

今天给大家介绍卡耐基梅隆大学Amir Barati Farimani团队近期发表在arxiv上的关于如何利用对比学习和图神经网络进行分子表示,并服务于下游任务的研究。分子机器学习在分子性质预测和药物发现方面具有广阔的应用前景。然而,由于标记数据有限和分子的化学空间十分广阔,有监督学习模型泛化能力较差。这大大限制了机器学习方法在分子设计和发现中的应用。为解决上述问题,作者提出了一个用于大型无标记分子库的自监督学习框架:MolCLR,该模型通过图神经网络(GNNs)结合对比学习学习分子表示。实验表明,MolCLR学习到的分子表征可以迁移到多个下游分子性质预测任务中,在许多具有挑战性的数据集上实现了最先进的性能。该文还证明了文章中提出的分子图增强算法在有监督的分子分类任务中也十分有效。


MolCLR模型框架


image.png

image.png

image.png

图1 通过图神经网络表示的分子对比学习


N个分子的SMLIES表示sn转换成分子图Gn。对每个图应用两个随机分子图增强方法,得到两个相关遮盖图:G̃2n−1和G̃2n。基于图卷积的读出操作的特征编码器提取表示h2n−1,利用对比损失来最大化MLP投影头的潜在向量z2n−1、z2n之间的一致性。

image.png

图2 三种分子图增强策略。(a)原子遮盖,随机遮挡原子节点的特征。(b)键删除,随机地删除两个原子之间的键。(c)子图删除,从原始分子图中随机删除一个诱导子图。


总结


作者提出了基于GNNs的分子表征对比学习框架MolCLR和三种分子图增强策略:原子遮盖、键删除和子图删除。实验表明,与以监督学习方式训练的模型相比,MolCLR预训练的GNN模型在各种分子任务上都有不错的效果,并且具有更好的泛化能力。


目录
相关文章
|
8月前
|
数据可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
|
5月前
|
机器学习/深度学习 数据处理 Python
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
本文探讨了统计学与机器学习中的二元投影技术,它基于二元正态分布,用于预测一个变量在给定另一变量值时的期望值。文章分为三部分:首先介绍了二元正态投影的基本公式及其在回归中的应用;接着通过直观解释和模拟展示了不同相关性下变量间的关系;最后运用投影公式推导出线性回归的参数估计,并通过实例说明其在预测房屋价格等场景中的应用。附录中详细推导了二元线性投影的过程。二元投影作为一种强大工具,在数据分析中帮助简化复杂问题并揭示数据背后的规律。
66 1
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
|
数据可视化 Python
使用递归图 recurrence plot 表征时间序列
在本文中,我将展示如何使用递归图 Recurrence Plots 来描述不同类型的时间序列。我们将查看具有500个数据点的各种模拟时间序列。我们可以通过可视化时间序列的递归图并将其与其他已知的不同时间序列的递归图进行比较,从而直观地表征时间序列。
452 0
|
8月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归分析连续变量和分类变量之间的“相关性“
R语言逻辑回归分析连续变量和分类变量之间的“相关性“
|
8月前
【SPSS】两独立样本的极端反应检验和两配对样本的非参数检验详细操作教程(附案例实战)
【SPSS】两独立样本的极端反应检验和两配对样本的非参数检验详细操作教程(附案例实战)
242 0
|
8月前
|
数据挖掘
SPSS两独立样本的非参数检验
SPSS两独立样本的非参数检验
154 0
跟着 Cell 学作图 | 分组蜂群图+均值线+差异分析(组间+组内)
跟着 Cell 学作图 | 分组蜂群图+均值线+差异分析(组间+组内)
206 0
|
算法 测试技术
因果图中的重要概念
本文用直观的图的形式介绍因果图模型中的若干重要概念
149 0
因果图中的重要概念
L2-023 图着色问题 (25 分)(图的遍历)
L2-023 图着色问题 (25 分)(图的遍历)
80 0
|
存储
L2-023 图着色问题 (25 分)
L2-023 图着色问题 (25 分)
127 0
L2-023 图着色问题 (25 分)

热门文章

最新文章