机器学习加速药物发现,基于 GNN 的分子表征对比学习

简介: 机器学习加速药物发现,基于 GNN 的分子表征对比学习

快速准确地预测分子特性,对于推进从材料科学到制药等领域的科学发现和应用具有重要意义。由于探索潜在选择的实验和模拟既耗时又昂贵,科学家们开始使用机器学习 (ML) 方法来帮助计算化学研究。但是,大多数 ML 模型只能利用已知或标记的数据。这使得准确预测新化合物的性质几乎是不可能的。虽然标记的分子数据数量有限,但可行但未标记的数据数量正在迅速增长。卡内基梅隆大学的研究人员思考他们是否可以利用这大量的未标记分子来建立ML模型,这种模型在属性预测方面比其他模型表现更好。他们最终开发了一个名为 MolCLR(Molecular Contrastive Learning of Representations with GNN) 的自我监督学习框架。MolCLR 通过利用大约 1000 万个未标记的分子数据,显著提高了 ML 模型的性能。该研究结果以「Molecular contrastive learning of representations via graph neural networks」为题,于 2022 年 3 月 3 日发表在《Nature Machine Intelligence》上。分子表征在新型化合物的设计中是基础和必不可少的。由于可能的稳定化合物的数量巨大,开发一种信息表示以概括整个化学空间可能具有挑战性。传统的分子表示,例如扩展连接指纹(ECFP),已成为计算化学中的标准工具。近年来,随着机器学习方法的发展,数据驱动的分子表示学习及其应用,包括化学性质预测、化学建模和分子设计,越来越受到关注。然而,学习这样的表示可能很困难。首先,分子信息很难完整地表示出来。其次,化学空间的大小是巨大的,这使任何分子表示都很难在可能的化合物中泛化。第三,分子学习任务的标记数据昂贵且远远不够。因此,大多数分子学习基准中的标签数量远远不够。在如此有限的数据上训练的机器学习模型很容易过度拟合,并且在与训练集不同的分子上表现不佳。受益于可用分子数据的增长,自我监督/预训练的分子表示学习也得到了研究。在这里,研究人员提出了 MolCLR(通过图神经网络进行表征的分子对比学习)来解决上述所有挑战。这是一种利用大量未标记数据(约 1000 万个独特分子)的自我监督学习框架。

MolCLR 框架

MolCLR 模型是在对比学习框架的基础上开发的。来自正增强分子图对的潜在表示与来自负对的表示形成对比。整个管道由四个部分组成:数据处理和增强、基于 GNN 的特征提取器、非线性投影头和归一化温度标度交叉熵(NT-Xent)对比损失。

图示:MolCLR 概述。(来源:论文)

MolCLR 预训练的 GNN 模型针对分子特性预测进行了微调。与预训练模型类似,预测模型由 GNN 主干和 MLP 头组成,其中前者与预训练的特征提取器共享相同的模型,后者将特征映射到预测的分子属性中。微调模型中的 GNN 主干网络通过预训练模型的参数共享进行初始化,而 MLP 头则随机初始化。然后在目标分子特性数据库上以监督学习的方式训练整个微调模型。三种分子图增强策略在 MolCLR 预训练中,构建分子图并开发图神经网络编码器来学习可微表征。提出了三种分子图增强策略:原子掩蔽、键删除和子图删除。在原子掩蔽中,消除了有关分子的一条信息。在键删除中,原子之间的化学键被擦除。两种增强的组合导致子图删除。通过这三种类型的变化,MolCLR 被迫学习内在信息并进行关联。分子性质预测为了证明 MolCLR 的有效性,研究人员对来自 MoleculeNet 的多个具有挑战性的分类和回归任务的性能进行了基准测试。表 1:不同模型在七种分类基准上的测试性能。(来源:论文)

研究得出:(1)与其他自监督学习或预训练策略相比,MolCLR 框架在 7 个基准测试中有 5 个实现了最佳性能,平均提高了 4.0%。这种改进说明 MolCLR 是一种强大的自我监督学习策略,它很容易实现,并且对特定领域的复杂性要求很少。(2)与表现最好的监督学习基线相比,MolCLR 也表现出可匹敌的性能。在一些基准测试(例如,ClinTox、BACE、MUV)中,MolCLR 甚至超过了 SOTA 监督学习方法。(3)值得注意的是,MolCLR 在分子数量有限的数据集上表现非常出色,例如 ClinTox、BACE 和 SIDER。该性能验证了 MolCLR 学习了可以在不同数据集之间传输的信息表示。MolCLR 表征的研究研究人员使用 t-SNE 嵌入检查由预训练的 MolCLR 学习的表示。t-SNE 算法将紧密的分子表示映射到 2D 中的相邻点。MolCLR 学习了具有相似拓扑结构和官能团的分子的紧密表示。例如,顶部显示的三个分子具有与芳基连接的羰基。左下角显示的两个分子具有相似的结构,其中一个卤素原子(氟或氯)与苯相连。这说明即使没有标签,该模型也会学习分子之间的内在联系,因为具有相似特性的分子具有相似的特征。图示:MolCLR 通过 t-SNE 学习的分子表征的可视化。(来源:论文)为了进一步评估 MolCLR,研究人员将 MolCLR 学习的表示与传统的分子 FP(例如 ECFP5 和 RDKFP)进行了比较。

图示:使用查询分子 (PubChem ID 42953211) 比较 MolCLR 学习表示和传统 FP。(来源:论文)

研究表明:通过对大量未标记数据的对比学习,MolCLR 自动将分子嵌入到代表性特征中,并以化学上合理的方式区分化合物。「我们已经证明 MolCLR 有望实现高效的分子设计,」通讯作者、机械工程助理教授 Amir Barati Farimani 说。「它可以应用于多种应用,包括药物发现、能源储存和环境保护。」作为未来的工作,有许多值得研究的方向。例如,GNN 主干的改进(例如,基于 Transformer 的 GNN 架构)可以帮助提取更好的分子表示。此外,自我监督学习表示的可视化和解释也很有趣。这样的研究可以帮助研究人员更好地了解化合物,有利于药物发现。

论文链接:https://www.nature.com/articles/s42256-022-00447-x

参考内容:https://techxplore.com/news/2022-03-machine-smarter-drug-discovery.html


相关文章
|
2月前
|
机器学习/深度学习 算法
【机器学习】迅速了解什么是集成学习
【机器学习】迅速了解什么是集成学习
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
158 1
|
4月前
|
机器学习/深度学习 开发者 Python
Python 与 R 在机器学习入门中的学习曲线差异
【8月更文第6天】在机器学习领域,Python 和 R 是两种非常流行的编程语言。Python 以其简洁的语法和广泛的社区支持著称,而 R 则以其强大的统计功能和数据分析能力受到青睐。本文将探讨这两种语言在机器学习入门阶段的学习曲线差异,并通过构建一个简单的线性回归模型来比较它们的体验。
73 7
|
4月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
77 9
|
4月前
|
机器学习/深度学习
【机器学习】模型融合Ensemble和集成学习Stacking的实现
文章介绍了使用mlxtend和lightgbm库中的分类器,如EnsembleVoteClassifier和StackingClassifier,以及sklearn库中的SVC、KNeighborsClassifier等进行模型集成的方法。
61 1
|
4月前
|
机器学习/深度学习 人工智能 算法
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
152 0
|
5月前
|
机器学习/深度学习 算法 前端开发
集成学习(Ensemble Learning)是一种机器学习技术,它通过将多个学习器(或称为“基学习器”、“弱学习器”)的预测结果结合起来,以提高整体预测性能。
集成学习(Ensemble Learning)是一种机器学习技术,它通过将多个学习器(或称为“基学习器”、“弱学习器”)的预测结果结合起来,以提高整体预测性能。
|
5月前
|
机器学习/深度学习 人工智能 缓存
人工智能平台PAI使用问题之如何配置学习任务
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 算法 前端开发
机器学习中的集成学习(二)
**集成学习概述** 集成学习通过结合多个弱学习器创建强学习器,如Bagging(Bootstrap Aggregating)和Boosting。Bagging通过随机采样产生训练集,训练多个弱模型,然后平均(回归)或投票(分类)得出结果,减少方差和过拟合。Boosting则是迭代过程,每个弱学习器专注于难分类样本,逐步调整样本权重,形成加权平均的强学习器。典型算法有AdaBoost、GBDT、XGBoost等。两者区别在于,Bagging模型并行训练且独立,而Boosting模型间有依赖,重视错误分类。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习中的集成学习(一)
集成学习是一种将多个弱学习器组合成强学习器的方法,通过投票法、平均法或加权平均等策略减少错误率。它分为弱分类器集成、模型融合和混合专家模型三个研究领域。简单集成技术包括投票法(用于分类,少数服从多数)、平均法(回归问题,预测值取平均)和加权平均法(调整模型权重以优化结果)。在实际应用中,集成学习如Bagging和Boosting是与深度学习并驾齐驱的重要算法,常用于数据竞赛和工业标准。