arXiv | 图表示方法驱动大分子计算研究

简介: arXiv | 图表示方法驱动大分子计算研究

image.png

今天给大家介绍的是麻省理工学院(MIT)材料科学与工程系研究人员近期发表在arXiv上的一篇有关大分子表示的研究。作者提出一种大分子的图表示方法,为大分子的表示、比较和学习提供了一个通用框架;并实现了定量的化学信息决策和大分子化学空间的迭代设计。


介绍


生物大分子构成了生命的基础,是生存和生长的强大动力。单个大分子是由单体,用于连接的键及空间排列组合而成。研究人员通过改变单体,键和拓扑结构(线性和非线性,如支链形,星形和瓶刷形)探索了广阔的化学空间。与用于表示小分子的SMILES类似,大分子可以用线性表示法表示。但如蛋白质和DNA/RNA的线性生物大分子例外,它们通常用单个或三个字母的单体编码的序列表示。但这些方式常常受到其化学空间的覆盖范围以及支持所有拓扑结构的能力的限制,并且常常要根据单体的不同而重新设计表示方式。


近年来,有许多利用序列比对,编辑距离,线性核和深度学习方法计算大分子相似性的工作,但这些方法仅限于生物大分子,不能扩展到一般的大分子化学空间,并且现有的用于生物大分子的工具不允许掺入非天然单体,除了聚糖特异性工具之外,也不能处理非线性拓扑结构。


这项工作中,作者提出了一种用于表示大分子的图表示方法,使用带有Tanimoto化学相似性矩阵和传播图核(propagation graph kernels)的图编辑距离(graph edit distances,GEDs)来计算图相似性。此外,还针对不同的任务训练了一套图神经网络模型,在聚糖数据集上取得了最好的结果。


模型


作者使用通用文本文件格式将大分子结构转换为机器可读格式。文本文件包含3个部分-SMILES,MONOMERS和BONDS。然后将大分子解析成带有节点和边属性的NetworkX图,使用立体化学扩展连通性指纹对单体和键分子进行特征化。这种表示方式使大分子在其原生状态下的立体化学和拓扑的明确功能化的描述成为可能,并提供了一个单一的框架来表示天然和合成、线性和非线性大分子。

image.png

图1 大分子的图表示


利用这种独特的表示方式,作者使用精确的GED评分与Tanimoto相似性替换矩阵,以及图核,来计算2个或多个大分子图之间的相似性(图1B)。GED通过分配节点和边替换的分数来计算两个图之间的相似度。并且使用Tanimoto相似度矩阵代替基于进化统计的替换矩阵,计算分子指纹之间的相似度(图2A,B)。为了解决计算GED成本高的问题,作者使用传播属性核来获得大型数据集的相似度矩阵。此外,作者还分析了聚糖数据集的相似性向量。在GraKeL中实现的传播属性核用于计算相似度(图2C)。该核为大分子图提供了绝佳的选择,因为它们捕获了本地节点信息并沿边缘迭代地传播了这些信息。以这种方式,核捕获了大分子的局部单体化学和整体拓扑。

image.png

图2 聚糖具有广泛的化学相似性


作者提出降维更多地受分类学分类的影响,而不是免疫原性的影响。在图2D中,作者按域着色绘制,可以观察到域的排列与进化过程相似,从中心的细菌开始,然后是真核生物,然后在边缘出现病毒,可以看出,免疫原性是属于特定结构域的聚糖的结果,例如细菌具有免疫原性。


实验


作者针对指纹,one-hot节点和边属性训练了5种GNN模型架构,以针对免疫原性和8个分类标准对聚糖进行分类。对于每个任务,作者评估了分类指标,该分类指标通过对至少具有5个随机初始化种子的前5个超参数集重新训练的模型进行平均化获得(表1)。实验表明,该模型获得了最好的结果,并且表现优于文献报道的指标。


表1 在测试数据集上获得最佳模型属性组合的度量

image.png

总结

大分子图表示与分子指纹、图相似性和GNN相结合,提供了一个表示、计算相似性和机器学习大分子的框架。这项工作为大分子的计算研究提供了一种化学方法。在不久的将来,作者将在包括蛋白质和DNA / RNA在内的各种大分子数据集上验证该模型的适用性。

目录
相关文章
|
9天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图基本介绍
近年来,AI框架如TensorFlow和PyTorch通过计算图描述神经网络,推动了AI技术的发展。计算图不仅抽象了神经网络的计算表达,还支持了模型算子的高效执行、梯度计算及参数训练。随着模型复杂度增加,如MOE、GAN、Attention Transformer等,AI框架需具备快速分析模型结构的能力,以优化训练效率。计算图与自动微分紧密结合,实现了从前向计算到反向传播的全流程自动化。
31 4
【AI系统】计算图基本介绍
|
9天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图原理
本文介绍了AI框架中使用计算图来抽象神经网络计算的必要性和优势,探讨了计算图的基本构成,包括标量、向量、矩阵、张量等数据结构及其操作,并详细解释了计算图如何帮助解决AI工程化中的挑战。此外,文章还通过PyTorch实例展示了动态计算图的特点和实现方法,包括节点(张量或函数)和边(依赖关系)的定义,以及如何通过自定义Function实现正向和反向传播逻辑。
36 7
|
22天前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
36 7
|
2月前
|
并行计算 数据可视化
ECCV 2024:JHU上交等提出首个可渲染X光3DGS!推理速度73倍NeRF,性能提升6.5dB
【10月更文挑战第8天】近日,约翰斯•霍普金斯大学和上海交通大学等机构的研究人员提出了一种名为X-Gaussian的新型3D Gaussian Splatting框架,用于X光新视角合成。该框架通过优化辐射性Gaussian点云模型和可微分辐射光栅化技术,显著提升了X光成像的渲染质量,同时大幅减少了训练时间和推理时间。实验结果显示,X-Gaussian在性能上比现有方法提升了6.5dB,训练时间减少了85%,推理速度提高了73倍。此外,该框架在稀疏视角CT重建中也展现出巨大潜力。
53 4
|
机器学习/深度学习 算法
如何解决图神经网络过相关?一个IBM的新视角!
如何解决图神经网络过相关?一个IBM的新视角!
142 0
|
机器学习/深度学习 人工智能 架构师
AI框架跟计算图什么关系?PyTorch如何表达计算图?
目前主流的深度学习框架都选择使用计算图来抽象神经网络计算表达,通过通用的数据结构(张量)来理解、表达和执行神经网络模型,通过计算图可以把 AI 系统化的问题形象地表示出来。 本节将会以AI概念落地的时候,遇到的一些问题与挑战,因此引出了计算图的概念来对神经网络模型进行统一抽象。接着展开什么是计算,计算图的基本构成来深入了解诶计算图。最后简单地学习PyTorch如何表达计算图。
200 0
|
机器学习/深度学习 存储 自然语言处理
10行代码搞定图Transformer,图神经网络框架DGL迎来1.0版本
10行代码搞定图Transformer,图神经网络框架DGL迎来1.0版本
252 0
|
机器学习/深度学习 人工智能 算法
CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架
CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架
219 0
|
机器学习/深度学习 计算机视觉
牛啊,几乎涵盖了图神经网络所有操作
牛啊,几乎涵盖了图神经网络所有操作
|
编解码 PyTorch 算法框架/工具
以 CVPR2023 的半监督语义分割工作 UniMatch 为例,聊聊一篇顶会论文的idea是如何逐步挖掘出来的!
以 CVPR2023 的半监督语义分割工作 UniMatch 为例,聊聊一篇顶会论文的idea是如何逐步挖掘出来的!
537 0