今天给大家介绍的是麻省理工学院(MIT)材料科学与工程系研究人员近期发表在arXiv上的一篇有关大分子表示的研究。作者提出一种大分子的图表示方法,为大分子的表示、比较和学习提供了一个通用框架;并实现了定量的化学信息决策和大分子化学空间的迭代设计。
介绍
生物大分子构成了生命的基础,是生存和生长的强大动力。单个大分子是由单体,用于连接的键及空间排列组合而成。研究人员通过改变单体,键和拓扑结构(线性和非线性,如支链形,星形和瓶刷形)探索了广阔的化学空间。与用于表示小分子的SMILES类似,大分子可以用线性表示法表示。但如蛋白质和DNA/RNA的线性生物大分子例外,它们通常用单个或三个字母的单体编码的序列表示。但这些方式常常受到其化学空间的覆盖范围以及支持所有拓扑结构的能力的限制,并且常常要根据单体的不同而重新设计表示方式。
近年来,有许多利用序列比对,编辑距离,线性核和深度学习方法计算大分子相似性的工作,但这些方法仅限于生物大分子,不能扩展到一般的大分子化学空间,并且现有的用于生物大分子的工具不允许掺入非天然单体,除了聚糖特异性工具之外,也不能处理非线性拓扑结构。
这项工作中,作者提出了一种用于表示大分子的图表示方法,使用带有Tanimoto化学相似性矩阵和传播图核(propagation graph kernels)的图编辑距离(graph edit distances,GEDs)来计算图相似性。此外,还针对不同的任务训练了一套图神经网络模型,在聚糖数据集上取得了最好的结果。
模型
作者使用通用文本文件格式将大分子结构转换为机器可读格式。文本文件包含3个部分-SMILES,MONOMERS和BONDS。然后将大分子解析成带有节点和边属性的NetworkX图,使用立体化学扩展连通性指纹对单体和键分子进行特征化。这种表示方式使大分子在其原生状态下的立体化学和拓扑的明确功能化的描述成为可能,并提供了一个单一的框架来表示天然和合成、线性和非线性大分子。
图1 大分子的图表示
利用这种独特的表示方式,作者使用精确的GED评分与Tanimoto相似性替换矩阵,以及图核,来计算2个或多个大分子图之间的相似性(图1B)。GED通过分配节点和边替换的分数来计算两个图之间的相似度。并且使用Tanimoto相似度矩阵代替基于进化统计的替换矩阵,计算分子指纹之间的相似度(图2A,B)。为了解决计算GED成本高的问题,作者使用传播属性核来获得大型数据集的相似度矩阵。此外,作者还分析了聚糖数据集的相似性向量。在GraKeL中实现的传播属性核用于计算相似度(图2C)。该核为大分子图提供了绝佳的选择,因为它们捕获了本地节点信息并沿边缘迭代地传播了这些信息。以这种方式,核捕获了大分子的局部单体化学和整体拓扑。
图2 聚糖具有广泛的化学相似性
作者提出降维更多地受分类学分类的影响,而不是免疫原性的影响。在图2D中,作者按域着色绘制,可以观察到域的排列与进化过程相似,从中心的细菌开始,然后是真核生物,然后在边缘出现病毒,可以看出,免疫原性是属于特定结构域的聚糖的结果,例如细菌具有免疫原性。
实验
作者针对指纹,one-hot节点和边属性训练了5种GNN模型架构,以针对免疫原性和8个分类标准对聚糖进行分类。对于每个任务,作者评估了分类指标,该分类指标通过对至少具有5个随机初始化种子的前5个超参数集重新训练的模型进行平均化获得(表1)。实验表明,该模型获得了最好的结果,并且表现优于文献报道的指标。
表1 在测试数据集上获得最佳模型属性组合的度量
总结
大分子图表示与分子指纹、图相似性和GNN相结合,提供了一个表示、计算相似性和机器学习大分子的框架。这项工作为大分子的计算研究提供了一种化学方法。在不久的将来,作者将在包括蛋白质和DNA / RNA在内的各种大分子数据集上验证该模型的适用性。