斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源

尽管最近研究者在蛋白质结构预测方面取得了进展,但从神经网络直接生成不同的、新颖的蛋白质结构仍然很困难。在这项工作中,本文提出了一种新的基于扩散的生成模型,该模型通过一种反映蛋白质原生折叠过程的过程来设计蛋白质的主链结构。


蛋白质对生命至关重要,几乎在每个生物过程中都发挥着作用。一方面它们能在神经元之间传递信号、识别微观入侵者并激活免疫反应等。另一方面,蛋白质作为一种治疗介质已经得到广泛研究,成为治疗疾病的一部分。因此,通过生成新的、物理上可折叠的蛋白质结构,打开了利用细胞通路治疗疾病新方法的大门。


本文中,来自斯坦福大学、微软研究院等机构的研究者,他们受体内蛋白质折叠过程的启发,从而引入了一个折叠扩散( folding diffusion,FoldingDiff  )模型,该模型通过镜像蛋白质天然折叠过程来设计蛋白质主链结构。




具体而言,他们将蛋白质主链结构描述为一系列连续的角度,以捕捉组成氨基酸残基的相对方向,这种表示的固有位移和旋转不变性极大地减轻了对复杂等变网络的需要。


该研究基于 transformer 骨干训练了一个去噪扩散概率模型,并证明本文的模型可以无条件地生成高度逼真的蛋白质结构,其复杂性和结构模式类似于天然蛋白质。



有网友表示:不知道这个模型是否会为 AlphaFold 带来一些竞争。



方法及结果


我们可以将蛋白质理解为是可变长度的氨基酸残基链,典型氨基酸有 20 种,享有相同的三原子 N - C_α - C 主链,但具有不同的侧链连接到 C_α 原子上(通常表示为 R,参见图 1 所示 )。


这些残基组装形成聚合物链,折叠成 3D 结构,其形状在很大程度上决定了蛋白质的功能。这些折叠结构可以用四个层次来描述:


  • 一级结构,简单地捕捉氨基酸的线性序列;
  • 二级结构,描述氨基酸的局部排列;
  • 三级结构,描述所有残基的完整空间排列;
  • 四级结构,描述多个不同的氨基酸链如何聚集在一起形成更大的复合物。


该研究提出了一个简化的蛋白质主链框架,它遵循蛋白质折叠的生物学过程,同时消除了复杂的等变网络的需要。与其将长度为 N 个氨基酸的蛋白质主链视为三维坐标,他们把它看作由六个内角、连续角组成的序列。也就是说,给定当前残基的位置,六个内角的向量描述了下一个残基中所有主链原子的相对位置。这些内角可以使用三角函数轻松计算,迭代地将原子添加到蛋白质骨架中,然后在转换回 3D 笛卡尔坐标。




下图为一项实验结果。自然结构的 Ramachandran 图(图 a)包含三个区域,分别对应于 LH  α螺旋、RH  α 螺旋和β sheet。所有这三个区域都在本文生成的结构中全部再现(图 3b)。换句话说,FoldingDiff 能够生成蛋白质主链中的二级结构元素。此外,实验还表明 FoldingDiff 模型能够正确地了解到 RH  α 螺旋比 LH  α 螺旋更常见。而先前的工作使用等变网络,是无法区分这两种类型的螺旋的。



下图为在测试主链 (4a) 和生成主链 (4b) 中出现二级结构的二维直方图,结果表明生成的结构反映了蛋白质真实的结构,有多个α螺旋,多个β sheets ,以及两者的混合。



下图表明,在生成的 780 个结构中有 111 个(占比为 14.2%)是可设计的,其 scTM 评分≥0.5(图 5a),高于 Trippe 等人报告的 11.8% 的值。我们还看到,生成的主链与训练示例更相似,往往具有更好的可设计性(5b)。


了解更多内容,请阅读原论文。

相关文章
|
3天前
|
机器学习/深度学习 人工智能 自动驾驶
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
【2月更文挑战第18天】ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
67 1
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
|
3天前
|
机器学习/深度学习 自然语言处理
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
【4月更文挑战第17天】香港中文大学(深圳)研究团队发表综述论文,探讨大型语言模型(LLMs)与强化学习(RL)结合的四条技术路线:信息处理器、奖励设计者、决策制定者和生成器。LLMs提升RL在多任务学习和样本效率,但处理复杂环境时仍有挑战。它们能设计奖励函数,但预训练知识限制在专业任务中的应用。作为决策者和生成器,LLMs提高样本效率和行为解释,但计算开销是问题。
63 1
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
|
12月前
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(2)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
168 0
|
12月前
|
人工智能 算法 网络架构
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(1)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
149 0
|
12月前
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
248 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
中山大学HCP实验室新突破:用因果范式再升级多模态大模型
中山大学HCP实验室新突破:用因果范式再升级多模态大模型
116 0
|
机器学习/深度学习 人工智能 算法
业界首个适用于固体系统的神经网络波函数,登上Nature子刊
业界首个适用于固体系统的神经网络波函数,登上Nature子刊
业界首个适用于固体系统的神经网络波函数,登上Nature子刊
|
人工智能 数据库
世间几乎所有已知蛋白质结构,都被DeepMind开源了
世间几乎所有已知蛋白质结构,都被DeepMind开源了
|
机器学习/深度学习 人工智能
挑战人类认知推理新任务,MIT、UCLA、斯坦福联合提出新一代视觉推理数据集
挑战人类认知推理新任务,MIT、UCLA、斯坦福联合提出新一代视觉推理数据集
186 0
|
机器学习/深度学习 人工智能 自然语言处理
稀疏模型最新进展!马毅+LeCun强强联手:「白盒」非监督式学习|ICLR 2023
稀疏模型最新进展!马毅+LeCun强强联手:「白盒」非监督式学习|ICLR 2023
286 0