RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型(2)

简介: RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型

4、 RoseTTAFold

DeepMind 在 2020 年的 CASP14 会议上展示了其在该领域的显著成果 AlphaFold2,当时该技术在预测蛋白质方面取得了排名第一的准确率。华盛顿大学医学院蛋白质设计研究所(Institute for Protein Design)的研究者们很大程度上重现了 DeepMind 在蛋白质预测任务上的表现,他们联合哈佛大学、德克萨斯大学西南医学中心、剑桥大学、劳伦斯伯克利国家实验室等机构研发出了一款基于深度学习的蛋白质预测新工具 RoseTTAFold,在预测蛋白质结构上取得了媲美 AlphaFold2 的超高准确率,而且速度更快、所需要的计算机处理能力也较低

RoseTTAFold利用深度学习技术,根据有限信息准确、快速地预测蛋白质结构。从结构上来看,RoseTTAFold 是一个三轨(three-track)神经网络,意味着它可以兼顾蛋白质序列的模式、氨基酸如何相互作用以及蛋白质可能的三维结构。在这种结构中,一维、二维、三维信息来回流动,使得网络能够集中推理蛋白质的化学部分与它的折叠结构。三轨神经网络产生的结构预测精度接近CASP14中DeepMind的精度,能够快速解决具有挑战性的X射线晶体学和冷冻电镜结构建模问题,并提供对目前未知结构的蛋白质功能的见解。该网络还可以仅仅通过序列信息快速生成精确的蛋白质-蛋白质复合物模型,而传统的方法需要对单个子单元进行建模,然后进行对接。


图7 RoseTTAFold网络结构,其中,连续转换和集成1D序列级、2D距离图级和3D坐标级的信息


如图7所示,在该架构中,信息在1D氨基酸序列信息、2D距离图和3D坐标之间来回流动,允许网络共同推理序列、距离和坐标之间的关系。在1D和2D信息处理完成后,在双轨AlphaFold2架构中推理3D原子坐标。由于计算机硬件内存的限制,不能直接在大蛋白质上构建模型,因为三轨模型有数百万个参数;相反,向网络呈现了输入序列的许多不连续作物,其由跨越总共260个残基的两个不连续序列区段组成。为了生成最终模型,将每种作物产生的1D特征、2D距离和方向预测进行组合和平均,然后使用两种方法生成最终的3D结构。首先,将预测的残基-残基距离和取向分布输入pyRosetta以生成全原子模型。在第二种情况下,将平均的1D和2D特征馈入最终的SE-等变层,并且在从氨基酸序列到3D坐标的端到端构建之后,直接生成骨架坐标网络。

项目 SOTA!平台项目详情页
RoseTTAFold 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/rosettafold


5、 DeepAccNet

DeepAccNet是一个深度学习框架,用于估计蛋白质模型中每个残基的准确性和残基-残基距离中的符号错误,并使用这些预测来指导Rosetta蛋白质结构优化。在Rosetta改进方案的多个阶段中,加入准确性预测,可以大大提高所得蛋白质结构模型的准确性,说明深度学习可以改善对生物分子整体能量最小值的搜索。

DeepAccNet结构如图8所示,可在蛋白质结构模型的基础上进行三种类型的预测:每个残基的Cβ局部距离差异测试(Cβ1-DDT)分数,阈值为15Å的局部Cβ接触图,以及来自相应自然结构的有符号Cβ–Cβ距离误差的每个残基对分布。DeepAccNet不是预测每对位置的单个误差值,而是预测误差的直方图,该直方图提供有关可能结构分布的更详细信息,并能更好地表示误差预测所固有的不确定性。


图8 a 深度学习网络(DeepAccNet)由一系列的三维和二维卷积操作组成

DeepAccNet网络被训练来预测(i)每个残基对的签名Cβ-Cβ距离误差分布(误差直方图或简称estogram),(ii)本地Cβ接触图,阈值为15 Å(称为掩码),(iii)每个残基的Cβ l-DDT得分;Cα取自GLY。网络的输入特征包括:距离图、氨基酸的身份和特性、用三维卷积扫描的局部原子环境、骨架角度、残基角度方向、Rosetta能量项和二级结构信息。多重序列比对(MSA)信息以trRosetta网络的残基间距离预测和ProtBert-BFD100模型(简称Bert)的序列嵌入为形式,也可以选择提供二维特征。网络结构和特征的细节在方法中提供。b 机器学习指导的完善协议以三种方式使用训练后的神经网络;估计的Cβ l-DDT分数用于识别更密集的采样和模型重组的区域,估计的成对误差分布用于指导结构的多样化和优化,最后,估计的全局Cβ l-DDT分数,即每个残基值的平均值,用于在迭代完善过程中和结束时选择模型。

DeepAccNet整合了1D、2D和3D特征,首先在以每个残基为中心的坐标框中对局部原子网格执行一系列3D卷积操作,这些卷积生成描述蛋白质中N个残基中每个残基的局部3D环境特征。这些3D特征以及附加的残基水平一维输入特征通过平铺与2D残基-残基输入特征结合在一起,然后使用ResNet架构将生成的组合2D特征描述输入到一系列2D卷积层中。

项目 SOTA!平台项目详情页
DeepAccNet 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/deepaccnet


4、 ESMFold


大型语言模型被证明可以随着规模的扩大而发展出新的能力,超越了简单的模式匹配,可以进行更高层次的推理并生成栩栩如生的图像和文本。虽然在蛋白质序列上训练的语言模型已经在较小的规模上进行了研究,但人们对它们在扩大规模后对生物学的了解知之甚少。在这项工作中,作者训练了高达150亿个参数的模型ESMFold,这是迄今为止被评估的最大的蛋白质语言模型。作者发现,随着模型的扩展,它们学习到的信息能够在单个原子的分辨率下预测蛋白质的三维结构。

ESMFold与AlphaFold2和RoseTTAFold对多序列输入的蛋白质结构预测具有相当的准确度。但ESMFold突出优势在于,其计算速度比AlphaFold2快一个数量级,能够在更有效的时间尺度上探索蛋白质的结构空间。ESMFold使用ESM-2学习的信息和表示来执行端到端的3D结构预测,特别是仅使用单个序列作为输入(AlphaFold2需要多序列输入),方便研究者在使用时通过模型缩放,将模型大小控制在数百万到数十亿量级参数。需要注意的是,随着模型大小的增加,可观察到预测准确性的持续提升。

与AlphaFold2模型类似,ESMFold模型的架构也可以分为四部分:数据解析部分、编码器部分(Folding Trunk)、解码器部分(Structure Module)、循环部分(Recycling)。ESMFold和AlphaFold2之间的一个关键区别是使用语言模型表示来消除对显式同源序列(以MSA的形式)作为输入的要求。语言模型表示作为输入提供给ESMFold的折叠主干。通过将处理MSA的计算量大的Folding Block模块替换为处理序列的Tranformer模块来简化AlphaFold2中的Evoformer。这种简化或优化意味着ESMFold会比基于MSA的模型快得多。此外,ESMFold是一个完全端到端的序列结构预测器,可以完全在GPU上运行,无需访问任何外部数据库。



图9 ESMFold能够从单一序列中进行准确的结构预测。(A) ESMFold模型结构。箭头显示了网络中从语言模型到折叠主干到结构模块的信息流,结构模块输出三维坐标和置信度。折叠主干是AlphaFold2中描述的EvoFormer的一个简化的单序列版本


如图9, ESM-2使用了一个BERT风格的仅有编码器的Transformer架构,并进行了修改。在扩展ESM模型时,改变了层数、注意力头数、隐藏大小和前馈隐藏大小。原始的Transformer论文使用绝对的正弦位置编码来告知模型关于token的位置。这些位置编码被添加到编码器堆栈底部的输入嵌入中。在ESM-2中,使用了旋转位置嵌入(RoPE),以允许模型推断出它所训练的上下文窗口。RoPE略微增加了模型的计算成本,因为它将自注意力范围内的每个查询和关键向量都乘以一个正弦波的嵌入。

AlphaFold2的架构分为两个主要部分,即Evoformer和结构模块。结构模块将最终的表征处理成用于原子级结构预测的三维坐标,不需要做任何改变就可以与ESM-2一起使用。然而,Evoformer建立了单独的MSA和残基对嵌入空间。为了使Evoformer块适应语言模型的特征,ESMFold做的主要改变是消除其对MSA的依赖。由于MSA是二维的,Evoformer在MSA的列和行上采用了轴向注意。语言模型的特征是一维的,所以我们可以用这个特征空间的标准注意力来代替轴向注意力。Evoformer块中的所有其他操作都保持不变。我们把这种简化的结构称为折叠块。ESMFold做的第二个变化涉及到模板的去除。模板信息是以成对距离的形式传递给模型的,是残基对嵌入的输入。作者简单地省略了这一信息,转而传递来自语言模型的注意力图,因为这些已经被证明可以很好地捕捉结构信息。ESMFold有48个折叠块。它在256大小的蛋白质作物上进行了最初的125k步的训练,然后在384大小的作物上用structural violation loss进行了25k步的微调。使用AlphaFold2中引入的框架对齐点误差(Frame Aligned Point Error,FAPE)和distogram损失,以及用于预测lDDT和pTM得分的heads。省略了屏蔽的语言模型损失。冻结语言模型参数,用于训练ESMFold。


项目 SOTA!平台项目详情页
ESMFold 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/esmfold-2


前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及API等资源。

网页端访问:在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。

移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。

目录
打赏
0
0
0
0
368
分享
相关文章
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
【9月更文挑战第25天】《Distillation and Acceleration of Hybrid Models》一文由日内瓦大学、Together AI、康奈尔大学和普林斯顿大学的研究者联合发表,提出将大型Transformer模型(如Llama3)蒸馏成混合线性RNN的新方法,旨在提升长序列生成任务的效率。该方法通过权重映射和多阶段蒸馏,结合渐进蒸馏、监督微调及定向偏好优化技术,有效解决了Transformer模型的二次复杂度和高内存需求问题。实验表明,混合模型在聊天基准测试中表现出色,甚至优于原模型,并通过硬件感知解码算法进一步加速推理。然而,该方法在其他任务上的适用性仍有待验证。
102 7
在12个视频理解任务中,Mamba先打败了Transformer
【5月更文挑战第13天】Mamba,一种状态空间模型,在12个视频理解任务中超越Transformer,显示其在视频编码、解码、生成和分类等角色上的高效性能。研究发现Mamba在视频分类任务中的准确率超出Transformer 2%,并在视频描述生成和问答任务中表现出色。然而,Mamba的训练复杂,需要更多资源,且在处理复杂场景时效果不佳。[查看论文:https://arxiv.org/abs/2403.09626]
178 2
英伟达开源新Backbone涨点方法STL | 让FAN Backbone直接登顶ImageNet-1K等数据集榜单
英伟达开源新Backbone涨点方法STL | 让FAN Backbone直接登顶ImageNet-1K等数据集榜单
194 0
DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了吗?一文总结图像分割必备经典模型(二)(1)
DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了吗?一文总结图像分割必备经典模型(二)
235 0
超越YOLOv7 | YOLOv6论文放出,重参+自蒸馏+感知量化+...各种Tricks大放异彩(二)
超越YOLOv7 | YOLOv6论文放出,重参+自蒸馏+感知量化+...各种Tricks大放异彩(二)
190 0

相关实验场景

更多