RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型(2)

简介: RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型

4、 RoseTTAFold

DeepMind 在 2020 年的 CASP14 会议上展示了其在该领域的显著成果 AlphaFold2,当时该技术在预测蛋白质方面取得了排名第一的准确率。华盛顿大学医学院蛋白质设计研究所(Institute for Protein Design)的研究者们很大程度上重现了 DeepMind 在蛋白质预测任务上的表现,他们联合哈佛大学、德克萨斯大学西南医学中心、剑桥大学、劳伦斯伯克利国家实验室等机构研发出了一款基于深度学习的蛋白质预测新工具 RoseTTAFold,在预测蛋白质结构上取得了媲美 AlphaFold2 的超高准确率,而且速度更快、所需要的计算机处理能力也较低

RoseTTAFold利用深度学习技术,根据有限信息准确、快速地预测蛋白质结构。从结构上来看,RoseTTAFold 是一个三轨(three-track)神经网络,意味着它可以兼顾蛋白质序列的模式、氨基酸如何相互作用以及蛋白质可能的三维结构。在这种结构中,一维、二维、三维信息来回流动,使得网络能够集中推理蛋白质的化学部分与它的折叠结构。三轨神经网络产生的结构预测精度接近CASP14中DeepMind的精度,能够快速解决具有挑战性的X射线晶体学和冷冻电镜结构建模问题,并提供对目前未知结构的蛋白质功能的见解。该网络还可以仅仅通过序列信息快速生成精确的蛋白质-蛋白质复合物模型,而传统的方法需要对单个子单元进行建模,然后进行对接。


图7 RoseTTAFold网络结构,其中,连续转换和集成1D序列级、2D距离图级和3D坐标级的信息


如图7所示,在该架构中,信息在1D氨基酸序列信息、2D距离图和3D坐标之间来回流动,允许网络共同推理序列、距离和坐标之间的关系。在1D和2D信息处理完成后,在双轨AlphaFold2架构中推理3D原子坐标。由于计算机硬件内存的限制,不能直接在大蛋白质上构建模型,因为三轨模型有数百万个参数;相反,向网络呈现了输入序列的许多不连续作物,其由跨越总共260个残基的两个不连续序列区段组成。为了生成最终模型,将每种作物产生的1D特征、2D距离和方向预测进行组合和平均,然后使用两种方法生成最终的3D结构。首先,将预测的残基-残基距离和取向分布输入pyRosetta以生成全原子模型。在第二种情况下,将平均的1D和2D特征馈入最终的SE-等变层,并且在从氨基酸序列到3D坐标的端到端构建之后,直接生成骨架坐标网络。

项目 SOTA!平台项目详情页
RoseTTAFold 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/rosettafold


5、 DeepAccNet

DeepAccNet是一个深度学习框架,用于估计蛋白质模型中每个残基的准确性和残基-残基距离中的符号错误,并使用这些预测来指导Rosetta蛋白质结构优化。在Rosetta改进方案的多个阶段中,加入准确性预测,可以大大提高所得蛋白质结构模型的准确性,说明深度学习可以改善对生物分子整体能量最小值的搜索。

DeepAccNet结构如图8所示,可在蛋白质结构模型的基础上进行三种类型的预测:每个残基的Cβ局部距离差异测试(Cβ1-DDT)分数,阈值为15Å的局部Cβ接触图,以及来自相应自然结构的有符号Cβ–Cβ距离误差的每个残基对分布。DeepAccNet不是预测每对位置的单个误差值,而是预测误差的直方图,该直方图提供有关可能结构分布的更详细信息,并能更好地表示误差预测所固有的不确定性。


图8 a 深度学习网络(DeepAccNet)由一系列的三维和二维卷积操作组成

DeepAccNet网络被训练来预测(i)每个残基对的签名Cβ-Cβ距离误差分布(误差直方图或简称estogram),(ii)本地Cβ接触图,阈值为15 Å(称为掩码),(iii)每个残基的Cβ l-DDT得分;Cα取自GLY。网络的输入特征包括:距离图、氨基酸的身份和特性、用三维卷积扫描的局部原子环境、骨架角度、残基角度方向、Rosetta能量项和二级结构信息。多重序列比对(MSA)信息以trRosetta网络的残基间距离预测和ProtBert-BFD100模型(简称Bert)的序列嵌入为形式,也可以选择提供二维特征。网络结构和特征的细节在方法中提供。b 机器学习指导的完善协议以三种方式使用训练后的神经网络;估计的Cβ l-DDT分数用于识别更密集的采样和模型重组的区域,估计的成对误差分布用于指导结构的多样化和优化,最后,估计的全局Cβ l-DDT分数,即每个残基值的平均值,用于在迭代完善过程中和结束时选择模型。

DeepAccNet整合了1D、2D和3D特征,首先在以每个残基为中心的坐标框中对局部原子网格执行一系列3D卷积操作,这些卷积生成描述蛋白质中N个残基中每个残基的局部3D环境特征。这些3D特征以及附加的残基水平一维输入特征通过平铺与2D残基-残基输入特征结合在一起,然后使用ResNet架构将生成的组合2D特征描述输入到一系列2D卷积层中。

项目 SOTA!平台项目详情页
DeepAccNet 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/deepaccnet


4、 ESMFold


大型语言模型被证明可以随着规模的扩大而发展出新的能力,超越了简单的模式匹配,可以进行更高层次的推理并生成栩栩如生的图像和文本。虽然在蛋白质序列上训练的语言模型已经在较小的规模上进行了研究,但人们对它们在扩大规模后对生物学的了解知之甚少。在这项工作中,作者训练了高达150亿个参数的模型ESMFold,这是迄今为止被评估的最大的蛋白质语言模型。作者发现,随着模型的扩展,它们学习到的信息能够在单个原子的分辨率下预测蛋白质的三维结构。

ESMFold与AlphaFold2和RoseTTAFold对多序列输入的蛋白质结构预测具有相当的准确度。但ESMFold突出优势在于,其计算速度比AlphaFold2快一个数量级,能够在更有效的时间尺度上探索蛋白质的结构空间。ESMFold使用ESM-2学习的信息和表示来执行端到端的3D结构预测,特别是仅使用单个序列作为输入(AlphaFold2需要多序列输入),方便研究者在使用时通过模型缩放,将模型大小控制在数百万到数十亿量级参数。需要注意的是,随着模型大小的增加,可观察到预测准确性的持续提升。

与AlphaFold2模型类似,ESMFold模型的架构也可以分为四部分:数据解析部分、编码器部分(Folding Trunk)、解码器部分(Structure Module)、循环部分(Recycling)。ESMFold和AlphaFold2之间的一个关键区别是使用语言模型表示来消除对显式同源序列(以MSA的形式)作为输入的要求。语言模型表示作为输入提供给ESMFold的折叠主干。通过将处理MSA的计算量大的Folding Block模块替换为处理序列的Tranformer模块来简化AlphaFold2中的Evoformer。这种简化或优化意味着ESMFold会比基于MSA的模型快得多。此外,ESMFold是一个完全端到端的序列结构预测器,可以完全在GPU上运行,无需访问任何外部数据库。



图9 ESMFold能够从单一序列中进行准确的结构预测。(A) ESMFold模型结构。箭头显示了网络中从语言模型到折叠主干到结构模块的信息流,结构模块输出三维坐标和置信度。折叠主干是AlphaFold2中描述的EvoFormer的一个简化的单序列版本


如图9, ESM-2使用了一个BERT风格的仅有编码器的Transformer架构,并进行了修改。在扩展ESM模型时,改变了层数、注意力头数、隐藏大小和前馈隐藏大小。原始的Transformer论文使用绝对的正弦位置编码来告知模型关于token的位置。这些位置编码被添加到编码器堆栈底部的输入嵌入中。在ESM-2中,使用了旋转位置嵌入(RoPE),以允许模型推断出它所训练的上下文窗口。RoPE略微增加了模型的计算成本,因为它将自注意力范围内的每个查询和关键向量都乘以一个正弦波的嵌入。

AlphaFold2的架构分为两个主要部分,即Evoformer和结构模块。结构模块将最终的表征处理成用于原子级结构预测的三维坐标,不需要做任何改变就可以与ESM-2一起使用。然而,Evoformer建立了单独的MSA和残基对嵌入空间。为了使Evoformer块适应语言模型的特征,ESMFold做的主要改变是消除其对MSA的依赖。由于MSA是二维的,Evoformer在MSA的列和行上采用了轴向注意。语言模型的特征是一维的,所以我们可以用这个特征空间的标准注意力来代替轴向注意力。Evoformer块中的所有其他操作都保持不变。我们把这种简化的结构称为折叠块。ESMFold做的第二个变化涉及到模板的去除。模板信息是以成对距离的形式传递给模型的,是残基对嵌入的输入。作者简单地省略了这一信息,转而传递来自语言模型的注意力图,因为这些已经被证明可以很好地捕捉结构信息。ESMFold有48个折叠块。它在256大小的蛋白质作物上进行了最初的125k步的训练,然后在384大小的作物上用structural violation loss进行了25k步的微调。使用AlphaFold2中引入的框架对齐点误差(Frame Aligned Point Error,FAPE)和distogram损失,以及用于预测lDDT和pTM得分的heads。省略了屏蔽的语言模型损失。冻结语言模型参数,用于训练ESMFold。


项目 SOTA!平台项目详情页
ESMFold 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/esmfold-2


前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及API等资源。

网页端访问:在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。

移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。

相关文章
|
10月前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
11月前
|
前端开发
`Promise.allSettled()`方法与`Promise.all()`方法有何不同?
`Promise.allSettled()` 提供了一种更灵活和全面的方式来处理多个 `Promise`,使得我们能够更好地应对各种异步操作的情况,尤其是需要详细了解每个 `Promise` 结果的场景。
|
11月前
|
人工智能 算法 大数据
Linux内核中的调度算法演变:从O(1)到CFS的优化之旅###
本文深入探讨了Linux操作系统内核中进程调度算法的发展历程,聚焦于O(1)调度器向完全公平调度器(CFS)的转变。不同于传统摘要对研究背景、方法、结果和结论的概述,本文创新性地采用“技术演进时间线”的形式,简明扼要地勾勒出这一转变背后的关键技术里程碑,旨在为读者提供一个清晰的历史脉络,引领其深入了解Linux调度机制的革新之路。 ###
|
JavaScript 前端开发 数据安全/隐私保护
Vue.js 表单处理技巧大揭秘!v-model 与自定义验证综合运用,打造高效表单处理体验!
【8月更文挑战第31天】Vue.js 是一款备受欢迎的前端框架,其表单处理功能强大且灵活。v-model 指令可实现双向数据绑定,简化表单元素值与 Vue 实例数据的同步过程;结合自定义验证规则,则能确保用户输入数据符合特定要求。无论是简单的单字段校验还是复杂的多字段验证,Vue.js 均提供了简洁有效的解决方案,有效提升了表单处理效率及用户体验。通过综合运用 v-model 和自定义验证,开发者能够实时反馈错误信息并控制表单状态,从而增强应用的交互性与可靠性。
184 0
|
算法 数据处理 数据库
生物学经典Blast序列比对算法原理,如何在R语言和Python中实现序列的比对分析?
生物学经典Blast序列比对算法原理,如何在R语言和Python中实现序列的比对分析?
|
Unix 应用服务中间件 nginx
安装nginx:src/os/unix/ngx_user.c:26:7: error: ‘struct crypt_data’ has no member named ‘curren
安装nginx:src/os/unix/ngx_user.c:26:7: error: ‘struct crypt_data’ has no member named ‘curren
1184 1
安装nginx:src/os/unix/ngx_user.c:26:7: error: ‘struct crypt_data’ has no member named ‘curren
|
机器学习/深度学习 数据挖掘 Docker
《Docker 简易速速上手小册》第1章 Docker 基础入门(2024 最新版)
《Docker 简易速速上手小册》第1章 Docker 基础入门(2024 最新版)
242 2
|
域名解析 缓存 网络协议
Python中使用`requests`库连接池与性能优化技术
【4月更文挑战第12天】在Python的网络编程中,`requests`库因其简洁易用的API和强大的功能而备受欢迎。然而,在高并发或大量请求的场景下,直接使用`requests`发送请求可能会导致性能瓶颈。为了解决这个问题,我们可以利用`requests`库提供的连接池(Connection Pooling)机制,以及采取一些性能优化措施,来提升请求的处理效率和稳定性。
1312 1
|
机器学习/深度学习 人工智能 监控
RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型(1)
RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型
566 0