让所有人都能做蛋白质结构预测,华为昇思 MindSpore 最新成果将开源

简介: 让所有人都能做蛋白质结构预测,华为昇思 MindSpore 最新成果将开源
华为推出全流程蛋白质结构预测工具 MEGA-Protein(MindSpore for Evolutionary Generation & Assessment Protein),其中业界首创 AI MSA 引擎使得蛋白质结构预测突破「孤儿序列」等高精预测限制


日前,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组,在中国算力网智算网络关键节点——西安未来人工智能计算中心的昇腾 AI 强大算力支持下,在全场景 AI 框架昇思 MindSpore 上推出全流程蛋白质结构预测工具 MEGA-Protein。

MEGA-Protein 包含 AI MSA 引擎、蛋白质折叠训练推理流程、蛋白质结构打分、蛋白质结构预测数据集 PSP 等关键技术,该工具提供了高精度高性能蛋白质结构和功能预测,其中 AI MSA 引擎能显著提升单序列的预测速度,并且能够在 MSA 少样本(few shot)甚至零样本(zero-shot,即单序列)的情况下,帮助 AlphaFold 2 等模型维持甚至提高推理精度,突破了在「孤儿序列」、高异变序列和人造蛋白等 MSA 匮乏场景下无法做出准确预测的限制
这是团队在昇腾 AI 基础软硬件平台上实现 AlphaFold 2 从训练到推理全流程打通且效率同比提升 2 至 3 倍后,取得的又一次成功。相关代码和模型参数后续会在昇思 MindSpore 社区开源,算法和相关的论文也会尽快公布。

昇思 MindSpore 首席架构师金雪锋评论称:「该工作是产学界合作的一次重大成功实践,也是科学计算与人工智能结合潜力的展示。」金雪锋补充说,支持多计算范式的 MindSpore 能够有效提升科研工作的生产力,大幅度提升科学计算场景的性能,希望后续能够看到更多、更好的成果涌现出来。


高性能蛋白质结构预测引擎 AI MSA,解决「孤儿序列」问题

蛋白质是生命活动中最主要的功能体之一,在人体结构和功能中发挥着核心作用。然而,能够解析蛋白质结构的实验手段通常都价格不菲且周期较长,很难直接通过它们去探索整个「蛋白质宇宙」。
蛋白质的 3D 结构完全由组成它的氨基酸序列所决定(1972 年诺贝尔奖得主 Christian Anfinsen 曾通过实验证明),这就从理论上确认了:存在一个「理想函数」,能够将氨基酸序列 x 映射到其 3D 结构 y。因此,蛋白质结构预测问题就转化成典型的数学建模问题。AlphaFold 2 则是目前为止人们所能找到的、最接近「理想函数」的一个模型。

但是,为了达到高精度的预测,AlphaFold 2 必须引入额外的信息,也即蛋白多序列比对(MSA)。
有多少 MSA 可用,直接决定了 AlphaFold 等模型的预测精度。

图1. AlphaFold 2 预测精度会随着可用的 MSA个数不足时而显著降低。图片来源: AlphaFold 2 论文


但自然界中仍然存在大量「孤儿序列」,如人类蛋白组中不少蛋白以及大量的病毒等其它抗原相关蛋白,都存在着 MSA 不够深的问题。此外,在蛋白质设计领域中,研究人员会普遍面临人造序列没有 MSA 可用的情况。在这些场景下,AlphaFold 2 等模型对相关的结构预测准确度会大幅下降,变得不再适用。

另一方面,AlphaFold 2 等标准检索 MSA 流程,是在数据库中使用搜索工具对目标蛋白及相关序列进行多重序列比对,该流程需要配置数据库,其中数据库规模大概在 1.3T 左右,配置耗时长且繁琐,并且使用数据检索工具(如 HHblits,JackHMMER,MMseqs2 等)搜索时间长,不利于科研人员展开研究。

昇思 MindSpore 社区与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组新提出的 AI MSA 引擎,
对于原始 MSA 质量不高或者数量少的蛋白,将 AI MSA 引擎接入 AlphaFold 2 后可以明显改善结构预测的质量,如下图所示:

图2. 不同方案预测的蛋白质结构效果对比图
图3. 零样本预测精度对比

并且端到端的推理性能相较于 AlphaFold 2 标准检索流程有大约 40+ 倍的提升,相较于 MMseqs2 约 5+ 倍的提升,可以大幅提升结构预测模型的推理通量,且训练完后的 AI MSA 引擎不需要额外配置数据库。

图4. AI MSA 引擎相关性能对比图

团队表示,AI MSA 引擎是一种对下游结构模型普适的预训练方案,可以在免于微调的情况下直接接入下游的结构预测模型,例如 AlphaFold、RoseTTAFold 等,助力科研人员在蛋白质结构预测、蛋白质设计、蛋白质互作等方向进行研究,同时推动生物制药产业发展。

北京大学李兆基讲席教授谢晓亮认为,创新自研的 AI MSA 引擎和基于昇思 MindSpore 的蛋白质结构预测程序的开源,标志着我们国家在全球蛋白质结构预测领域名列前茅,该长足进步源于高毅勤团队在相关底层技术上多年的深耕和积累。


昇腾 AI 基础软硬件平台、昇思 MindSpore AI 框架,支持 AI for Science 研究新范式
AI MSA 引擎训练参数量有 47M,数据量总共达 4.4T,其训练对框架提出了不小的要求,昇思 MindSpore 在昇腾 AI 基础软硬件平台上与昇腾 CANN 深度结合,通过深度协同优化的高性能算子库,充分释放硬件的算力

昇思 MindSpore 采用了多段并行流水线的方式来构建数据处理 pipeline,更加细粒度地规划 NPU、CPU 等计算资源的使用,天然支持各段使用异构硬件进行流水处理,大大提高了数据处理过程的吞吐量。

同时,昇思 MindSpore 支持大集群高效训练,实现了优质的计算通信比,并且通过三层 AI 分布式编程范式(手动并行+半自动并行+全自动并行),大幅提升分布式并行程序开发效率。

相关代码和模型参数后续会在昇思 MindSpore 社区开源,算法和相关的论文也会尽快公布。
团队还发布了首个具有高覆盖度和多样性的百万级蛋白质结构预测数据集 PSP。该数据集由 570k 个真实结构序列(10TB)和 745k 个互补蒸馏序列(15TB)组成。昇思 MindSpore 基于该数据集可进行蛋白质结构预测训练,同时提供了丰富的处理及使用该数据集的接口,欢迎试用。

了解更多可查看论文:https://arxiv.org/pdf/2206.12240.pdf


相关工作


MindSpore Science 开源路径

https://gitee.com/mindspore/mindscience

昇思 MindSpore 最新成果开源:高毅勤课题组发布高性能蛋白质结构预测工具
https://biopic.pku.edu.cn/xwzx/mtbd1/517695.htm

昇思 MindSpore 再突破:蛋白质结构预测训练推理全流程开源,助力生物医药发展
https://icg.pku.edu.cn/xwzx/kycg/520034.htm

昇思 MindSpore 蛋白质结构预测模型拿下 CAMEO 全球预测竞赛第一
https://www.huawei.com/cn/news/2022/4/mindspore-cameo-protein-ascend

相关文章
|
5月前
|
机器学习/深度学习 人工智能 算法
清华、华为等提出iVideoGPT:专攻交互式世界模型
【6月更文挑战第6天】清华和华为团队联合推出iVideoGPT,这是一种创新的交互式世界模型,旨在解决视频生成模型的互动性和扩展性挑战。iVideoGPT采用可扩展的自回归变换器框架,整合多模态信号,通过预测标记序列提升智能体交互体验。模型利用压缩标记技术处理高维视觉数据,预训练于大量人类和机器人操控轨迹,适用于视频预测、视觉规划等任务,展现出与顶级方法相当的性能。尽管存在数据多样性、长视频处理和高分辨率视频预测等问题,iVideoGPT仍展现了在视觉机器人操控等领域的巨大潜力。[论文链接](https://arxiv.org/pdf/2405.15223)
60 1
|
6月前
|
机器学习/深度学习 存储 自然语言处理
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
171 1
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
76 0
|
机器学习/深度学习 人工智能 算法
华为MindSpore架构师王紫东:当生物计算领域「遇灾」,MindSpore做了何解?
华为MindSpore架构师王紫东:当生物计算领域「遇灾」,MindSpore做了何解?
214 0
华为MindSpore架构师王紫东:当生物计算领域「遇灾」,MindSpore做了何解?
|
算法 自动驾驶 测试技术
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
627 0
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
|
机器学习/深度学习 人工智能 并行计算
全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题
全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题
147 0
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(2)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
225 0
|
人工智能 算法 网络架构
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(1)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
198 0
|
存储 机器学习/深度学习 人工智能
内修昇思MindSpore AI框架,外重行业汇聚,华为大模型的不平凡之路
内修昇思MindSpore AI框架,外重行业汇聚,华为大模型的不平凡之路
340 0
|
机器学习/深度学习 算法 数据可视化
上海交大团队使用联合深度学习优化代谢组学研究
上海交大团队使用联合深度学习优化代谢组学研究
222 0