让所有人都能做蛋白质结构预测,华为昇思 MindSpore 最新成果将开源

简介: 让所有人都能做蛋白质结构预测,华为昇思 MindSpore 最新成果将开源
华为推出全流程蛋白质结构预测工具 MEGA-Protein(MindSpore for Evolutionary Generation & Assessment Protein),其中业界首创 AI MSA 引擎使得蛋白质结构预测突破「孤儿序列」等高精预测限制


日前,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组,在中国算力网智算网络关键节点——西安未来人工智能计算中心的昇腾 AI 强大算力支持下,在全场景 AI 框架昇思 MindSpore 上推出全流程蛋白质结构预测工具 MEGA-Protein。

MEGA-Protein 包含 AI MSA 引擎、蛋白质折叠训练推理流程、蛋白质结构打分、蛋白质结构预测数据集 PSP 等关键技术,该工具提供了高精度高性能蛋白质结构和功能预测,其中 AI MSA 引擎能显著提升单序列的预测速度,并且能够在 MSA 少样本(few shot)甚至零样本(zero-shot,即单序列)的情况下,帮助 AlphaFold 2 等模型维持甚至提高推理精度,突破了在「孤儿序列」、高异变序列和人造蛋白等 MSA 匮乏场景下无法做出准确预测的限制
这是团队在昇腾 AI 基础软硬件平台上实现 AlphaFold 2 从训练到推理全流程打通且效率同比提升 2 至 3 倍后,取得的又一次成功。相关代码和模型参数后续会在昇思 MindSpore 社区开源,算法和相关的论文也会尽快公布。

昇思 MindSpore 首席架构师金雪锋评论称:「该工作是产学界合作的一次重大成功实践,也是科学计算与人工智能结合潜力的展示。」金雪锋补充说,支持多计算范式的 MindSpore 能够有效提升科研工作的生产力,大幅度提升科学计算场景的性能,希望后续能够看到更多、更好的成果涌现出来。


高性能蛋白质结构预测引擎 AI MSA,解决「孤儿序列」问题

蛋白质是生命活动中最主要的功能体之一,在人体结构和功能中发挥着核心作用。然而,能够解析蛋白质结构的实验手段通常都价格不菲且周期较长,很难直接通过它们去探索整个「蛋白质宇宙」。
蛋白质的 3D 结构完全由组成它的氨基酸序列所决定(1972 年诺贝尔奖得主 Christian Anfinsen 曾通过实验证明),这就从理论上确认了:存在一个「理想函数」,能够将氨基酸序列 x 映射到其 3D 结构 y。因此,蛋白质结构预测问题就转化成典型的数学建模问题。AlphaFold 2 则是目前为止人们所能找到的、最接近「理想函数」的一个模型。

但是,为了达到高精度的预测,AlphaFold 2 必须引入额外的信息,也即蛋白多序列比对(MSA)。
有多少 MSA 可用,直接决定了 AlphaFold 等模型的预测精度。

图1. AlphaFold 2 预测精度会随着可用的 MSA个数不足时而显著降低。图片来源: AlphaFold 2 论文


但自然界中仍然存在大量「孤儿序列」,如人类蛋白组中不少蛋白以及大量的病毒等其它抗原相关蛋白,都存在着 MSA 不够深的问题。此外,在蛋白质设计领域中,研究人员会普遍面临人造序列没有 MSA 可用的情况。在这些场景下,AlphaFold 2 等模型对相关的结构预测准确度会大幅下降,变得不再适用。

另一方面,AlphaFold 2 等标准检索 MSA 流程,是在数据库中使用搜索工具对目标蛋白及相关序列进行多重序列比对,该流程需要配置数据库,其中数据库规模大概在 1.3T 左右,配置耗时长且繁琐,并且使用数据检索工具(如 HHblits,JackHMMER,MMseqs2 等)搜索时间长,不利于科研人员展开研究。

昇思 MindSpore 社区与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组新提出的 AI MSA 引擎,
对于原始 MSA 质量不高或者数量少的蛋白,将 AI MSA 引擎接入 AlphaFold 2 后可以明显改善结构预测的质量,如下图所示:

图2. 不同方案预测的蛋白质结构效果对比图
图3. 零样本预测精度对比

并且端到端的推理性能相较于 AlphaFold 2 标准检索流程有大约 40+ 倍的提升,相较于 MMseqs2 约 5+ 倍的提升,可以大幅提升结构预测模型的推理通量,且训练完后的 AI MSA 引擎不需要额外配置数据库。

图4. AI MSA 引擎相关性能对比图

团队表示,AI MSA 引擎是一种对下游结构模型普适的预训练方案,可以在免于微调的情况下直接接入下游的结构预测模型,例如 AlphaFold、RoseTTAFold 等,助力科研人员在蛋白质结构预测、蛋白质设计、蛋白质互作等方向进行研究,同时推动生物制药产业发展。

北京大学李兆基讲席教授谢晓亮认为,创新自研的 AI MSA 引擎和基于昇思 MindSpore 的蛋白质结构预测程序的开源,标志着我们国家在全球蛋白质结构预测领域名列前茅,该长足进步源于高毅勤团队在相关底层技术上多年的深耕和积累。


昇腾 AI 基础软硬件平台、昇思 MindSpore AI 框架,支持 AI for Science 研究新范式
AI MSA 引擎训练参数量有 47M,数据量总共达 4.4T,其训练对框架提出了不小的要求,昇思 MindSpore 在昇腾 AI 基础软硬件平台上与昇腾 CANN 深度结合,通过深度协同优化的高性能算子库,充分释放硬件的算力

昇思 MindSpore 采用了多段并行流水线的方式来构建数据处理 pipeline,更加细粒度地规划 NPU、CPU 等计算资源的使用,天然支持各段使用异构硬件进行流水处理,大大提高了数据处理过程的吞吐量。

同时,昇思 MindSpore 支持大集群高效训练,实现了优质的计算通信比,并且通过三层 AI 分布式编程范式(手动并行+半自动并行+全自动并行),大幅提升分布式并行程序开发效率。

相关代码和模型参数后续会在昇思 MindSpore 社区开源,算法和相关的论文也会尽快公布。
团队还发布了首个具有高覆盖度和多样性的百万级蛋白质结构预测数据集 PSP。该数据集由 570k 个真实结构序列(10TB)和 745k 个互补蒸馏序列(15TB)组成。昇思 MindSpore 基于该数据集可进行蛋白质结构预测训练,同时提供了丰富的处理及使用该数据集的接口,欢迎试用。

了解更多可查看论文:https://arxiv.org/pdf/2206.12240.pdf


相关工作


MindSpore Science 开源路径

https://gitee.com/mindspore/mindscience

昇思 MindSpore 最新成果开源:高毅勤课题组发布高性能蛋白质结构预测工具
https://biopic.pku.edu.cn/xwzx/mtbd1/517695.htm

昇思 MindSpore 再突破:蛋白质结构预测训练推理全流程开源,助力生物医药发展
https://icg.pku.edu.cn/xwzx/kycg/520034.htm

昇思 MindSpore 蛋白质结构预测模型拿下 CAMEO 全球预测竞赛第一
https://www.huawei.com/cn/news/2022/4/mindspore-cameo-protein-ascend

相关文章
|
6月前
|
存储 监控 安全
解密云邮箱:为什么企业纷纷拥抱这个必备利器?
【机构应使用云邮箱】云邮箱提升生产力,节约成本。借助云技术,企业可随时随地处理邮件,提高效率,且与应用集成方便。云邮箱提供更好的正常运行时间,减少维护成本,同时增强安全性,保障数据安全。对于处理敏感信息的企业,尤其有利。考虑云邮箱,享受创新升级的邮箱体验。
73 1
|
弹性计算 虚拟化 异构计算
阿里云A100 GPU服务器租用价格表_按小时_包年包月费用
阿里云A100 GPU服务器租用价格表_按小时_包年包月费用,阿里云GPU服务器租用价格表包括包年包月价格、一个小时收费以及学生GPU服务器租用费用,阿里云GPU计算卡包括NVIDIA V100计算卡、T4计算卡、A10计算卡和A100计算卡,GPU云服务器gn6i可享受3折优惠,阿里云百科分享阿里云GPU服务器租用价格表、GPU一个小时多少钱以及学生GPU服务器收费价格表
15699 0
halcon如何判断HObject/HTuple为空
halcon如何判断HObject/HTuple为空
1816 0
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。
破壁人AI百度:科技公司反内卷的典型样本
|
6月前
|
存储 NoSQL 大数据
【MongoDB】GridFS机制
【4月更文挑战第2天】【MongoDB】GridFS机制
|
2月前
|
KVM 虚拟化
虚拟化技术概述及KVM环境安装
关于虚拟化技术概述及KVM环境安装的教程,涵盖了虚拟化的定义、分类、管理工具,以及KVM的系统需求、安装步骤和使用指南。
72 11
虚拟化技术概述及KVM环境安装
|
3月前
|
前端开发 easyexcel
SpringBoot+Vue3实现Excel导入
SpringBoot+Vue3实现Excel导入
107 0
|
6月前
|
存储 JSON 数据格式
Flask 3 保姆级教程(一):快速上手
Flask 3 保姆级教程(一):快速上手
|
XML Java 数据格式
深入探索Spring的Bean注入:四种方式解析与循环依赖探讨
深入探索Spring的Bean注入:四种方式解析与循环依赖探讨
163 0
|
Shell Linux Apache
Apache Doris集群模式快速体验之标准部署(2)2
Apache Doris集群模式快速体验之标准部署(2)2
239 0