夺CAMEO竞赛全球第一!清华提出AIRFold蛋白质结构预测方案

简介: 夺CAMEO竞赛全球第一!清华提出AIRFold蛋白质结构预测方案

【新智元导读】由清华大学智能产业研究院(AIR)兰艳艳教授团队研发的系统化蛋白质结构预测解决方案AIRFold,在蛋白质结构预测竞赛 CAMEO 上连续四周夺得全球第一。


蛋白质结构对于理解蛋白质功能以及诸多重要的生命活动有重要意义,它的结构也在一定程度上约束了蛋白质序列的突变。所幸蛋白质的同源序列中包含了丰富的结构信息,这为数据驱动的解决方案提供了可能性。

目前半参数化的深度学习解决方案,如 AlphaFold2 等充分利用数据驱动的端到端深度学习模型,在结构预测上已取得与冷冻电子显微镜等实验技术相当的精度。

但是,这些模型极度依赖输入的同源序列信息,在实际的很多场景中还有不小的局限性:比如在缺少同源序列的蛋白质上预测结果不理想,以及对同源输入的冗余噪声较为敏感等。

AIRFold 在最近一个月(7.23-8.20)的评估中连续四周全球第一,并在系统响应时间上远远领先其他团队

AIRFold 在 AlphaFold2 的基础上,致力于为蛋白质结构预测这一生命科学领域的关键性问题提供可拓展的系统化解决方案。

AIRFold 独有的同源挖掘(Homology Miner)模块,聚焦于共进化信息的挖掘和提取,对蛋白质同源序列(MSA)中的协同进化信息进行智能化、自动化地提取、分析和处理。

例如,Homology Miner 中引入了同源蛋白的语义检索和生成两个模块:检索模块利用结构和序列的共同表征学习,通过稠密检索从现有数据库中补充和完善同源蛋白信息;生成模块则基于深度生成模型,对蛋白质的接触矩阵(Contact Matrix)以及多序列比对数据进行生成式建模,从而通过生成同源蛋白序列对共进化信息进行补充。

此外,Homology Miner 的同源表征信息优化模块,还能从信息论的角度对同源序列数据中的共进化信息进行量化,多角度地利用共进化信息量作为优化的目标,如序列级的信息最大化,基于位置的信息约束等。

结果显示,经过优化校正的同源蛋白表征信息在结构预测中表现更加稳定、有效。

Homology Miner 模块通过对共进化信息的有效建模,为复杂同源序列分布的蛋白质结构预测提供了全新的解决方案,并取得了不俗的表现:在最近一周(8.14-8.20) 「hard」分类的序列上,AIRFold 是唯一 lDDT 均分高于80分的模型;在最近一个月(7.23-8.20)以及三个月(5.21-8.20)的「hard」序列上,AIRFold均表现优异,并遥遥领先于第二名。

团队的模型在「hard」分类上表现优异,从左到右分别是最近1周、1个月和3个月在「hard」分类序列上的表现

在诸多 CAMEO 比赛的蛋白质序列中,7TVI 是一个重要但较难预测结构的蛋白,该蛋白展示的是Cas13bt3-crRNA 复合物的结构。其中 Cas13  是一类重要的 RNA 引导的 RNA 编辑工具,有望成为下一代更安全更高效的基因治疗手段。

与 AlphaFold2 相比,AIRFold 预测的结构在  Helical-1 和 Helical-2 两个主要识别crRNA(下图中粉色部分)的结构域上都显著优于 AlphaFold2 的结果;AIRFold 预测的结构形成了正确的 crRNA 结合位点,而 AlphaFold2 预测的结构产生了较大的偏离不能正确结合 crRNA 。

AIRFold 实现了对这类高难度蛋白的高精度结构预测,使得我们能够高效便捷地研究大量来自不同物种或宏基因组测序结果的 Cas13 同源蛋白。高精度的结构可以启发研究人员设计出更小、更准、更高效的RNA编辑工具。

因此,AIRFold 未来将极大地加速 CRISPR/Cas 相关分子工具的挖掘与设计,助力下一代基因编辑疗法的研发。

CAMEO: 2022-08-20_00000216_1 | PDB: 7TVI_A ;Predicted, GroundTruth, crRNA

目前,AIRFold 的相关技术还在蛋白单点突变,多构象评估等关键问题上取得初步进展;清华大学智能产业研究院(AIR)AI+生命科学研究团队将与海内外领先的科研及产业机构合作,持续推进结构预测以及蛋白设计等大分子药物开发的核心问题的研究,为 AI 赋能生命科学做出努力和贡献!

CAMEO比赛


CAMEO(Continous Automated Model Evaluation)是瑞士生物信息研究所和巴塞尔大学联合举办的全球持续蛋白质结构预测竞赛,是蛋白质结构预测领域最重要的比赛之一。

CAMEO 竞赛会持续收集最新即将公开的蛋白质序列,并每周从中挑选部分序列作为赛题。在赛题公开到评测的四天窗口期中,参赛团队需要对每一个蛋白序列进行三维结构预测,最终不同团队的提交结果通过标准评价指标 lDDT(local Distance Different Test)进行排名。

关于AIR


清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,英文简称AIR,THU)是面向第四次工业革命的国际化、智能化、产业化的应用研究机构。AIR于2020年由多媒体及人工智能领域的世界级科学家、企业家张亚勤院士创建。智慧交通(AI+Transportation)、智慧物联(AI+IoT)、智慧医疗(AI+Healthcare)是清华大学智能产业研究院的三个重点研发方向。

相关文章
|
存储 分布式计算 测试技术
探索Apache Hudi核心概念 (4) - Clustering
探索Apache Hudi核心概念 (4) - Clustering
655 3
|
Linux
百度搜索:蓝易云 ,Linux系统查看log日志命令详解!
通过使用以上命令,您可以方便地查看和搜索Linux系统中的日志文件内容。根据您的需求,选择适当的命令和选项来满足您的日志查看要求。
419 0
|
Unix 关系型数据库 MySQL
|
12月前
|
机器学习/深度学习 人工智能 编解码
Evo 2:基因编程AI革命!!DNA版GPT-4问世:100万碱基全解析,自动设计基因编辑器
Evo 2 是一款由 Acr 研究所、英伟达和斯坦福大学联合开发的 DNA 语言模型,可处理长达百万碱基对的序列,支持基因组设计、变异预测及合成生物学研究。
864 5
|
5月前
|
机器学习/深度学习 数据采集 缓存
蛋白质结构预测:从AlphaFold到未来的计算生物学革命
蒋星熠Jaxonic以“摘星者”视角,融合深度学习与几何工程,详解蛋白质结构预测的模块化实践。从序列到三维结构,贯穿可解释性、轻量架构与性能权衡,助力科研与工业落地。
|
10月前
|
机器学习/深度学习 人工智能 算法
PeptideBERT:基于Transformer用于肽性质预测的语言模型
本文介绍了PeptideBERT模型及其在昇腾设备上的部署方法。PeptideBERT是一种基于Transformer架构的蛋白质语言模型,通过微调预训练模型ProtBERT,可预测肽的溶血性、溶解性和抗非特异性吸附性等关键性质。其输入表示包括词嵌入、物理化学属性编码和位置编码,并采用多头自注意力机制捕捉序列依赖关系。
|
11月前
|
机器学习/深度学习 设计模式 API
Python 高级编程与实战:构建 RESTful API
本文深入探讨了使用 Python 构建 RESTful API 的方法,涵盖 Flask、Django REST Framework 和 FastAPI 三个主流框架。通过实战项目示例,详细讲解了如何处理 GET、POST 请求,并返回相应数据。学习这些技术将帮助你掌握构建高效、可靠的 Web API。
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
310 8
|
9月前
|
测试技术 定位技术
【分享】实测AiPy多模型!酒店可行性报告对比
文章来自微信公众号“蚂蚁逛高速”,作者蚁大彪。本文测试了开源工具AiPy v0.1.28集成的三大模型(阿里千问、DeepSeek、腾讯混元)在生成商业分析报告上的表现。任务是为成都天府三街的情侣酒店项目提供可行性分析。结果表明,阿里千问报告最精美且数据详实,但耗时最长;DeepSeek报告简单快速,但缺乏具体数据;腾讯混元虽尝试生成图表,但内容缺失严重。
【分享】实测AiPy多模型!酒店可行性报告对比
|
11月前
|
人工智能 IDE Java
通义灵码2.0 寻找AI程序员{头号玩家}
通义灵码联合 CHERRY 中国发起“头号玩家”活动,寻找 AI 程序员!体验 AI 智能编码新功能,如图生代码、单元测试、跨语言编程等。完成任意两个任务即可赢取联名定制机械键盘、折扣券及社区积分等奖品。活动截止至4月15日,点击链接参与,探索未来编程乐趣!
201 6