夺CAMEO竞赛全球第一!清华提出AIRFold蛋白质结构预测方案

简介: 夺CAMEO竞赛全球第一!清华提出AIRFold蛋白质结构预测方案

【新智元导读】由清华大学智能产业研究院(AIR)兰艳艳教授团队研发的系统化蛋白质结构预测解决方案AIRFold,在蛋白质结构预测竞赛 CAMEO 上连续四周夺得全球第一。


蛋白质结构对于理解蛋白质功能以及诸多重要的生命活动有重要意义,它的结构也在一定程度上约束了蛋白质序列的突变。所幸蛋白质的同源序列中包含了丰富的结构信息,这为数据驱动的解决方案提供了可能性。

目前半参数化的深度学习解决方案,如 AlphaFold2 等充分利用数据驱动的端到端深度学习模型,在结构预测上已取得与冷冻电子显微镜等实验技术相当的精度。

但是,这些模型极度依赖输入的同源序列信息,在实际的很多场景中还有不小的局限性:比如在缺少同源序列的蛋白质上预测结果不理想,以及对同源输入的冗余噪声较为敏感等。

AIRFold 在最近一个月(7.23-8.20)的评估中连续四周全球第一,并在系统响应时间上远远领先其他团队

AIRFold 在 AlphaFold2 的基础上,致力于为蛋白质结构预测这一生命科学领域的关键性问题提供可拓展的系统化解决方案。

AIRFold 独有的同源挖掘(Homology Miner)模块,聚焦于共进化信息的挖掘和提取,对蛋白质同源序列(MSA)中的协同进化信息进行智能化、自动化地提取、分析和处理。

例如,Homology Miner 中引入了同源蛋白的语义检索和生成两个模块:检索模块利用结构和序列的共同表征学习,通过稠密检索从现有数据库中补充和完善同源蛋白信息;生成模块则基于深度生成模型,对蛋白质的接触矩阵(Contact Matrix)以及多序列比对数据进行生成式建模,从而通过生成同源蛋白序列对共进化信息进行补充。

此外,Homology Miner 的同源表征信息优化模块,还能从信息论的角度对同源序列数据中的共进化信息进行量化,多角度地利用共进化信息量作为优化的目标,如序列级的信息最大化,基于位置的信息约束等。

结果显示,经过优化校正的同源蛋白表征信息在结构预测中表现更加稳定、有效。

Homology Miner 模块通过对共进化信息的有效建模,为复杂同源序列分布的蛋白质结构预测提供了全新的解决方案,并取得了不俗的表现:在最近一周(8.14-8.20) 「hard」分类的序列上,AIRFold 是唯一 lDDT 均分高于80分的模型;在最近一个月(7.23-8.20)以及三个月(5.21-8.20)的「hard」序列上,AIRFold均表现优异,并遥遥领先于第二名。

团队的模型在「hard」分类上表现优异,从左到右分别是最近1周、1个月和3个月在「hard」分类序列上的表现

在诸多 CAMEO 比赛的蛋白质序列中,7TVI 是一个重要但较难预测结构的蛋白,该蛋白展示的是Cas13bt3-crRNA 复合物的结构。其中 Cas13  是一类重要的 RNA 引导的 RNA 编辑工具,有望成为下一代更安全更高效的基因治疗手段。

与 AlphaFold2 相比,AIRFold 预测的结构在  Helical-1 和 Helical-2 两个主要识别crRNA(下图中粉色部分)的结构域上都显著优于 AlphaFold2 的结果;AIRFold 预测的结构形成了正确的 crRNA 结合位点,而 AlphaFold2 预测的结构产生了较大的偏离不能正确结合 crRNA 。

AIRFold 实现了对这类高难度蛋白的高精度结构预测,使得我们能够高效便捷地研究大量来自不同物种或宏基因组测序结果的 Cas13 同源蛋白。高精度的结构可以启发研究人员设计出更小、更准、更高效的RNA编辑工具。

因此,AIRFold 未来将极大地加速 CRISPR/Cas 相关分子工具的挖掘与设计,助力下一代基因编辑疗法的研发。

CAMEO: 2022-08-20_00000216_1 | PDB: 7TVI_A ;Predicted, GroundTruth, crRNA

目前,AIRFold 的相关技术还在蛋白单点突变,多构象评估等关键问题上取得初步进展;清华大学智能产业研究院(AIR)AI+生命科学研究团队将与海内外领先的科研及产业机构合作,持续推进结构预测以及蛋白设计等大分子药物开发的核心问题的研究,为 AI 赋能生命科学做出努力和贡献!

CAMEO比赛


CAMEO(Continous Automated Model Evaluation)是瑞士生物信息研究所和巴塞尔大学联合举办的全球持续蛋白质结构预测竞赛,是蛋白质结构预测领域最重要的比赛之一。

CAMEO 竞赛会持续收集最新即将公开的蛋白质序列,并每周从中挑选部分序列作为赛题。在赛题公开到评测的四天窗口期中,参赛团队需要对每一个蛋白序列进行三维结构预测,最终不同团队的提交结果通过标准评价指标 lDDT(local Distance Different Test)进行排名。

关于AIR


清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,英文简称AIR,THU)是面向第四次工业革命的国际化、智能化、产业化的应用研究机构。AIR于2020年由多媒体及人工智能领域的世界级科学家、企业家张亚勤院士创建。智慧交通(AI+Transportation)、智慧物联(AI+IoT)、智慧医疗(AI+Healthcare)是清华大学智能产业研究院的三个重点研发方向。

相关文章
|
10天前
|
机器学习/深度学习 自然语言处理
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
【4月更文挑战第17天】香港中文大学(深圳)研究团队发表综述论文,探讨大型语言模型(LLMs)与强化学习(RL)结合的四条技术路线:信息处理器、奖励设计者、决策制定者和生成器。LLMs提升RL在多任务学习和样本效率,但处理复杂环境时仍有挑战。它们能设计奖励函数,但预训练知识限制在专业任务中的应用。作为决策者和生成器,LLMs提高样本效率和行为解释,但计算开销是问题。
19 1
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
|
12天前
|
人工智能 自然语言处理 监控
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
【4月更文挑战第15天】中国人民大学和浙江大学的研究团队利用GPT-4模型预测论文撤稿,研究基于3,505篇撤稿及未撤稿论文的推特数据,发现16%的撤稿论文提及含有预警信号,预测准确度高达92.86%。GPT-4预测一致性达95%,为学术诚信监控提供新途径。但研究受限于主观偏见、撤稿原因区分及推特互动等因素。
18 1
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
|
1月前
|
人工智能 UED
清华大学研究提出用大模型做心理测量
【2月更文挑战第24天】清华大学研究提出用大模型做心理测量
38 2
清华大学研究提出用大模型做心理测量
|
2月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
38 0
|
5月前
|
机器学习/深度学习 算法 数据可视化
“华为杯”第十八届中国研究生数学建模竞赛D题:抗乳腺癌候选药物的优化建模(一等奖)
“华为杯”第十八届中国研究生数学建模竞赛D题:抗乳腺癌候选药物的优化建模(一等奖)
57 0
|
10月前
|
机器学习/深度学习 人工智能 并行计算
全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题
全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题
102 0
|
11月前
|
机器学习/深度学习 存储 人工智能
AI挑战国际数学奥林匹克竞赛,Meta神经定理证明器拿到多项SOTA
AI挑战国际数学奥林匹克竞赛,Meta神经定理证明器拿到多项SOTA
|
11月前
|
人工智能 算法 安全
让所有人都能做蛋白质结构预测,华为昇思 MindSpore 最新成果将开源
让所有人都能做蛋白质结构预测,华为昇思 MindSpore 最新成果将开源
112 0
|
11月前
|
机器学习/深度学习 算法 数据可视化
上海交大团队使用联合深度学习优化代谢组学研究
上海交大团队使用联合深度学习优化代谢组学研究
148 0
|
11月前
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
100 0