谷歌提前开源AlphaFold 2!Nature、Science同时公开两大蛋白质结构预测工具(一)

简介: 昨日,DeepMind和华盛顿大学分别在nature和Science两大顶级杂志发布了各自预测蛋白质结构的工具,并同时开源了代码。

nature和Science两本杂志一直相爱相杀,总是喜欢争着发表科学领域中的重大发现、重要突破,抢夺大师文章的发表版权。

 

这次也不例外。


7月15日,DeepMind在Nature上发表了一篇论文,开源了其基于深度学习神经网络的AlphaFold 2模型。

 30.jpg论文链接:https://www.nature.com/articles/s41586-021-03819-2

开源代码:https://github.com/deepmind/alphafold

 

与此同时,在隔壁的Science上,华盛顿大学也发表了自己开发的蛋白质预测工具RoseTTAFold。RoseTTAFold不仅性能上和AlphaFold 2相当,预测蛋白质结构也「快、狠、准」。

31.jpg论文链接:https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

开源代码:https://github.com/RosettaCommons/RoseTTAFold

 

当然,RoseTTAFold最厉害的一点在于,其端到端版本在RTX2080上生成少于400个残基的蛋白质的骨干坐标只需要10分钟。


这显然让成千上万的生物学家松了一口气,毕竟一个2080还是能买得到的。


随着RoseTTAFold和AlphaFold 2的代码开源,有研究人员希望能在备受关注的两个领域方面取得新的进展:

  1. 预测多个相互作用的蛋白质的复合体结构;
  2. 新型蛋白质的设计。

 论文的其中一位作者表示,很高兴自己能够为这个巨大的里程碑做出贡献。32.jpg

DeepMind的创始人兼CEO表示,很期待开源代码之后能给更多研究带来的可能性。

33.jpg34.png

Facebook AI的田渊栋则从AI的角度发表了对AlphaFold的看法: 

蛋白质预测


蛋白质是生命的物质基础,是构成细胞的基本有机物,也是生命活动的主要承担者。 蛋白质由氨基酸通过「脱水缩合」的方式组成多肽链,经过盘曲折叠,形成具有一定空间结构的物质。 不同空间结构也就决定了蛋白质的不同功能。



一直以来,「蛋白质折叠问题」都是生物学中的一个巨大挑战。如果用暴力计算法列举出一个典型蛋白质的所有可能构型,所需的时间可能比已知的宇宙年龄还要长。 生物医学领域为了探索蛋白质复杂的3D结构,只能通过低温电子显微镜(CryoEM)、核磁共振或X射线晶体学等手段,经过大量试错才能最终确定蛋白质的结构。 理论上,一个蛋白质在确定其最终结构前,可能的折叠方式的数量是天文数字。 1969年,Cyrus Levinthal指出,通过计算列举一个典型蛋白质的所有可能构型,需要的时间比已知宇宙的年龄还要长——可能有10^300种构型。
因此,这些方法有一个巨大的缺陷:耗费大量的时间和精力。
为解决这一困难,DeepMind利用人工智能,开发了一个能够预测蛋白质结构的系统:AlphaFold。
2018年,AlphaFold在国际蛋白质结构预测竞赛(CASP)上首次亮相,获得了马克斯·普朗克发展生物学研究所(Max Planck Institute for Developmental Biology)所长、CASP评估员Andrei Lupas的高度评价:
「AlphaFold惊人的精确模型帮助我们解决一直困扰科学界的蛋白质结构问题,重新启动了学界的研究。」


image.jpeg


预测的人类白细胞介素-12蛋白与其受体结合的结构图 预测蛋白质的3D结构则有着相当重要的作用。
其能够帮助科学家发现蛋白质功能失调,以及导致某些疾病的原因,这就为药物的研发提供了一条全新的途径,从而能够快速地进行医疗治疗。 

AlphaFold 2:原子级精度


DeepMind的AlphaFold 2模型在2020年的蛋白质结构预测比赛(CASP)取得了出色的成绩。 比赛的评分中位数达到了92.4 GDT。也就是预测的均方根误差约为1.6埃,相当于一个原子的宽度(或0.1纳米)。 即使是最难的蛋白质目标,评分中位数也能达到87.0GDT。 





AlphaFold 2可以在不到10分钟的时间内预测出接近晶体结构精度的蛋白质结构。 



研究人员对AlphaFold2方法的进展进行了概括:

  1. 从多个序列排列(MSA)开始,而不是从MSA得出的反协方差矩阵等更多处理过的特征开始;

  2. 用注意力机制取代二维卷积,更好地代表沿序列远处残基之间的相互作用;
  3. 使用双轨网络结构,其中一维序列水平和二维距离图水平的信息被迭代转换并来回传递;

  4. 使用SE(3)-Transformer网络来直接完善由双轨网络生成的原子坐标(而不是像以前的方法那样的二维距离图);

  5. 端到端学习,其中所有网络参数通过反向传播从最终生成的三维坐标通过所有网络层回到输入序列来优化。

 


相关文章
|
1月前
|
人工智能 自然语言处理
米开朗基罗怎么说?谷歌DeepMind推出长上下文评估新框架
谷歌DeepMind团队提出了一种名为“米开朗基罗”(Michelangelo)的新型评估框架,通过潜在结构查询(LSQ)来全面评估大型语言模型(LLM)的长上下文理解能力。相比传统方法,米开朗基罗框架不仅评估模型的检索能力,还能更深入地验证其对上下文的理解和推理能力。
90 50
|
2月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
52 6
|
5月前
|
人工智能
ACM最新论文戳破大公司开源谎言,GenAI时代到底如何定义开源模型
【7月更文挑战第2天】ACM论文揭示GenAI开源真相,指出开源模型常缺乏开放数据集、完整代码与功能,质疑大公司仅借开源名义吸引利益。论文倡导重新定义开源,提议全面评估框架、加强监管及教育,确保真开源,促进领域健康发展。[链接:https://dl.acm.org/doi/3630106.3659005]
87 16
|
7月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
108 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
7月前
|
机器学习/深度学习 计算机视觉
大模型一定就比小模型好?谷歌的这项研究说不一定
【5月更文挑战第5天】谷歌研究挑战传统观念,指出在生成图像任务中,小模型并不一定逊色于大模型。实验显示小模型在有限计算资源下能生成高质量图像,且泛化性能佳。在多个图像生成任务中,小模型的表现与大模型相当甚至更好,暗示了小模型在该领域的潜力。这一发现提示了在追求性能时需综合考虑模型规模和效率。论文链接:https://arxiv.org/pdf/2404.01367.pdf
73 2
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会“图的语言”
【5月更文挑战第1天】谷歌在ICLR 2024提出新方法,使大语言模型(LLM)性能提升高达60%,通过结合图神经网络(GNN),LLM学会理解与生成“图的语言”,打破处理复杂任务的局限。此创新模型适用于社交网络分析等领域,但面临计算资源需求大和模型解释性问题。研究强调需确保LLM在道德和法律框架内使用。论文链接:https://openreview.net/pdf?id=IuXR1CCrSi
256 3
|
7月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
108 0
|
机器学习/深度学习 人工智能 自然语言处理
LLM评估综述论文问世,分三方面全面总结,还带资料库
LLM评估综述论文问世,分三方面全面总结,还带资料库
332 0
|
机器学习/深度学习 编解码 机器人
伯克利,斯坦福,宾大联合发表:从观察和交互中学习预测模型
伯克利,斯坦福,宾大联合发表:从观察和交互中学习预测模型
|
机器学习/深度学习
斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源
斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源
128 0