50年难遇AI「诺奖级」里程碑!DeepMind破解蛋白质折叠难题,Nature:这可能改变一切

简介: 蛋白质折叠50年来重大突破,AI破解预测难题AlphaFold解决蛋白质折叠问题的方法CASP:蛋白质奥林匹克竞赛
【新智元导读】近日,DeepMind在预测蛋白质结构方面迈出了一大步!公司表示,其已经解决了关键的「蛋白质折叠问题」,这个问题在生物圈已被研究50年之久。马斯克、李飞飞等大佬纷纷点赞!DeepMind这一历史性进展有助于加快药物发现速度,对理解人类生命形成机制至关重要。

刚刚,一个困扰生物学家50年的难题,被AI解决了。

去年年底,谷歌DeepMind推出了一种名为AlphaFold(一个用人工智能加速科学发现的系统,它基于蛋白质的基因序列,就能预测蛋白质的3D结构)的算法。

今天,在有「蛋白质奥林匹克竞赛」称呼的国际蛋白质结构预测竞赛(CASP)上,AlphaFold击败了其余的参会选手,能够精确地基于氨基酸序列,预测蛋白质的3D结构。

其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的3D结构相媲美。DeepMind联合创始人及CEO德米斯·哈萨比斯(Demis Hassabis)表示:「DeepMind背后的终极愿景一直是构建通用人工智能,利用通用人工智能来极大地加速科学发现的步伐,帮助我们更好地了解周围世界。」

image.gif

谷歌CEO桑达尔·皮查伊(Sundar Pichai)在Twitter上为此次突破点赞。

这是一个跨圈儿的壮举,李飞飞、马斯克等大佬也纷纷点赞:

7.jpg

8.jpg

《自然》杂志更是评论其为「这将改变一切」。

9.jpg

五十年来,蛋白质折叠一直是生物学的巨大挑战。

分子折叠方式变幻无穷,其重要性很难估计。大多数生物过程都围绕蛋白质,而蛋白质的形状决定了其功能。只有当知道蛋白质如何折叠时,他我们才能知晓蛋白质的作用。

例如,胰岛素如何控制血液中的糖水平以及抗体如何对抗冠状病毒,都由蛋白质的结构来决定。

2.gif

我们都知道,DeepMind以战胜人类而著名,在国际象棋,围棋,星际争霸II和老式的Atari经典游戏中都占据了上风。

 

但超人游戏从来都不是主要目标,游戏为程序提供了训练场,一旦程序足够强大,就可以解决现实世界中的问题!

 

蛋白质折叠50年来重大突破,AI破解预测难题

蛋白质的形状与其功能密切相关,预测蛋白质结构的能力可以帮助我们更好地理解蛋白质的功能和工作原理。世界上许多重大的挑战,比如发展疾病的治疗方法或者找到分解工业废物的酶,从根本上来说都与蛋白质及其所扮演的角色有关。

传统上,得到蛋白质的形状需要花费数年的时间。

从1950年代开始,使用X射线束照射结晶的蛋白质并将衍射光转化为蛋白质原子坐标的技术,确定了蛋白质的第一个完整结构。X射线晶体学已经证明了蛋白质结构的绝大部分。但是,在过去的十年中,低温电子显微镜已成为许多结构生物学实验室的首选工具。

10.jpg

最新的技术进步已使使用低温电子显微镜生成接近原子分辨率的电子密度图成为可能

这些方法依赖于进行大量试验和改进错误,可能需要花费数年的工作时间来完成每个蛋白质结构,并需要使用数百万美元的专门设备来进行试验和验证。

1969年,塞勒斯 · 莱文塔尔(Cyrus Levinthal)指出,用暴力计算法列举一个典型蛋白质的所有可能构型所需的时间比已知宇宙的年龄还要长,他估计一个典型蛋白质有10 ^ 300种可能构型。

1972年,克里斯蒂安 · 安芬森(Christian Anfinsen)在诺贝尔化学奖的获奖感言中,提出了一个著名的假设:

11.jpg

里斯蒂安 · 安芬森

 

理论上来说,蛋白质的氨基酸序列应该完全决定其结构。

这个假设引起了长达五十年的探索,即仅仅基于蛋白质的 1D 氨基酸序列就能够计算预测蛋白质的 3D 结构。然而,这个假设面临的一个主要的挑战是,理论上蛋白质在进入最终的 3D 结构之前可以折叠的方式数量是一个天文数字。

1980年代和1990年代,尽管早期计算机科学家已经取得了进展,但是从蛋白质的组成中推断结构仍非易事。

为什么预测蛋白质的形状非常困难?

在自然界中,蛋白质是氨基酸链,可以自发折叠成无数令人难以想象的形状,有些甚至在几毫秒之内完成。

为了了解蛋白质如何折叠,DeepMind的研究人员在一个包含约170,000个蛋白质序列及其形状的公共数据库中对其算法进行了训练。在相当于100到200个图形处理单元(按现代标准,计算能力适中)上运行,这种训练需要数周时间。

image.gif

AlphaFold解决蛋白质折叠问题的方法

DeepMind 在2018年首次使用最初版本的 AlphaFold 参加 CASP13,在参赛者中获得了最高的准确度,随后又在《自然》杂志上发表了一篇关于 CASP13 方法及相关代码的论文,这篇论文继续启发了其他工作和社区开发的开源实现。

现在,DeepMind开发的新的深度学习架构已经推动了 CASP14方法的变化,使之能够达到前所未有的精确度。这些方法的灵感来自生物学、物理学和机器学习领域,当然还有过去半个世纪许多蛋白质折叠领域的科学家的工作。

一个折叠的蛋白质可以被认为是一个「空间图形」,其中残基是节点和边连接的。

12.jpg

这张图对于理解蛋白质内部的物理相互作用以及它们的进化历史是很重要的。

对于在 CASP14上使用的最新版本的 AlphaFold,研究人员创建了一个基于注意力的神经网络系统,通过端到端的训练来解释这个图的结构,同时推理出它正在构建的隐式图。它通过使用多重序列对齐 (MSA) 和氨基酸残基对的表示来精化这个图结构。

通过迭代这个过程,系统可以对蛋白质的基本物理结构进行准确的预测,并能够在几天的时间内确定高度精确的结构。

此外,AlphaFold 还可以使用内部置信度来预测每个预测的蛋白质结构的哪些部分是可靠的。

这个系统所使用的数据包括来自蛋白质数据库的大约170,000个蛋白质结构,以及包含未知结构的蛋白质序列的大型数据库。它使用了大约128个 TPU v3 (大致相当于100-200个 GPU) ,只训练了几周时间,在当今机器学习领域中使用的大多数SOTA模型中来说是一个相对较少的计算量。

CASP:蛋白质奥林匹克竞赛

1994年,John Moult 教授和 Krzysztof Fidelis 教授创立了 CASP (Critical Assessment of Structure Prediction) 作为两年一次的盲选评估,以促进研究并建立蛋白质结构预测的最新水平。

CASP 是评估预测技术的标准。更重要的是,CASP 选择那些最近才经过实验确定的蛋白质结构(有些在评估时仍在等待确定)作为研究小组测试其结构预测方法的目标; 而这些结构的预测方法并没有提前公布。参与者必须直接预测蛋白质的结构,这些预测随后会在可用时与实验数据进行比较。

image.gif

CASP 用来测量预测准确性的主要指标是 GDT(Global Distance Test ) ,其范围是从0-100。简单地说,GDT 可以大致地被认为是氨基酸残基在阈值距离内与正确位置的百分比。根据 Moult 教授的说法,90分左右的 GDT 可以被认为是与实验方法得到的结果相竞争的。

image.gif

在今天公布的第14届 CASP 评估结果中,最新的 AlphaFold 系统在所有目标中总体得分中位数为92.4 GDT。这意味着预测平均误差(RMSD)约为1.6埃(1埃等于0.1纳米),相当于一个原子的宽度(或0.1纳米),即使对于最难的蛋白质目标,即那些最具挑战性的自由建模分类,AlphaFold 也可以达到87.0 GDT 的中位数。

2.png

在接受检验的近100个蛋白靶点中,AlphaFold 对三分之二的蛋白靶点给出的预测结构与实验手段获得的结构相差无几。CASP 创始人 Moult 教授表示,在有些情况下,已经无法区分两者之间的区别是由于AlphaFold的预测出现错误,还是实验手段产生的假象。

13.jpg

这些令人兴奋的结果为生物学家打开了使用深度学习计算结构预测作为科学研究的核心工具的潜力,DeepMind 的方法可能特别有助于预测重要类别的蛋白质结构,如膜蛋白等。

image.gif

图:ALPHAFOLD 预测了与实验结果相对应的高度精确的结构


历史性突破!AlphaFold将「改变一切」

如果把基因组序列比喻为标识一个人的身份信息,蛋白质的三维结构就是一个人的身形容貌。

预测蛋白质结构变化的重要意义在于,包括癌症、痴呆等几乎所有疾病,都与细胞内蛋白质结构变化相关,如果能够掌握蛋白质结构的变化,将对疾病的预防、治疗等带来重要影响。

通常情况下,识别单个蛋白质的结构需要耗费科学家数年时间。如今,AlphaFold能在几天内提供精确到一个原子的结果。

此举将极大地加速人类对细胞组成部分的理解,对包括新冠肺炎在内所有疾病的研究均有所帮助。

在冠状病毒的结构中,像皇冠一样的刺突称为刺突糖蛋白(Spike Glycoprotein,以下简称 S 蛋白),是结合人体细胞上相应受体的罪魁祸首;E 蛋白是包膜蛋白,将病毒内部的遗传物质包裹起来;还有膜蛋白(M 蛋白)和核衣壳蛋白(N 蛋白)等结构。

14.jpg

   冠状病毒结构示意图

 

三维结构的解析对于新冠病毒致病机理和药物设计具有非常重要的先决意义。

基于AlphaFold的新突破,人类未来也可能更快地发现更先进的新药物。

CASP联合创始人、马里兰大学帕克分校计算生物学家John Moult直言,「这是一件大事,在某种程度上来说,(蛋白质折叠)问题解决了。」

挑战赛评委之一的进化生物学家Andrei Lupas进一步表示,「这将改变医学,这将改变研究,这将改变生物工程,这将改变所有一切。」

知名领域专家Mohammed AlQuraishi发推称;「它们令人震惊——deepmind似乎已经解决了蛋白质结构预测问题。」

15.jpg

谷歌CEO Sundar Pichai在当天也在推特上分享了这一消息并表示:

「DeepMind难以置信的用AI进行蛋白质折叠预测的突破,将帮助我们更好地理解生命的最根本的根基,并帮助研究人员应对新的和更难的难题,包括应对疾病和环境可持续发展。」

16.jpg

相关文章
|
1月前
|
机器学习/深度学习 人工智能 编解码
ByteDance Research登Nature子刊:AI+冷冻电镜,揭示蛋白质动态
在生物医学领域,蛋白质的结构与功能研究至关重要。ByteDance Research团队开发的CryoSTAR软件,结合AI与冷冻电镜技术,通过深度学习模型、结构先验和异质性重构算法,成功解析了蛋白质的动态行为,尤其在处理结构异质性方面表现出色。该软件已在多个蛋白质体系中取得显著成果,如TRPV1通道蛋白的动态变化研究,为理解蛋白质功能及疾病机制提供了新思路。论文链接:https://www.nature.com/articles/s41592-024-02486-1
82 26
|
1月前
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
76 26
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
哈佛推出全新类ChatGPT癌症诊断AI,登上Nature!准确率高达96%
哈佛大学研究团队开发的新型AI模型CHIEF,在《自然》期刊发表,癌症诊断准确率达96%。CHIEF基于深度学习,能自动识别、分类癌症并预测生存期,具高准确性、多任务能力和泛化性。它结合病理图像与基因组学等数据,显著提升诊断效率和个性化治疗水平,有望改善医疗资源不平等。但数据隐私和临床效果验证仍是挑战。论文见:https://www.nature.com/articles/s41586-024-07894-z
169 101
|
2天前
|
机器学习/深度学习 人工智能 算法
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
ProtGPS 是麻省理工学院和怀特黑德研究所联合开发的蛋白质语言模型,能够预测蛋白质在细胞内的亚细胞定位,并设计具有特定亚细胞定位的新型蛋白质。
37 17
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
|
25天前
|
机器学习/深度学习 人工智能
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
近日,斯坦福大学和加州大学伯克利分校在《科学》杂志发表重要成果,发现DNA Scaling Law规律,揭示了DNA、RNA和蛋白质分子长度与碱基对数量之间的比例关系。该研究为AI设计生物分子带来突破,通过数据收集、模型训练和优化设计等步骤,显著提高设计效率和准确性,降低成本,并拓展应用范围。论文地址:https://www.science.org/doi/10.1126/science.ado9336。
61 26
|
8天前
|
机器学习/深度学习 存储 人工智能
预定下一个诺奖级AI?谷歌量子纠错AlphaQubit登Nature,10万次模拟实验创新里程碑
谷歌的量子纠错算法AlphaQubit近日登上《自然》杂志,被誉为量子计算纠错领域的重大突破。量子比特易受环境噪声干扰,导致计算错误,而AlphaQubit通过神经网络学习噪声模式,显著提升纠错准确性。实验结果显示,它在Sycamore处理器和Pauli+模拟器上表现优异,优于现有解码算法。尽管面临资源需求高等挑战,AlphaQubit为实用化量子计算带来新希望,并可能推动其他领域创新。论文详见:https://www.nature.com/articles/s41586-024-08148-8
26 5
|
25天前
|
机器学习/深度学习 人工智能 算法
Nature:AI也许可以拥有常识,但不是现在
人工智能(AI)的快速发展引发了关于其是否能拥有常识的讨论。尽管AI在特定任务上取得进展,但目前仍缺乏真正的常识理解。常识涉及对物理世界、社会规范和文化背景的理解,难以通过数据和算法完全捕捉。研究人员正通过大规模语言模型和强化学习等方法提升AI的常识能力,但仍面临显著局限性,如对物理世界的直观理解不足、社会文化背景理解欠缺以及常识能力的通用性差等问题。未来,多模态学习和与人类交互有望增强AI的常识能力。
51 20
|
26天前
|
机器学习/深度学习 人工智能 测试技术
登上Nature的AI芯片设计屡遭质疑,谷歌发文反击,Jeff Dean:质疑者连预训练都没做
2020年,谷歌的AlphaChip在Nature上发表并开源,其深度强化学习方法能生成超越人类水平的芯片布局,引发AI在芯片设计领域的研究热潮。然而,ISPD 2023的一篇论文对其性能提出质疑,指出未按Nature论文方法运行、计算资源不足等问题。谷歌DeepMind团队回应,强调AlphaChip已在多代TPU和Alphabet芯片中成功应用,并批驳ISPD论文的主要错误。此外,针对Igor Markov的“元分析”和无根据猜测,谷歌提供了详细的时间线和非机密部署情况,澄清事实并重申AlphaChip的开放性和透明度。
34 13
|
1月前
|
机器学习/深度学习 人工智能
微软华人领衔AI²BMD登Nature,AI生物分子模拟双突破!继AlphaFold后又一里程碑
AI²BMD(AI-driven Biomolecular Dynamics)是由微软华人科学家团队领衔的研究,发表于《自然》杂志。该方法通过将蛋白质分解为21种常见单元,并利用机器学习模型预测其相互作用,实现高效精准的生物分子模拟。相比传统方法,AI²BMD在能量和力预测上精度更高,计算速度提升数个数量级,尤其适用于大规模蛋白质模拟,为药物设计等领域提供了有力工具。未来研究将扩展至更多生物分子类型并优化效率。论文地址:https://www.nature.com/articles/s41586-024-08127-z
61 8