50年难遇AI「诺奖级」里程碑!DeepMind破解蛋白质折叠难题,Nature:这可能改变一切

简介: 蛋白质折叠50年来重大突破,AI破解预测难题AlphaFold解决蛋白质折叠问题的方法CASP:蛋白质奥林匹克竞赛
【新智元导读】近日,DeepMind在预测蛋白质结构方面迈出了一大步!公司表示,其已经解决了关键的「蛋白质折叠问题」,这个问题在生物圈已被研究50年之久。马斯克、李飞飞等大佬纷纷点赞!DeepMind这一历史性进展有助于加快药物发现速度,对理解人类生命形成机制至关重要。

刚刚,一个困扰生物学家50年的难题,被AI解决了。

去年年底,谷歌DeepMind推出了一种名为AlphaFold(一个用人工智能加速科学发现的系统,它基于蛋白质的基因序列,就能预测蛋白质的3D结构)的算法。

今天,在有「蛋白质奥林匹克竞赛」称呼的国际蛋白质结构预测竞赛(CASP)上,AlphaFold击败了其余的参会选手,能够精确地基于氨基酸序列,预测蛋白质的3D结构。

其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的3D结构相媲美。DeepMind联合创始人及CEO德米斯·哈萨比斯(Demis Hassabis)表示:「DeepMind背后的终极愿景一直是构建通用人工智能,利用通用人工智能来极大地加速科学发现的步伐,帮助我们更好地了解周围世界。」

image.gif

谷歌CEO桑达尔·皮查伊(Sundar Pichai)在Twitter上为此次突破点赞。

这是一个跨圈儿的壮举,李飞飞、马斯克等大佬也纷纷点赞:

7.jpg

8.jpg

《自然》杂志更是评论其为「这将改变一切」。

9.jpg

五十年来,蛋白质折叠一直是生物学的巨大挑战。

分子折叠方式变幻无穷,其重要性很难估计。大多数生物过程都围绕蛋白质,而蛋白质的形状决定了其功能。只有当知道蛋白质如何折叠时,他我们才能知晓蛋白质的作用。

例如,胰岛素如何控制血液中的糖水平以及抗体如何对抗冠状病毒,都由蛋白质的结构来决定。

2.gif

我们都知道,DeepMind以战胜人类而著名,在国际象棋,围棋,星际争霸II和老式的Atari经典游戏中都占据了上风。

 

但超人游戏从来都不是主要目标,游戏为程序提供了训练场,一旦程序足够强大,就可以解决现实世界中的问题!

 

蛋白质折叠50年来重大突破,AI破解预测难题

蛋白质的形状与其功能密切相关,预测蛋白质结构的能力可以帮助我们更好地理解蛋白质的功能和工作原理。世界上许多重大的挑战,比如发展疾病的治疗方法或者找到分解工业废物的酶,从根本上来说都与蛋白质及其所扮演的角色有关。

传统上,得到蛋白质的形状需要花费数年的时间。

从1950年代开始,使用X射线束照射结晶的蛋白质并将衍射光转化为蛋白质原子坐标的技术,确定了蛋白质的第一个完整结构。X射线晶体学已经证明了蛋白质结构的绝大部分。但是,在过去的十年中,低温电子显微镜已成为许多结构生物学实验室的首选工具。

10.jpg

最新的技术进步已使使用低温电子显微镜生成接近原子分辨率的电子密度图成为可能

这些方法依赖于进行大量试验和改进错误,可能需要花费数年的工作时间来完成每个蛋白质结构,并需要使用数百万美元的专门设备来进行试验和验证。

1969年,塞勒斯 · 莱文塔尔(Cyrus Levinthal)指出,用暴力计算法列举一个典型蛋白质的所有可能构型所需的时间比已知宇宙的年龄还要长,他估计一个典型蛋白质有10 ^ 300种可能构型。

1972年,克里斯蒂安 · 安芬森(Christian Anfinsen)在诺贝尔化学奖的获奖感言中,提出了一个著名的假设:

11.jpg

里斯蒂安 · 安芬森

 

理论上来说,蛋白质的氨基酸序列应该完全决定其结构。

这个假设引起了长达五十年的探索,即仅仅基于蛋白质的 1D 氨基酸序列就能够计算预测蛋白质的 3D 结构。然而,这个假设面临的一个主要的挑战是,理论上蛋白质在进入最终的 3D 结构之前可以折叠的方式数量是一个天文数字。

1980年代和1990年代,尽管早期计算机科学家已经取得了进展,但是从蛋白质的组成中推断结构仍非易事。

为什么预测蛋白质的形状非常困难?

在自然界中,蛋白质是氨基酸链,可以自发折叠成无数令人难以想象的形状,有些甚至在几毫秒之内完成。

为了了解蛋白质如何折叠,DeepMind的研究人员在一个包含约170,000个蛋白质序列及其形状的公共数据库中对其算法进行了训练。在相当于100到200个图形处理单元(按现代标准,计算能力适中)上运行,这种训练需要数周时间。

image.gif

AlphaFold解决蛋白质折叠问题的方法

DeepMind 在2018年首次使用最初版本的 AlphaFold 参加 CASP13,在参赛者中获得了最高的准确度,随后又在《自然》杂志上发表了一篇关于 CASP13 方法及相关代码的论文,这篇论文继续启发了其他工作和社区开发的开源实现。

现在,DeepMind开发的新的深度学习架构已经推动了 CASP14方法的变化,使之能够达到前所未有的精确度。这些方法的灵感来自生物学、物理学和机器学习领域,当然还有过去半个世纪许多蛋白质折叠领域的科学家的工作。

一个折叠的蛋白质可以被认为是一个「空间图形」,其中残基是节点和边连接的。

12.jpg

这张图对于理解蛋白质内部的物理相互作用以及它们的进化历史是很重要的。

对于在 CASP14上使用的最新版本的 AlphaFold,研究人员创建了一个基于注意力的神经网络系统,通过端到端的训练来解释这个图的结构,同时推理出它正在构建的隐式图。它通过使用多重序列对齐 (MSA) 和氨基酸残基对的表示来精化这个图结构。

通过迭代这个过程,系统可以对蛋白质的基本物理结构进行准确的预测,并能够在几天的时间内确定高度精确的结构。

此外,AlphaFold 还可以使用内部置信度来预测每个预测的蛋白质结构的哪些部分是可靠的。

这个系统所使用的数据包括来自蛋白质数据库的大约170,000个蛋白质结构,以及包含未知结构的蛋白质序列的大型数据库。它使用了大约128个 TPU v3 (大致相当于100-200个 GPU) ,只训练了几周时间,在当今机器学习领域中使用的大多数SOTA模型中来说是一个相对较少的计算量。

CASP:蛋白质奥林匹克竞赛

1994年,John Moult 教授和 Krzysztof Fidelis 教授创立了 CASP (Critical Assessment of Structure Prediction) 作为两年一次的盲选评估,以促进研究并建立蛋白质结构预测的最新水平。

CASP 是评估预测技术的标准。更重要的是,CASP 选择那些最近才经过实验确定的蛋白质结构(有些在评估时仍在等待确定)作为研究小组测试其结构预测方法的目标; 而这些结构的预测方法并没有提前公布。参与者必须直接预测蛋白质的结构,这些预测随后会在可用时与实验数据进行比较。

image.gif

CASP 用来测量预测准确性的主要指标是 GDT(Global Distance Test ) ,其范围是从0-100。简单地说,GDT 可以大致地被认为是氨基酸残基在阈值距离内与正确位置的百分比。根据 Moult 教授的说法,90分左右的 GDT 可以被认为是与实验方法得到的结果相竞争的。

image.gif

在今天公布的第14届 CASP 评估结果中,最新的 AlphaFold 系统在所有目标中总体得分中位数为92.4 GDT。这意味着预测平均误差(RMSD)约为1.6埃(1埃等于0.1纳米),相当于一个原子的宽度(或0.1纳米),即使对于最难的蛋白质目标,即那些最具挑战性的自由建模分类,AlphaFold 也可以达到87.0 GDT 的中位数。

2.png

在接受检验的近100个蛋白靶点中,AlphaFold 对三分之二的蛋白靶点给出的预测结构与实验手段获得的结构相差无几。CASP 创始人 Moult 教授表示,在有些情况下,已经无法区分两者之间的区别是由于AlphaFold的预测出现错误,还是实验手段产生的假象。

13.jpg

这些令人兴奋的结果为生物学家打开了使用深度学习计算结构预测作为科学研究的核心工具的潜力,DeepMind 的方法可能特别有助于预测重要类别的蛋白质结构,如膜蛋白等。

image.gif

图:ALPHAFOLD 预测了与实验结果相对应的高度精确的结构


历史性突破!AlphaFold将「改变一切」

如果把基因组序列比喻为标识一个人的身份信息,蛋白质的三维结构就是一个人的身形容貌。

预测蛋白质结构变化的重要意义在于,包括癌症、痴呆等几乎所有疾病,都与细胞内蛋白质结构变化相关,如果能够掌握蛋白质结构的变化,将对疾病的预防、治疗等带来重要影响。

通常情况下,识别单个蛋白质的结构需要耗费科学家数年时间。如今,AlphaFold能在几天内提供精确到一个原子的结果。

此举将极大地加速人类对细胞组成部分的理解,对包括新冠肺炎在内所有疾病的研究均有所帮助。

在冠状病毒的结构中,像皇冠一样的刺突称为刺突糖蛋白(Spike Glycoprotein,以下简称 S 蛋白),是结合人体细胞上相应受体的罪魁祸首;E 蛋白是包膜蛋白,将病毒内部的遗传物质包裹起来;还有膜蛋白(M 蛋白)和核衣壳蛋白(N 蛋白)等结构。

14.jpg

   冠状病毒结构示意图

 

三维结构的解析对于新冠病毒致病机理和药物设计具有非常重要的先决意义。

基于AlphaFold的新突破,人类未来也可能更快地发现更先进的新药物。

CASP联合创始人、马里兰大学帕克分校计算生物学家John Moult直言,「这是一件大事,在某种程度上来说,(蛋白质折叠)问题解决了。」

挑战赛评委之一的进化生物学家Andrei Lupas进一步表示,「这将改变医学,这将改变研究,这将改变生物工程,这将改变所有一切。」

知名领域专家Mohammed AlQuraishi发推称;「它们令人震惊——deepmind似乎已经解决了蛋白质结构预测问题。」

15.jpg

谷歌CEO Sundar Pichai在当天也在推特上分享了这一消息并表示:

「DeepMind难以置信的用AI进行蛋白质折叠预测的突破,将帮助我们更好地理解生命的最根本的根基,并帮助研究人员应对新的和更难的难题,包括应对疾病和环境可持续发展。」

16.jpg

相关文章
|
2月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
42 1
|
25天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
147 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
1月前
|
人工智能 数据挖掘 数据库
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
|
1月前
|
人工智能 算法 搜索推荐
清华校友用AI破解162个高数定理,智能体LeanAgent攻克困扰陶哲轩难题!
清华校友开发的LeanAgent智能体在数学推理领域取得重大突破,成功证明了162个未被人类证明的高等数学定理,涵盖抽象代数、代数拓扑等领域。LeanAgent采用“持续学习”框架,通过课程学习、动态数据库和渐进式训练,显著提升了数学定理证明的能力,为数学研究和教育提供了新的思路和方法。
66 3
|
26天前
|
存储 人工智能 编译器
【AI系统】常量折叠原理
常量折叠是一种编译器优化技术,通过在编译阶段计算常量表达式,用结果替换原表达式,减少运行时计算。传统编译器在编译期间识别并计算常量表达式,如 Python 中 `day_sec = 24*60*60` 被优化为 `day_sec = 86400`。AI 编译器则在计算图中进行类似优化,如 TensorFlow 通过分析计算图节点,提前计算确定结果的节点,提高执行效率。
32 0
|
2月前
|
机器学习/深度学习 人工智能 算法
Nature子刊:AI模型测大脑年龄,究竟哪些因素会加速大脑衰老?
【10月更文挑战第7天】《自然医学》杂志近期发布了一项研究,介绍了一种名为BrainAge的人工智能模型,该模型可预测个体的大脑年龄并分析影响大脑衰老的因素。研究团队来自美国加州大学旧金山分校,利用英国生物银行的近50,000名参与者的数据,发现高血压、糖尿病、肥胖、吸烟、饮酒、缺乏运动及遗传因素均与大脑衰老有关。尽管存在数据集限制等局限性,BrainAge模型仍为研究大脑衰老和相关疾病提供了重要工具。
72 1
|
4月前
|
数据采集 人工智能
Nature封面:AI训练AI,越训越离谱
【8月更文挑战第16天】新发表于《自然》杂志的论文显示,当AI模型基于其他AI生成的数据训练时,会出现“模型崩溃”现象,即模型逐渐遗忘真实数据分布细节,偏向生成更常见模式而非罕见模式。这一研究由牛津、剑桥等高校合作完成,通过实验验证了不同AI模型均可能出现此问题,尤其是在低质或少量数据训练下更为显著。但通过数据增强或模型正则化可缓解该现象。研究强调了训练数据质量和来源的重要性,并引发了关于AI发展和应用的讨论。
206 58
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
【通义】AI视界|AI的胜利!蛋白质结构预测获诺贝尔化学奖
本文介绍了最新的人工智能动态,包括OpenAI计划在新加坡设立新办事处以加速亚太布局、蛋白质结构预测获得诺贝尔化学奖、OpenAI请求法院驳回马斯克的诉讼、Meta的人工智能聊天机器人将在21个新地区推出,以及亚马逊推出的“视觉辅助包裹检索”技术。这些进展展示了人工智能领域的快速发展及其在各行业的广泛应用。点击[通义官网]了解更多功能。
|
4月前
|
机器学习/深度学习 人工智能
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。
205 60
|
3月前
|
人工智能 数据处理
Nature:AI让抄袭问题更加复杂,科学家该如何应对?
【9月更文挑战第16天】《自然》杂志一篇文章指出,AI在科研领域的应用日益增长,带来了加速数据处理、提升计算效率等益处,同时也引发了对科学标准、数据偏见及研究诚信的挑战。一项针对1600多名研究人员的调查显示,超半数认为未来十年AI将成为其研究领域不可或缺的工具。AI能够显著提升科研效率,但也可能增加对模式识别的依赖,加剧数据偏见,并引发研究不可重复性等问题。尤其是大型语言模型如ChatGPT,虽有助于改进论文语法和翻译,但也可能传播错误信息。此外,部分科学家面临计算资源和高质量数据不足等使用障碍。
53 3