语言模型生成了自然界不存在的蛋白质,图灵奖得主LeCun:蛋白质编程来了

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 语言模型生成了自然界不存在的蛋白质,图灵奖得主LeCun:蛋白质编程来了


Meta:设计蛋白质这件事,语言模型就能干。

用机器学习去研究蛋白质结构预测,吸引了众多科技大厂、科研机构的目光纷纷投入其中,这期间,他们也产出了重要成果。


如在 2021 年 《Science》的十大年度突破中,DeepMind 携预测蛋白质结构的 AI 模型 AlphaFold 上榜,在这项工作的基础上,研究人员现在已经使用人工智能来设计可用于疫苗、建筑材料或纳米机器的全新蛋白质。


在《Science》今年 9 月发表的一篇论文中,华盛顿大学医学院生物化学教授 David Baker 等研究者提出,AI 可以通过两种思路从头设计蛋白质。


当然,对这一领域的热情,自然也少不了 Meta 的加入,就在刚刚过去的 11 月,Meta 拿下微生物领域蛋白质结构预测,开放 6 亿 + 宏基因组蛋白质结构图谱,这是首个蛋白质宇宙「暗物质」的综合视图。


时间刚刚过去一个月,在 FAIR 公布的最新两篇论文中,该研究发现 ESM2 语言模型通过学习深层语法,就能生成天然蛋白质以外的新蛋白质,并可以编程生成复杂和模块化的蛋白质结构。其中 ESM2 模型参数为 150 亿,是迄今为止最大的蛋白质语言模型。



Yann LeCun 在推特上表示:FAIR 开发的新蛋白质设计系统,可以产生与自然界中观察到的蛋白质完全不同的蛋白质;在这个蛋白质设计系统之上,蛋白质可以通过一种编程语言来指定。




在论文《Language models generalize beyond natural proteins》中,ESM2 通过学习深层语法,成功设计了 152 种蛋白质。



论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf


在论文《A high-level programming language for generative protein design》中,该研究实现了一种用于生成蛋白设计的高级编程语言。这使得编程生成具有复杂和模块化结构的大蛋白质和复合物成为可能。



论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full.pdf


ESM2 设计蛋白质


在论文《Language models generalize beyond natural proteins》中,研究者专注于两个蛋白质设计任务:


  • 指定结构的固定骨架设计;
  • 从模型中采样结构的无约束生成。


尽管语言模型仅针对序列进行训练,但该研究发现它们能够设计结构。在该研究的实验结果中,一共生成了 228 种蛋白质,设计成功的比率是 152/228(67%)。


在 152 个实验成功的设计中,有 35 个与已知的天然蛋白质没有明显的序列匹配。


对于固定主干设计,语言模型成功为 8 个经过实验评估的人工创建的固定主干目标生成了蛋白质设计。


对于不受约束生成的情况,采样的蛋白质涵盖了不同的拓扑结构和二级结构组成,结果具有很高的实验成功率 71/129(55%)。


,时长00:13

该研究用语言模型设计的蛋白质反映了连接序列和结构的深层模式,包括已在自然结构中出现的基序,和在已知蛋白质的结构环境中未观察到的基序。实验结果表明,语言模型虽然只接受序列训练,但通过学习深层语法就可以设计蛋白质结构,并且设计出自然界中未出现过的蛋白质。


下图 1 是 ESM2 模型设计蛋白质的总体流程:



该研究通过分析比较,归纳出语言模型在蛋白质设计过程中的作用,如下图 2 所示:



实验结果表明,ESM2 模型能够生成自然界已有的蛋白质结构和全新的蛋白质结构:




一种用于生成蛋白质设计的高级编程语言


对于蛋白质来说,我们不能将其分解为易重组部分,因为蛋白质序列的局部结构纠缠在其全局背景中,传统的设计方法试图确定一组基本的结构构件,然后在组装成更高阶的结构。然而,现有方法还不能达到真正可编程性所必需的高度组合复杂性。


该研究从模块化和可编程性入手,将两者置于更高的抽象层次,蛋白质设计者只需要重新组合高级指令,然后在生成模型上执行指令即可。


他们提出的生成蛋白质设计的编程语言,允许设计人员指定直观、模块化和分层的程序。该编程语言首先需要一个语法树 (图 1A),由末端符号 (即树的叶子) 和非末端符号 (即树的内部节点) 组成,前者对应一个独特的蛋白质序列 (在蛋白质中可能重复),后者支持分层组织。


此外还需要一个基于能量的生成模型。首先,蛋白质设计器指定一个高级程序,该程序由一组按层次组织的约束组成(图 1A)。然后,该程序编译为一个能量函数,用于评估与约束的兼容性,约束是任意的且不可微的(图 1B)。最后通过将原子级结构预测(由语言模型支持)合并到能量函数中,可以生成大量复杂的蛋白质设计(图 1C)。



下图为模型生成的高置信度结构(图 2A 和 2B)。


图 2。


下图为生成模型产生了一组不同的高置信度结构(图 3B、S2A 和 S2B),包括自然界中蛋白质的各种折叠(卷曲螺旋、β 螺旋桨状、β 桶状和 TIM 桶状)以五角星形状蛋白质(图 3B 中的第 1 行和第 3 列)和立方体状蛋白质 (图 3B 中的第 2 行和第 2 列)。


图 3。


了解更多研究,请参考原论文。

相关文章
|
2月前
|
机器学习/深度学习 数据可视化
KAN干翻MLP,开创神经网络新范式!一个数十年前数学定理,竟被MIT华人学者复活了
【10月更文挑战第12天】MIT华人学者提出了一种基于Kolmogorov-Arnold表示定理的新型神经网络——KAN。与传统MLP不同,KAN将可学习的激活函数放在权重上,使其在表达能力、准确性、可解释性和收敛速度方面表现出显著优势,尤其在处理高维数据时效果更佳。然而,KAN的复杂性也可能带来部署和维护的挑战。论文地址:https://arxiv.org/pdf/2404.19756
64 1
|
3月前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
63 8
|
6月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
218 7
|
机器学习/深度学习 存储 人工智能
蛋白质界的 ChatGPT:AlphaFold1 论文必备知识,不会有人还不知道吧
AlphaFold1是一种人工智能模型,由DeepMind公司开发,用于预测蛋白质的三维结构。它是基于深度学习的方法,使用了神经网络来预测蛋白质的结构。AlphaFold1的预测准确率非常高,已经被证明可以在很短的时间内预测出数千个蛋白质的结构。 AlphaFold1的核心思想是将蛋白质的结构预测问题转化为一个优化问题。具体来说,它使用了一种称为“残基-残基接触预测”的方法,通过预测蛋白质中不同残基之间的接触情况来推断出蛋白质的三维结构。这种方法需要大量的训练数据和计算资源,但是它可以在很短的时间内预测出高质量的蛋白质结构
290 0
|
机器学习/深度学习 算法 数据可视化
Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的
Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的
|
机器学习/深度学习 算法 异构计算
突破神经网络限制,量子蒙特卡洛研究新进展登Nature子刊
突破神经网络限制,量子蒙特卡洛研究新进展登Nature子刊
171 0
|
机器学习/深度学习 人工智能 编解码
理论到应用,朱军教授带团队解读扩散概率模型
理论到应用,朱军教授带团队解读扩散概率模型
323 0
|
人工智能 数据库
世间几乎所有已知蛋白质结构,都被DeepMind开源了
世间几乎所有已知蛋白质结构,都被DeepMind开源了
|
机器学习/深度学习 存储 人工智能
图灵奖得主Geoffrey Hinton:我的五十年深度学习生涯与研究心法
图灵奖得主Geoffrey Hinton:我的五十年深度学习生涯与研究心法
130 0
|
机器学习/深度学习 存储 人工智能
西电焦李成教授一作:「深度神经网络FPGA」最新研究综述
西电焦李成教授一作:「深度神经网络FPGA」最新研究综述
255 0

热门文章

最新文章