Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人(2)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人

Brian Hie认为,这一成果是朝着更可控、更有规律、更有表现力的蛋白质设计迈出的一步。他也感谢了来自Meta AI和其他合作者的共同努力。让蛋白质设计「就像盖大楼」在论文中,研究人员认为,蛋白质设计将受益于一套基本的抽象概念所提供的规律性、简单性和可编程性,就像那些用于建筑、机器、电路和计算机软件工程的抽象概念一样。但与这些人工创造物不同的是,蛋白质不能被分解成容易重组的部分,因为序列的局部结构与它的整体环境纠缠在一起。经典的从头开始的蛋白质设计试图确定一套基本的结构构件,然后将其组装成高阶结构。同样,传统的蛋白质工程通常将天然蛋白质序列的片段或结构域重组为混合嵌合体。然而,现有的方法还不能实现真正可编程性所需的高组合复杂性。本文展示了现代生成模型在新的组合复杂性水平上实现了模块化和可编程性的经典目标。把模块化和可编程性放在一个更高的抽象水平上,在这个水平上,生成式模型弥补了人类直觉和特定序列和结构的产生之间的差距。在这种情况下,蛋白质设计者只需要重新组合高层次的指令,而获得满足这些指令的蛋白质的任务则放在生成模型上。研究人员提出了一种用于生成性蛋白质设计的编程语言,允许设计者指定直观的、模块化的和分层次的程序。高层次的程序可以通过生成模型转化为低层次的序列和结构。这套方法利用了蛋白质语言模型的进展,可以学习结构信息和蛋白质的设计原则。在这项研究中的具体实施基于一个基于能量的生成模型,如上图所示。首先,一个蛋白质设计者指定了一个由一组分层组织的约束条件组成的高级程序(图A)。然后,这个程序编译成一个能量函数,评估与约束条件的兼容性,这些约束条件可以是任意的和不可区分的(图B)。通过将原子级结构预测(由语言模型启用)纳入能量函数来应用结构上的约束。这种方法能够生成广泛的复杂设计(图C)。

从无到有生成蛋白质序列

在论文「Language models generalize beyond natural proteins」中,来自MetaAI团队的作者Tom Sercu表示,这个工作主要完成了两项任务。

论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1第一项是为给定的主链结构设计序列。使用语言模型,可以获得针对所有目标的成功设计,成功率达19/20,而没有语言模型参与的序列设计,成功率只有1/20。

第二个任务是无约束生成。研究团队提出了一种从语言模型定义的能量景观中采样(序列、结构)对的新方法。通过不同的拓扑结构进行采样,再次提高实验的成功率(达71/129或55%)。为了证明预测的蛋白质结构超越了天然蛋白质的限制,研究团队在涵盖所有已知天然蛋白质的序列数据库中,对语言模型生成的蛋白质序列进行搜索。结果显示,二者并无匹配关系,自然序列和语言模型生成的预测结构不同。Sercu表示,可以单独使用ESM2蛋白质语言模型对蛋白质结构进行设计。研究团队通过实验测试了228种蛋白质,成功率为67%!Sercu认为,仅在序列上训练的蛋白质语言模型可以学习连接序列和结构的深层模式,并且可以用于从头设计蛋白质,超出了自然探索的设计空间。探索蛋白质生成的深层语法在论文中,Meta的研究人员表示,虽然只对语言模型在序列上训练,模型依然能够设计蛋白质的深层语法结构,突破天然蛋白质的局限。如果用A图的方块表示所有蛋白质序列构成的空间,那么天然蛋白质序列是灰色部分,覆盖了其中一小部分。为了超越自然序列进行推广,语言模型需要访问底层设计模式。研究团队要做的是两件事:第一,从头设计蛋白质(de novo)主链;第二,根据主链,从无到有生成蛋白质序列。研究团队使用掩码语言模型,对ESM2进行训练,训练内容包括进化过程中数百万种不同的天然蛋白质。语言模型训练后,可以在模型的内部attention状态中识别有关蛋白质三级结构的信息。之后,研究人员通过线性投影,将蛋白质序列中一对位置的attention转换为残基间距离的分布。研究人员表示,语言模型预测蛋白质结构的能力,指出了构成天然蛋白质序列背后更深层次的结构序列,以及存在一个可由模型学习的深层语法的可能性。结果表明,在进化过程中,大量蛋白质序列包含的生物结构和功能,揭示了蛋白质的设计构造。这种构造完全可以通过学习蛋白质序列的机器模型得以重现。

语言模型在6项实验中成功预测的蛋白质结构跨蛋白质的深层语法的存在,解释了似乎相互矛盾的两组发现:对天然蛋白质的理解取决于训练数据;而语言模型又可以在已知的天然蛋白质家族之外进行预测和探索。如果蛋白质语言模型的缩放定律继续有效,可以预料,AI语言模型的生成能力将不断提高。研究团队表示,由于存在蛋白质结构的基础语法,机器模型将学习更加罕见的蛋白质构造,从而扩展模型的预测能力和探索空间。一年前,DeepMind开源AlphaFold2连登Nature、Science,刷爆生物和AI学界。一年后,人工智能预测模型如雨后春笋,频频填补蛋白质结构领域的空白。如果说人类给予人工智能以生命,那么人工智能是否是人类补全生命奥秘的最后一块拼图呢?参考资料:https://twitter.com/TomSercu/status/1606075975891972096https://twitter.com/BrianHie/status/1606074806620737536https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1

相关文章
|
8月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
66 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
5月前
|
人工智能 自然语言处理 算法
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
【8月更文挑战第26天】在人工智能领域,尽管大型语言模型(LLMs)作为自动评估工具展现了巨大潜力,但在自然语言生成质量评估中仍存偏见问题,且难以确保一致性。为解决这一挑战,研究者开发了Pairwise-preference Search(PairS)算法,一种基于不确定性的搜索方法,通过成对比较及不确定性引导实现高效文本排名,有效减少了偏见、提升了评估效率和可解释性。PairS在多项任务中表现出色,相较于传统评分法有显著提升,为自然语言处理评估提供了新思路。更多详情参阅论文:https://arxiv.org/abs/2403.16950。
86 4
|
8月前
|
机器学习/深度学习 人工智能
论文介绍:深入解析神经语言模型的规模定律
【4月更文挑战第2天】OpenAI的论文《Scaling Laws for Neural Language Models》探索了模型规模、数据量和计算资源与性能的幂律关系。研究发现,增大模型参数、数据集和计算投入能按幂律提升性能,且模型性能与架构细节关联较小。大型模型在样本效率上更优,能在少量数据上达到与小型模型相当的性能。尽管存在理论解释和数据规模等方面的局限性,该研究为优化资源分配和设计高性能语言模型提供了关键洞见。
85 2
论文介绍:深入解析神经语言模型的规模定律
|
8月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
125 0
|
机器学习/深度学习 数据可视化 索引
斯坦福训练Transformer替代模型:1.7亿参数,能除偏、可控可解释性强
斯坦福训练Transformer替代模型:1.7亿参数,能除偏、可控可解释性强
149 2
|
机器学习/深度学习 自然语言处理 算法
超越PaLM!北大硕士提出DiVeRSe,全面刷新NLP推理排行榜
超越PaLM!北大硕士提出DiVeRSe,全面刷新NLP推理排行榜
112 0
超越PaLM!北大硕士提出DiVeRSe,全面刷新NLP推理排行榜
|
编解码 人工智能 自然语言处理
ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿
ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿
170 0
|
机器学习/深度学习 人工智能 编解码
Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人
Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人
125 0
|
传感器 人工智能 编解码
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
155 0
|
机器学习/深度学习 自然语言处理 安全
少到4个示例,击败所有少样本学习:DeepMind新型800亿模型真学会了
少到4个示例,击败所有少样本学习:DeepMind新型800亿模型真学会了
194 0

热门文章

最新文章