Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人(2)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人

Brian Hie认为,这一成果是朝着更可控、更有规律、更有表现力的蛋白质设计迈出的一步。他也感谢了来自Meta AI和其他合作者的共同努力。让蛋白质设计「就像盖大楼」在论文中,研究人员认为,蛋白质设计将受益于一套基本的抽象概念所提供的规律性、简单性和可编程性,就像那些用于建筑、机器、电路和计算机软件工程的抽象概念一样。但与这些人工创造物不同的是,蛋白质不能被分解成容易重组的部分,因为序列的局部结构与它的整体环境纠缠在一起。经典的从头开始的蛋白质设计试图确定一套基本的结构构件,然后将其组装成高阶结构。同样,传统的蛋白质工程通常将天然蛋白质序列的片段或结构域重组为混合嵌合体。然而,现有的方法还不能实现真正可编程性所需的高组合复杂性。本文展示了现代生成模型在新的组合复杂性水平上实现了模块化和可编程性的经典目标。把模块化和可编程性放在一个更高的抽象水平上,在这个水平上,生成式模型弥补了人类直觉和特定序列和结构的产生之间的差距。在这种情况下,蛋白质设计者只需要重新组合高层次的指令,而获得满足这些指令的蛋白质的任务则放在生成模型上。研究人员提出了一种用于生成性蛋白质设计的编程语言,允许设计者指定直观的、模块化的和分层次的程序。高层次的程序可以通过生成模型转化为低层次的序列和结构。这套方法利用了蛋白质语言模型的进展,可以学习结构信息和蛋白质的设计原则。在这项研究中的具体实施基于一个基于能量的生成模型,如上图所示。首先,一个蛋白质设计者指定了一个由一组分层组织的约束条件组成的高级程序(图A)。然后,这个程序编译成一个能量函数,评估与约束条件的兼容性,这些约束条件可以是任意的和不可区分的(图B)。通过将原子级结构预测(由语言模型启用)纳入能量函数来应用结构上的约束。这种方法能够生成广泛的复杂设计(图C)。

从无到有生成蛋白质序列

在论文「Language models generalize beyond natural proteins」中,来自MetaAI团队的作者Tom Sercu表示,这个工作主要完成了两项任务。

论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1第一项是为给定的主链结构设计序列。使用语言模型,可以获得针对所有目标的成功设计,成功率达19/20,而没有语言模型参与的序列设计,成功率只有1/20。

第二个任务是无约束生成。研究团队提出了一种从语言模型定义的能量景观中采样(序列、结构)对的新方法。通过不同的拓扑结构进行采样,再次提高实验的成功率(达71/129或55%)。为了证明预测的蛋白质结构超越了天然蛋白质的限制,研究团队在涵盖所有已知天然蛋白质的序列数据库中,对语言模型生成的蛋白质序列进行搜索。结果显示,二者并无匹配关系,自然序列和语言模型生成的预测结构不同。Sercu表示,可以单独使用ESM2蛋白质语言模型对蛋白质结构进行设计。研究团队通过实验测试了228种蛋白质,成功率为67%!Sercu认为,仅在序列上训练的蛋白质语言模型可以学习连接序列和结构的深层模式,并且可以用于从头设计蛋白质,超出了自然探索的设计空间。探索蛋白质生成的深层语法在论文中,Meta的研究人员表示,虽然只对语言模型在序列上训练,模型依然能够设计蛋白质的深层语法结构,突破天然蛋白质的局限。如果用A图的方块表示所有蛋白质序列构成的空间,那么天然蛋白质序列是灰色部分,覆盖了其中一小部分。为了超越自然序列进行推广,语言模型需要访问底层设计模式。研究团队要做的是两件事:第一,从头设计蛋白质(de novo)主链;第二,根据主链,从无到有生成蛋白质序列。研究团队使用掩码语言模型,对ESM2进行训练,训练内容包括进化过程中数百万种不同的天然蛋白质。语言模型训练后,可以在模型的内部attention状态中识别有关蛋白质三级结构的信息。之后,研究人员通过线性投影,将蛋白质序列中一对位置的attention转换为残基间距离的分布。研究人员表示,语言模型预测蛋白质结构的能力,指出了构成天然蛋白质序列背后更深层次的结构序列,以及存在一个可由模型学习的深层语法的可能性。结果表明,在进化过程中,大量蛋白质序列包含的生物结构和功能,揭示了蛋白质的设计构造。这种构造完全可以通过学习蛋白质序列的机器模型得以重现。

语言模型在6项实验中成功预测的蛋白质结构跨蛋白质的深层语法的存在,解释了似乎相互矛盾的两组发现:对天然蛋白质的理解取决于训练数据;而语言模型又可以在已知的天然蛋白质家族之外进行预测和探索。如果蛋白质语言模型的缩放定律继续有效,可以预料,AI语言模型的生成能力将不断提高。研究团队表示,由于存在蛋白质结构的基础语法,机器模型将学习更加罕见的蛋白质构造,从而扩展模型的预测能力和探索空间。一年前,DeepMind开源AlphaFold2连登Nature、Science,刷爆生物和AI学界。一年后,人工智能预测模型如雨后春笋,频频填补蛋白质结构领域的空白。如果说人类给予人工智能以生命,那么人工智能是否是人类补全生命奥秘的最后一块拼图呢?参考资料:https://twitter.com/TomSercu/status/1606075975891972096https://twitter.com/BrianHie/status/1606074806620737536https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1

相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
56 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
2月前
Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B
【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666
61 4
|
3月前
|
数据采集 人工智能
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM分饰三角自评自进化
【8月更文挑战第20天】近期,Meta等机构提出了一项让大型语言模型(LLM)自我评估与改进的研究,通过“Meta-Rewarding”方法,使模型分饰生成、评估及改进三角色,实现了高效自我迭代。实验证明,经四轮强化训练后,Llama 7B模型性能大幅提升,在多项任务上超越GPT-4等先进模型,展示了LLM自我优化的巨大潜力。详情参阅论文:https://arxiv.org/abs/2407.19594。
45 7
|
3月前
Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%
【8月更文挑战第1天】Meta开发的System 2蒸馏技术可将大型语言模型从System 2模式转换至System 1模式, 实现直接生成最终答案而非中间推理步骤。此技术显著提升了性能, 如Llama 2对话模型准确率接近100%。通过自监督学习及方法如Rephrase and Respond、System 2注意力(S2A) 和 Branch-Solve-Merge(BSM), 模型在多项任务上取得优异成绩。[论文](https://arxiv.org/pdf/2407.06023v2)
56 6
|
机器学习/深度学习 人工智能 安全
没有RLHF,一样媲美GPT-4、Bard,Meta发布650亿参数语言模型LIMA
没有RLHF,一样媲美GPT-4、Bard,Meta发布650亿参数语言模型LIMA
112 0
|
机器学习/深度学习 人工智能 编解码
Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人
Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人
115 0
|
编解码 人工智能 自然语言处理
ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿
ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿
165 0
|
传感器 人工智能 编解码
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
137 0
|
机器学习/深度学习 存储 人工智能
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型(1)
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型
110 0
|
存储 机器学习/深度学习 人工智能
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型(2)
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型
139 0

热门文章

最新文章