Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人

简介: Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人

Meta让150亿参数语言模型学会从头设计「全新」蛋白质!LeCun:效果惊人

新智元新智元 2022-12-23 13:19 发表于北京



 新智元报道  

编辑:编辑部

【新智元导读】Meta最新力作!经过训练的语言模型直接化身「造物主」,可以设计、生成蛋白质,生命的终极奥秘要被人工智能发现了吗?


AI在生物医学领域再次获得新进展。没错,这次还和蛋白质有关。

不同的是,过去的AI是发现蛋白质结构,这回开始自己设计和生成蛋白质结构了。如果说过去是「检察官」,现在说是进化成了「造物主」也不是不行。

参与本项研究的是Meta的AI研究机构中包括FAIR的蛋白质研究团队。作为在Facebook任职多年的首席AI科学家,Yann LeCun也是第一时间转发了这个自家团队的成果,并给予高度评价。

BioRxiv上的这两篇论文是Meta在蛋白质设计/生成方面的「惊人」的成果。该系统使用模拟退火算法来寻找一个氨基酸序列,该序列的折叠方式符合所需的形状或满足约束条件(如对称性)。

ESM2,原子层级结构预测的模型

你猜的没错,这项研究和这两篇论文的基础,正是不久前由Meta提出的蛋白质预测和发现的大语言模型:ESM2。

这是一个150亿参数的大模型。随着模型从800万个参数扩展到1500万个参数,内部表征中出现的信息能够在原子分辨率下进行三维结构预测。利用大型语言模型来学习进化模式,可以直接从蛋白质序列中端到端地生成准确的结构预测,在保持准确性的同时,预测速度比当前最先进的方法快60倍。事实上,借助于这种新的结构预测能力,Meta在短短两周内用一个由大约2000个GPU组成的集群上,预测出了图谱中超过6亿个宏基因组蛋白质的序列。两篇论文的通信作者,来自Meta AI的Alex Rives表示,ESM2语言模型展现出的通用性不仅超出了天然蛋白质的范围,而且还能够可编程地生成复杂和模块化的蛋白质结构。

蛋白质设计「专用编程语言」

工欲善其事,必先利其器。为了让蛋白质设计和生成更有效率,研究人员在之前成果(主要是ESM2)的基础上,还专门开发了一种面向蛋白质设计的高级编程语言。

论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1该研究的主要负责人之一,论文「A high-level programming language for generative protein design」的通讯作者Alex Rives在社交媒体上表示,这个成果,使得对具有复杂和模块化结构的大型蛋白质和复合物的生成进行编程成为可能。论文作者之一、斯坦福大学的研究人员Brian Hie在推特上也对这篇文章的主要研究思路和成果做了自己的解释。总体上讲,这篇文章描述了生成式机器学习如何实现由用于蛋白质设计的高级编程语言控制的复杂蛋白质的模块化设计。

他表示,这篇文章的主要想法不是使用序列或结构的构建块,而是将模块化置于更高的抽象级别,并让黑盒优化生成特定设计。优化的每一步预测原子级结构。与之前的蛋白质设计方法相比,这种新思路产生的方法可以让设计者指定任意的、不可微的约束,范围从指定原子级坐标到蛋白质的抽象设计方案,比如对称设计。对于可编程性来说,约束条件是模块化的,这一点很重要。比如下图就是将同一约束分层应用于两个层次的对称性编程的情况。这些约束也很容易重新组合。比如,可以把对原子坐标的约束和对对称性的约束结合起来。或者可以将不同形式的两级对称性结合起来,为一个不对称的复合结构体编程。

相关文章
|
6月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
555 2
|
6月前
|
JSON 前端开发 API
汽车配件:使用VIN码查询API精准匹配车型配件,提升用户信任
VIN码是汽车的唯一“身份证”,通过API可精准解析车型信息,实现配件99.5%以上匹配度。本文详解VIN码API的工作流程、技术实现与信任提升价值,助力汽配销售从经验判断迈向数据驱动,降低退货率,提升用户体验与复购。
846 0
|
存储 安全 区块链
未来网络架构:从中心化到去中心化的演进
【10月更文挑战第20天】 在数字时代,网络架构是支撑信息社会的基石。本文将探讨网络架构如何从传统的中心化模式逐步演变为更加灵活、高效的去中心化模式。我们将分析这一转变背后的技术驱动力,包括区块链、分布式账本技术和点对点(P2P)网络,以及这些技术如何共同作用于网络的未来形态。文章还将讨论去中心化网络架构面临的挑战和潜在的解决方案,为读者提供一个关于网络未来发展的宏观视角。
691 12
|
9月前
|
安全 API Android开发
【HarmonyOS 5】金融应用开发鸿蒙组件实践
2024 年 1 月 18 日: 发布 原生鸿蒙操作系统星河版,面向开发者开放申请,余承东宣布鸿蒙生态设备数达 8 亿台;建设银行、邮储银行等完成鸿蒙原生应用 Beta 版本开发。
327 0
|
10月前
|
人工智能 安全 Android开发
手机也能跑通义Qwen3大模型,手把手教你部署!
全球开源模型冠军Qwen3与端到端全模态模型Qwen2.5-Omni现已成功在手机上跑通!借助MNN支持,适配Android、iOS及桌面端,实现低延迟、本地化、高安全的AI体验。用户可通过自定义Sampler设置、System Prompt和Max New Tokens调节模型输出风格与长度。
4597 11
|
机器学习/深度学习 算法 安全
探索现代操作系统的内核设计与优化
在当今数字化时代,操作系统的内核是计算机系统稳定、高效运行的关键。本文深入探讨了现代操作系统内核的设计原则和优化方法,从微内核到宏内核,详细分析了它们各自的优缺点,并探讨了未来内核的发展趋势和创新方向。
408 28
|
移动开发 前端开发 JavaScript
前端需要掌握的技术有哪些方面?
前端需要掌握的技术有哪些方面?
762 1
|
机器学习/深度学习 存储 人工智能
深度学习中的模型压缩技术在人工智能领域,深度学习技术的迅猛发展带来了巨大的计算资源需求。为了解决这一问题,模型压缩技术应运而生。本文将介绍什么是模型压缩、常见的模型压缩方法以及其在实际应用中的意义。
随着深度学习技术的广泛应用,计算资源的需求也大幅增加。为减少资源消耗,提升模型效率,模型压缩技术成为研究热点。本文探讨了模型压缩的定义、主流方法和其重要性。通过量化、剪枝、知识蒸馏和轻量级架构等策略,模型得以在保持性能的同时减小体积,从而适用于资源受限的环境。这些技术不仅降低了计算成本,还推动了深度学习在移动设备和边缘计算等领域的应用,使AI技术更加普及和实用。总之,模型压缩在平衡模型性能与资源消耗之间发挥着关键作用,是未来AI发展的重要方向。
|
存储 弹性计算 前端开发
阿里云服务领域Agent智能体:从概念到落地的思考、设计与实践
本文讲述了作者团队在阿里云的服务领域Agent是如何设计与实践的,以及到目前为止的一些阶段性成果,作者做出了总结和整理。
|
SQL 开发框架 .NET
深入解析Entity Framework Core中的自定义SQL查询与Raw SQL技巧:从基础到高级应用的全面指南,附带示例代码与最佳实践建议
【8月更文挑战第31天】本文详细介绍了如何在 Entity Framework Core (EF Core) 中使用自定义 SQL 查询与 Raw SQL。首先,通过创建基于 EF Core 的项目并配置数据库上下文,定义领域模型。然后,使用 `FromSqlRaw` 和 `FromSqlInterpolated` 方法执行自定义 SQL 查询。此外,还展示了如何使用 Raw SQL 进行数据更新和删除操作。最后,通过结合 LINQ 和 Raw SQL 构建动态 SQL 语句,处理复杂查询场景。本文提供了具体代码示例,帮助读者理解和应用这些技术,提升数据访问层的效率和灵活性。
914 0

热门文章

最新文章