秒杀AlphaFold!Science:用AI一秒设计自然界全新蛋白质(2)

简介: 秒杀AlphaFold!Science:用AI一秒设计自然界全新蛋白质

要知道,按照一般的传统,研究人员设计蛋白质时,是通过调整自然界中已知的蛋白质。但是ProteinMPNN的出现,可以让研究人员从头设计所有可能的蛋白质,这就打开了一个新世界。

ProteinMPNN帮助研究人员解决了逆向的问题——如果他们心中已经有了一个确切的蛋白质结构,它就能帮助他们找到能折叠成这个形状的氨基酸序列。ProteinMPNN使用的的是一个在很多折叠成三维结构的氨基酸序列中训练出来的神经网络。

研究人员还要解决另外一个问题:要设计解决现实问题的蛋白质,比如消化塑料的新酶,他们需要首先弄清楚什么样的蛋白质骨架会有这种功能。为了解决这些问题,Baker的团队使用了机器学习的方法,以下是详细介绍。

蛋白质设计的三个挑战


Baker的团队将蛋白质设计的挑战分解为三个部分,并且针对每个部分,都设计了特定的软件方案。

第一部分首先,必须生成新的蛋白质形状。在 7 月 21 日发表在《科学》杂志上的一篇论文中,该团队表明人工智能可以通过两种方式生成新的蛋白质形状。

论文地址:https://www.science.org/doi/10.1126/science.abn2100第一种被称为「幻想」(hallucination),类似于DALL-E或其他基于简单提示产生输出的生成AI工具。通过「幻想」,用户可以在所有可能的蛋白质序列中进行随机搜索,并倾向于具有特定功能的序列。它使探索所有可能的蛋白质结构空间成为可能,这要归功于机器学习对庞大数据集的处理能力。Baker对此解释道:「自然界中的蛋白质,只是采样很小的一部分,因此,如果你把搜索限制在自然界已经存在的那些序列上,你就不会有任何收获。」

使用「幻想」生成的对称环第二种被称为「修复」(inpainting),类似于文字处理器中的自动完成功能,不过它针对的是蛋白质的结构和序列。这种方法从功能位点开始填充额外的序列和结构,通过经过专门训练的RoseTTAFold网络在单次正向传递中创建可行的蛋白质支架。用这两种方法,可以设计包含功能位点的候选免疫原、受体陷阱、酶活性位点等。第二部分其次,为了加快这一过程,团队设计了一种生成氨基酸序列的新算法。在9月15日的Science上,他们介绍了这个名为ProteinMPNN的软件工具,它的运行时间大约为一秒。比起以前最好的软件,ProteinMPNN要快200多倍!

ProteinMPNN架构ProteinMPNN不仅速度快,它的结果还优于以前的工具,并且不需要专家定制就可以运行。「 如果你有大量数据,神经网络是很容易训练的,但是对于蛋白质,我们并没有那么多例子。我们必须深入其中,确定这些分子中哪些特征是最重要的。你需要反复试错。」蛋白质设计研究所的博后研究员Justas Dauparas说。

用ProteinMPNN设计蛋白质第三部分在第三部分,该团队使用了由DeepMind开发的工具AlphaFold,来独立评估他们提出的氨基酸序列是否可以折叠成预期的形状。「预测蛋白质结构的软件是解决方案的一部分,但它本身无法提出任何新东西。」Dauparas解释说。「ProteinMPNN之于蛋白质设计,就像AlphaFold之于蛋白质结构预测。」Baker补充道。在9月15日发表在Science上的另一篇论文中,Baker实验室的一个团队证实,使用新机器学习工具的组合,我们能够可靠地生成新的蛋白质,这些新蛋白质会在实验室中发挥作用。「我们发现,使用ProteinMPNN制造的蛋白质更有可能按预期折叠,我们可以使用这些方法制造非常复杂的蛋白质组装体。」蛋白质设计研究所的博后研究员Basile Wicky说。

意义重大

利用这些新方法,研究人员创造出了一种在自然界中没有见过的全新蛋白质,比如一个巨大的纳米环。Baker的团队正在试验,看这些环状结构是否可以用作定制纳米机械的部件。在电子显微镜下,这些环的直径大约比罂粟种子小十亿倍。或许在未来,这些纳米机器可以被用来疏通动脉。使用机器学习来设计蛋白质,会让整个过程更快、更容易,并且让研究人员在更大的范围内创造出全新的蛋白质结构。这些软件比以前最好的工具还要快上200多倍,并且只需要最小的用户输入,这将大大降低蛋白质设计的门槛。ProteinMPNN设计的结构特征「这些研究正在改变整个生物分子结构预测和设计领域。」约翰霍普金斯大学化学和生物分子工程教授Jeffrey Gray说。「在理解生物学、健康和疾病上,以及设计新的分子减少人类自杀上,影响都是巨大的。」Gray说,他的实验室正在将自己开发的深度学习工具与Baker团队的工具结合起来,以更好地了解免疫系统和免疫相关的疾病,并使用AI来设计治疗方法。「AlphaFold通过解决蛋白质结构预测问题,将生物学带入了一个新时代,并展示了AI在生物学中发挥的革命性作用」。DeepMind的AI for Science团队负责人Pushmeet Kohli说。「ProteinMPNN是这种范式转变的另一个证明,从此我们可以为特定任务设计蛋白质」。「这仅仅是机器学习在蛋白质设计中的一个开始。在接下来的几个月里,我们会努力改进这些工具,争取创造出更具动态性和功能性的蛋白质。」Baker说。ProteinMPNN的计算评估现在,ProteinMPNN可以在GitHub上免费使用了,研究人员可以用它创作出无限的新设计。最后,Baker说:「现在,最有挑战性的地方在于……你要设计什么?」

作者介绍


David Baker博士是华盛顿大学基因组科学、生物工程、化学工程、计算机科学和物理学的副教授。他的研究小组专注于大分子结构和功能的设计。同时,Baker博士还在担任蛋白质设计研究所的主任、Howard Hughes医学研究所研究员。他也是美国国家科学院和美国艺术与科学学院的成员。此前,他在加州大学伯克利分校获得生物化学博士学位,并在加州大学旧金山分校做生物物理学博士后工作。Baker博士曾获得国家科学基金会、Beckman基金会和Packard基金会的奖励。他是生命科学突破奖、蛋白质协会的Irving Sigal和Hans Neurath奖、ISCB的Overton奖、Foresight研究所的Feynman奖、AAAS Newcomb Cleveland奖、生物物理学的Sackler奖以及生化协会的百年纪念奖的获得者。他的65名学生已经进入独立的教职,他已经发表了500多篇研究论文,获得了100多项专利,并共同创办了11家公司。参考资料:https://www.technologyreview.com/2022/09/15/1059550/an-ai-that-can-design-new-proteins-could-help-unlock-new-cures-and-materials/https://newsroom.uw.edu/news/beyond-alphafold-ai-excels-creating-new-proteinshttps://www.science.org/doi/10.1126/science.add2187

相关文章
|
10月前
|
机器学习/深度学习 人工智能 编解码
ByteDance Research登Nature子刊:AI+冷冻电镜,揭示蛋白质动态
在生物医学领域,蛋白质的结构与功能研究至关重要。ByteDance Research团队开发的CryoSTAR软件,结合AI与冷冻电镜技术,通过深度学习模型、结构先验和异质性重构算法,成功解析了蛋白质的动态行为,尤其在处理结构异质性方面表现出色。该软件已在多个蛋白质体系中取得显著成果,如TRPV1通道蛋白的动态变化研究,为理解蛋白质功能及疾病机制提供了新思路。论文链接:https://www.nature.com/articles/s41592-024-02486-1
331 26
|
5月前
|
机器学习/深度学习 人工智能 API
基于昇腾适配Meta AI在Science正刊发表的蛋白质结构预测模型ESMFold
ESMFold是由Meta AI团队开发的一种基于深度学习的高效蛋白质结构预测模型,其核心目标是利用大规模蛋白质语言模型(ESM)直接从氨基酸序列快速推断蛋白质的三维结构。ESMFold通过预训练的语言模型捕捉序列中的进化与结构关联性,结合几何优化模块生成高精度原子坐标,显著降低了传统方法对多重序列比对(MSA)和模板依赖的计算成本。该模型在蛋白质从头预测(de novo prediction)、功能位点解析、突变效应模拟等领域具有重要价值,以高效的推理性能,推动结构预测技术的普惠化应用。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI 加速科学发现丨Al For Science 专场直播
AI 科学家时代正加速到来,但科研智能体真的做好准备了吗?真实科研场景中,多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平?我们又该如何准确评估它们的科学认知能力和数据分析表现?
131 0
|
9月前
|
机器学习/深度学习 人工智能 算法
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
ProtGPS 是麻省理工学院和怀特黑德研究所联合开发的蛋白质语言模型,能够预测蛋白质在细胞内的亚细胞定位,并设计具有特定亚细胞定位的新型蛋白质。
814 17
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
|
9月前
|
机器学习/深度学习 人工智能 搜索推荐
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
BioEmu 是微软推出的生成式深度学习系统,可在单个 GPU 上每小时生成数千种蛋白质结构样本,支持模拟动态变化、预测热力学性质,并显著降低计算成本。
518 2
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
|
10月前
|
机器学习/深度学习 人工智能
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
近日,斯坦福大学和加州大学伯克利分校在《科学》杂志发表重要成果,发现DNA Scaling Law规律,揭示了DNA、RNA和蛋白质分子长度与碱基对数量之间的比例关系。该研究为AI设计生物分子带来突破,通过数据收集、模型训练和优化设计等步骤,显著提高设计效率和准确性,降低成本,并拓展应用范围。论文地址:https://www.science.org/doi/10.1126/science.ado9336。
264 26
|
人工智能 自然语言处理 算法
于云栖处,探索 AI+Science 的大规模工程化
在语音识别、图片搜索和数据处理等功能遍布于个人设备,将人们从繁琐、机械的工作中解放出来的同时,在科学领域,AI正在蓄力等待一个深入渗透进生物、化学、物理、工程等基础科学领域的契机。
于云栖处,探索 AI+Science 的大规模工程化
|
1月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
413 29
|
2月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
810 44
|
1月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
472 28

热门文章

最新文章