要知道,按照一般的传统,研究人员设计蛋白质时,是通过调整自然界中已知的蛋白质。但是ProteinMPNN的出现,可以让研究人员从头设计所有可能的蛋白质,这就打开了一个新世界。
ProteinMPNN帮助研究人员解决了逆向的问题——如果他们心中已经有了一个确切的蛋白质结构,它就能帮助他们找到能折叠成这个形状的氨基酸序列。ProteinMPNN使用的的是一个在很多折叠成三维结构的氨基酸序列中训练出来的神经网络。
研究人员还要解决另外一个问题:要设计解决现实问题的蛋白质,比如消化塑料的新酶,他们需要首先弄清楚什么样的蛋白质骨架会有这种功能。为了解决这些问题,Baker的团队使用了机器学习的方法,以下是详细介绍。
蛋白质设计的三个挑战
Baker的团队将蛋白质设计的挑战分解为三个部分,并且针对每个部分,都设计了特定的软件方案。
第一部分首先,必须生成新的蛋白质形状。在 7 月 21 日发表在《科学》杂志上的一篇论文中,该团队表明人工智能可以通过两种方式生成新的蛋白质形状。
论文地址:https://www.science.org/doi/10.1126/science.abn2100第一种被称为「幻想」(hallucination),类似于DALL-E或其他基于简单提示产生输出的生成AI工具。通过「幻想」,用户可以在所有可能的蛋白质序列中进行随机搜索,并倾向于具有特定功能的序列。它使探索所有可能的蛋白质结构空间成为可能,这要归功于机器学习对庞大数据集的处理能力。Baker对此解释道:「自然界中的蛋白质,只是采样很小的一部分,因此,如果你把搜索限制在自然界已经存在的那些序列上,你就不会有任何收获。」
使用「幻想」生成的对称环第二种被称为「修复」(inpainting),类似于文字处理器中的自动完成功能,不过它针对的是蛋白质的结构和序列。这种方法从功能位点开始填充额外的序列和结构,通过经过专门训练的RoseTTAFold网络在单次正向传递中创建可行的蛋白质支架。用这两种方法,可以设计包含功能位点的候选免疫原、受体陷阱、酶活性位点等。第二部分其次,为了加快这一过程,团队设计了一种生成氨基酸序列的新算法。在9月15日的Science上,他们介绍了这个名为ProteinMPNN的软件工具,它的运行时间大约为一秒。比起以前最好的软件,ProteinMPNN要快200多倍!
ProteinMPNN架构ProteinMPNN不仅速度快,它的结果还优于以前的工具,并且不需要专家定制就可以运行。「 如果你有大量数据,神经网络是很容易训练的,但是对于蛋白质,我们并没有那么多例子。我们必须深入其中,确定这些分子中哪些特征是最重要的。你需要反复试错。」蛋白质设计研究所的博后研究员Justas Dauparas说。
用ProteinMPNN设计蛋白质第三部分在第三部分,该团队使用了由DeepMind开发的工具AlphaFold,来独立评估他们提出的氨基酸序列是否可以折叠成预期的形状。「预测蛋白质结构的软件是解决方案的一部分,但它本身无法提出任何新东西。」Dauparas解释说。「ProteinMPNN之于蛋白质设计,就像AlphaFold之于蛋白质结构预测。」Baker补充道。在9月15日发表在Science上的另一篇论文中,Baker实验室的一个团队证实,使用新机器学习工具的组合,我们能够可靠地生成新的蛋白质,这些新蛋白质会在实验室中发挥作用。「我们发现,使用ProteinMPNN制造的蛋白质更有可能按预期折叠,我们可以使用这些方法制造非常复杂的蛋白质组装体。」蛋白质设计研究所的博后研究员Basile Wicky说。
意义重大
利用这些新方法,研究人员创造出了一种在自然界中没有见过的全新蛋白质,比如一个巨大的纳米环。Baker的团队正在试验,看这些环状结构是否可以用作定制纳米机械的部件。在电子显微镜下,这些环的直径大约比罂粟种子小十亿倍。或许在未来,这些纳米机器可以被用来疏通动脉。使用机器学习来设计蛋白质,会让整个过程更快、更容易,并且让研究人员在更大的范围内创造出全新的蛋白质结构。这些软件比以前最好的工具还要快上200多倍,并且只需要最小的用户输入,这将大大降低蛋白质设计的门槛。ProteinMPNN设计的结构特征「这些研究正在改变整个生物分子结构预测和设计领域。」约翰霍普金斯大学化学和生物分子工程教授Jeffrey Gray说。「在理解生物学、健康和疾病上,以及设计新的分子减少人类自杀上,影响都是巨大的。」Gray说,他的实验室正在将自己开发的深度学习工具与Baker团队的工具结合起来,以更好地了解免疫系统和免疫相关的疾病,并使用AI来设计治疗方法。「AlphaFold通过解决蛋白质结构预测问题,将生物学带入了一个新时代,并展示了AI在生物学中发挥的革命性作用」。DeepMind的AI for Science团队负责人Pushmeet Kohli说。「ProteinMPNN是这种范式转变的另一个证明,从此我们可以为特定任务设计蛋白质」。「这仅仅是机器学习在蛋白质设计中的一个开始。在接下来的几个月里,我们会努力改进这些工具,争取创造出更具动态性和功能性的蛋白质。」Baker说。ProteinMPNN的计算评估现在,ProteinMPNN可以在GitHub上免费使用了,研究人员可以用它创作出无限的新设计。最后,Baker说:「现在,最有挑战性的地方在于……你要设计什么?」
作者介绍
David Baker博士是华盛顿大学基因组科学、生物工程、化学工程、计算机科学和物理学的副教授。他的研究小组专注于大分子结构和功能的设计。同时,Baker博士还在担任蛋白质设计研究所的主任、Howard Hughes医学研究所研究员。他也是美国国家科学院和美国艺术与科学学院的成员。此前,他在加州大学伯克利分校获得生物化学博士学位,并在加州大学旧金山分校做生物物理学博士后工作。Baker博士曾获得国家科学基金会、Beckman基金会和Packard基金会的奖励。他是生命科学突破奖、蛋白质协会的Irving Sigal和Hans Neurath奖、ISCB的Overton奖、Foresight研究所的Feynman奖、AAAS Newcomb Cleveland奖、生物物理学的Sackler奖以及生化协会的百年纪念奖的获得者。他的65名学生已经进入独立的教职,他已经发表了500多篇研究论文,获得了100多项专利,并共同创办了11家公司。参考资料:https://www.technologyreview.com/2022/09/15/1059550/an-ai-that-can-design-new-proteins-could-help-unlock-new-cures-and-materials/https://newsroom.uw.edu/news/beyond-alphafold-ai-excels-creating-new-proteinshttps://www.science.org/doi/10.1126/science.add2187