美国芝加哥大学Rama Ranganathan,法国索邦大学Martin Weigt等研究人员合作利用进化模型实现了分支酸变位酶的设计。2020年7月24日,《科学》发表了这一成果。
蛋白质对于细胞生命,执行复杂任务和催化化学反应至关重要。长期以来,科学家和工程师一直在寻求通过设计可以执行新任务的人造蛋白质来利用这种力量的方法,但是许多设计此类蛋白质的过程缓慢而复杂,且失败率很高。
这项可能对医疗、农业和能源领域产生重大影响的突破是由芝加哥大学普利兹克分子工程学院的研究人员领导的一个团队开发的一种以人工智能为主导的流程,该流程利用大数据来设计新的蛋白质。
通过开发可以回顾从基因组数据库中选出的蛋白质信息的机器学习模型,研究人员发现了用于构建人工蛋白质的相对简单的设计规则。当团队在实验室中构建这些人造蛋白质时,他们发现它们的化学反应非常出色,可以与自然界中的蛋白质媲美。
人工智能学习蛋白设计规则
蛋白质由成百上千个氨基酸组成,这些氨基酸序列决定了蛋白质的结构和功能。但是,仅了解如何构建这些序列以创建新蛋白的方法一直是一项挑战。过去的工作导致了可以指定结构的方法,但是功能却更加难以捉摸。
Ranganathan及其合作者在过去15年中意识到,基因组数据库包含有关蛋白质结构和功能基本规则的大量信息。Ranganathan的小组基于这些数据开发了数学模型,然后开始使用机器学习方法来揭示有关蛋白质基本设计规则的新信息。
这项研究中,研究者研究了新陈代谢的分支酸突变酶家族,这是一种对许多细菌、真菌和植物的生命至关重要的蛋白质。使用机器学习模型,研究人员能够揭示这些蛋白质背后的简单设计规则。
该模型显示,仅氨基酸位置的保守性和氨基酸对进化中的相关性就足以预测具有蛋白质家族特性的新人工序列。
Ranganathan说,通常认为要构建某种东西,首先必须深刻理解它的工作原理。但是,如果有足够的数据示例,则可以使用深度学习方法来学习设计规则,即使正在了解其工作原理或以这种方式构建的原因也是如此。
然后,Ranganathan和他的合作者创建了合成基因来编码蛋白质,将它们克隆到细菌中,然后观察细菌如何使用其正常的细胞机制来合成蛋白质。他们发现人造蛋白具有与天然分支酸突变酶蛋白相同的催化功能。
一个了解其他复杂系统的平台
因为设计规则相对简单,所以研究人员可以用它们创造的人工蛋白质数量非常多。大自然的设计规则很简单,相信类似的方法可以帮助人类在生物的其他复杂系统中搜索蛋白设计模型。
尽管人工智能揭示了设计规则,但Ranganathan和他的合作者仍不完全了解模型为何起作用。接下来,他们将努力了解模型如何得出此结论。
同时,研究者还希望使用该平台开发可以解决紧迫的社会问题的蛋白质。Ranganathan和Andrew Ferguson教授成立了一家名为Evozyne的公司,该公司将通过在能源、环境、催化和农业领域的应用将该技术商业化。