【新智元导读】利用AI,我们现在可以在几秒之内设计出自然界中全新的蛋白质了。最近,来自华盛顿大学的科学家在Science上连发两篇论文,介绍了ProteinMPNN算法工具。
过去两年,机器学习彻底改变了蛋白质结构预测。
而现在,人工智能又在蛋白质设计领域引发了新一轮革命。
生物学家发现,使用机器学习,可以在几秒钟内创建出蛋白质分子。而在以前,这个时间也许是几个月。
并且,新方法准确率也更高。
9月15日,华盛顿大学医学院的生物学家在Science上连发两篇论文,介绍了他们的重大发现。
论文地址:https://www.science.org/doi/10.1126/science.add2187
也许你会问:创造出自然界中没有的蛋白质,对我们有什么意义?
意义可太大了。通过这些蛋白质,也许我们会开发出更多疫苗,加快治疗癌症的研究,研发出碳捕获工具,和全新的可持续生物材料。
论文地址:https://www.science.org/doi/10.1126/science.add1964
ProteinMPNN:蛋白质设计的革命
这几年,已经有几十种人工智能蛋白质设计工具被开发了出来,研究人员可以混合和匹配各种方法来得出一个可行的最终设计。
下面,我们就简单介绍一下其中的4种方法:
固定骨架设计
给定一个预设蛋白质结构,然后用Al确定该蛋白质的氨基酸序列。
序列生成
利用语言模型,让AI学会如何生成蛋白质。然后通过微调这些神经网络,得到特定蛋白质家族成员的新序列。
结构生成
对蛋白质结构进行训练的神经网络可以生成完全新颖的蛋白质结构,但往往对输出的控制有限。
序列和结构设计
使用一种叫做inpainting的方法,研究人员输入他们希望包含在蛋白质中的结构或序列,而Al网络则填补其余部分。
在这两篇新论文中,华盛顿大学医学院的生物学家表示,机器学习可用于比以前更准确、更快速地创建蛋白质分子。
David Baker是华盛顿大学医学院生物化学教授、2021年生命科学突破奖获得者。
据他介绍:「蛋白质是整个生物学的基础,但是要知道,现在我们在每种植物、动物和微生物中发现的所有蛋白质,都还不到所有可能的蛋白质的百分之一。有了这些新的软件工具,研究人员也许就能够找到长期的解决方案,去攻克医学、能源和技术上的难题。」
在自然界中,蛋白质被称为「生命的基石」,因为它们在所有生物的结构中都是必不可少的。在一个细胞生长、分裂、修复的每一个过程中,几乎都有蛋白质的参与。
可以说,蛋白质基本解决了生命的所有问题,生物学中的一切都发生在蛋白质上。
Baker介绍说:「为了解决生物体在进化过程中面临的问题,它们在进化中不断演变。人类今天在面临着新的问题,比如新冠病毒。如果我们能设计出一种新的蛋白质,让它像在进化过程中演变出的蛋白质一样,解决种种问题,那它的力量将是非常强大的。」
在生物的数百万年进化中,蛋白质的演化痕迹使科学家能够快速破译数百种蛋白质的3D形状
蛋白质由数十万个氨基酸组成,这些氨基酸以长链的形式连接起来。蛋白质中的氨基酸序列决定了它的三维形状。这种复杂的形状对于蛋白质的功能至关重要。
在2020年,人工智能实验室DeepMind宣布AlphaFold时,就已经让全世界大吃一惊了。这个AI工具利用深度学习,解决了生物学的一个大挑战:准确预测蛋白质的形状。而今年夏天,DeepMind宣布,AlphaFold现在可以预测科学上已知的所有蛋白质的形状。
通过预测蛋白质的结构,就可以洞察它们的表现。
在蛋白质预测领域,科学家已经取得了举世瞩目的惊人成绩。而在蛋白质设计领域, Baker的团队也取得了突破性进展。