科学家们表示,谷歌用于预测蛋白质3D形状的深度学习计划有望改变生物学。
前言
蛋白质是生命的基石,负责细胞内发生的大部分事情。蛋白质的工作方式和功能由其三维形状决定-"结构即功能 "是分子生物学的公理。
几十年来,实验室实验一直是获得良好蛋白质结构的主要途径。从20世纪50年代开始,利用X射线束射向结晶的蛋白质,并将衍射光转化为蛋白质的原子坐标的技术,首次确定了蛋白质的完整结构。X射线晶体学产生了绝大部分的蛋白质结构。但是,在过去的十年里,低温电镜已经成为许多结构生物学实验室青睐的工具。
科学家们长期以来一直想知道,蛋白质的构成部分:一串不同的氨基酸是如何映射出其最终形状的许多扭曲和褶皱的。研究人员说,在20世纪80年代和90年代,使用计算机预测蛋白质结构的早期尝试表现不佳。当其他科学家将这些方法应用于其他蛋白质时,发表的论文中对方法的崇高要求往往会被瓦解。
John Moult 和 Krzysztof Fidelis 两位教授于 1994 年创办了CASP,每两年进行一次盲审,以促进蛋白质结构预测方面的新 SOTA 研究。该活动挑战团队预测已经用实验方法解决的蛋白质的结构,但这些蛋白质的结构还没有被公开。Moult认为这个实验极大地改善了这一领域。
DeepMind已经取得了不俗的成绩,展示了人工智能已经学会了用超人的技术来玩各种复杂的游戏。但DeepMind的联合创始人Demis Hassabis一直强调,这些成功只是迈向更大目标的垫脚石。
DeepMind名为AlphaFold的系统在2018年CASP13上的表现让该领域的许多科学家大吃一惊,长期以来,该领域一直是小型学术团体的堡垒,但其方法与其他应用AI的团队大致相似。
AlphaFold的第一次迭代将被称为深度学习的AI方法应用于结构和遗传数据,以预测蛋白质中氨基酸对之间的距离。DeepMind公司的John Jumper说,在没有调用人工智能的第二步中,AlphaFold使用这些信息来提出蛋白质应该是什么样子的 "共识 "模型,他是该项目的领导者。该团队试图以这种方法为基础,但最终还是碰壁了。因此,它改变了策略,并开发了一个人工智能网络,该网络纳入了关于决定蛋白质如何折叠的物理和几何约束的额外信息。Jumper说,他们还设置了一个更困难的任务:网络不是预测氨基酸之间的关系,而是预测目标蛋白质序列的最终结构。这是一个复杂程度相当高的系统。
2020年11月30日在两年一度的蛋白质结构预测挑战赛中,AlphaFold表现优于其他约100个团队,DeepMind和长期举办的 "蛋白质结构预测关键评估"(CASP)竞赛的组织者宣布DeepMind的AlphaFold的最新版本AlphaFold2可以准确地预测蛋白质结构,已经破解了生物学的一个重大挑战。
惊人的准确性
CASP历时数月,目标蛋白或被称为域的蛋白部分(共约100个)定期发布,各团队有几周时间提交预测结构。然后,一个独立的科学家团队会使用衡量预测蛋白与实验确定的结构相似度的指标来评估这些预测。评估人员不知道谁在进行预测。
Lupas说,AlphaFold的预测是以 "427组 "的名义到达的,但它的许多条目的惊人准确性使它们脱颖而出。一些预测比其他预测更好,但近三分之二的预测在质量上与实验结构相当。Moult说,在某些情况下,并不清楚AlphaFold的预测和实验结果之间的差异是预测错误还是实验的人为因素。
Moult说,AlphaFold的预测与一种名为核磁共振光谱的技术确定的实验结构匹配度很差,但这可能归结于原始数据如何转换为模型。该网络还难以对蛋白质复合物中的单个结构或群体进行建模,即与其他蛋白质的相互作用会扭曲它们的形状。
Moult说:与上届CASP相比,今年各团队预测的结构更加准确,但大部分的进展可以归功于AlphaFold。在被认为难度适中的蛋白质上,其他团队的最佳表现通常在100分的预测准确度上得到75分,而AlphaFold在同样蛋白上得到90分左右。
Moult说,大约有一半的团队在总结他们的方法的摘要中提到了 "深度学习",这表明人工智能正在对该领域产生广泛的影响。其中大部分来自学术团队,但微软和中国科技公司腾讯也进入了CASP14。
纽约市哥伦比亚大学的计算生物学家、CASP参赛者Mohammed AlQuraishi渴望挖掘AlphaFold在比赛中的表现细节,并在12月1日DeepMind团队展示其方法时,了解更多关于系统的工作原理。他强烈预感是,AlphaFold将是变革性的。
蛋白三维结构的快速获取
AlphaFold预测帮助确定了一种细菌蛋白的结构,Lupas实验室多年来一直在试图破解这种结构。Lupas的团队之前已经收集了原始的X射线衍射数据,但将这些类似罗夏的模式转化为结构需要一些关于蛋白质形状的信息。获取这些信息的技巧以及其他预测工具都失败了。Lupas说:427组的模型在半小时内就给了研究人员结构,而此前研究人员花了十年时间尝试了所有的方法,"
DeepMind的联合创始人兼首席执行官Demis Hassabis表示,该公司计划让AlphaFold变得有用,以便其他科学家可以采用它。该公司此前公布了AlphaFold第一版的细节,以便其他科学家复制这种方法。AlphaFold可能需要几天的时间才能得出预测的结构,其中包括对蛋白质不同区域可靠性的估计。Hassabis补充说:研究人员刚刚开始了解生物学家会想要什么,他认为药物发现和蛋白质设计是潜在的应用。
2020年初,该公司发布了对少数SARS-CoV-2蛋白结构的预测,这些蛋白的结构尚未通过实验确定。加利福尼亚大学伯克利分校的分子神经生物学家Stephen Brohawn说,DeepMind对一种名为Orf3a的蛋白质的预测最终与后来通过冷冻EM确定的蛋白质非常相似,他的团队在6月份发布了该结构。
真实世界的影响
AlphaFold不太可能关闭Brohawn等使用实验方法解决蛋白质结构的实验室。但这可能意味着,质量较低、更容易收集的实验数据将成为获得良好结构的全部需求。一些应用,如蛋白质的进化分析,将蓬勃发展,因为现有基因组数据的海啸现在可能会被可靠地转化为结构。
英国欣克斯顿欧洲分子生物学实验室-欧洲生物信息学研究所的结构生物学家、过去的CASP评估员Janet Thornton说:这是一个使他开始认为在有生之年不会得到解决的问题。她希望这种方法能够帮助阐明人类基因组中数千种未解决的蛋白质的功能,并理解人与人之间不同的致病基因变异。
AlphaFold的表现也是DeepMind的一个转折点。该公司最著名的是挥舞人工智能掌握围棋等游戏,但其长期目标是开发能够实现广泛的、类似人类的智能的程序。Hassabis说,应对宏大的科学挑战,比如蛋白质结构预测,是其人工智能能够做出的最重要应用之一。他认为这是DeepMind所做的最重要的事情在现实世界的影响方面。