蛋白质设计旨在构建针对特定目的定制的新型蛋白质,从而具有解决许多环境和生物医学问题的潜力。基于 Transformer 的体系结构的最新进展已经实现了能够生成具有类人能力的文本的语言模型。受这一思想启发,拜罗伊特大学的研究人员描述了 ProtGPT2,这是一种在蛋白质空间上训练的语言模型,它按照自然的原则生成从头蛋白质序列。生成的蛋白质显示出天然氨基酸倾向,而无序预测表明 ProtGPT2 生成的蛋白质中有 88% 是球状的,与天然序列一致。蛋白质数据库中的敏感序列搜索表明 ProtGPT2 序列与自然序列关系较远,相似性网络则进一步表明 ProtGPT2 是在对蛋白质空间的未探索区域进行采样。ProtGPT2 序列经 AlphaFold 预测,可产生具有实施例和大循环的良好折叠的非理想化结构,这也揭示了当前结构数据库中未捕获的拓扑。ProtGPT2 可在几秒钟内生成序列并且免费。该研究以「ProtGPT2 is a deep unsupervised language model for protein design」为题,于 2022 年 7 月 27 日发布在《Nature Communications》。近年来,自然语言处理(NLP)取得了非凡的进步。大型预训练语言模型已经彻底改变了 NLP 领域,随之而来的是人们日常生活中使用的许多工具,例如聊天机器人、智能助手或翻译机。领域内研究人员早就注意到蛋白质序列和人类语言之间的类比。蛋白质序列可以描述为来自化学定义字母表的字母、天然氨基酸的串联,并且像人类语言一样,这些字母排列形成二级结构元素(单词),这些元素组合形成域(句子) 承担某种功能(意义)。最吸引人的相似之处之一是蛋白质序列,就像自然语言一样,是信息完整的:它们以极高的效率完全按照氨基酸顺序存储结构和功能。随着 NLP 领域在理解和生成具有接近人类能力的语言方面的非凡进步,假设这些方法为仅从序列解决蛋白质相关问题(例如蛋白质设计)打开了一扇新的大门。尽管蛋白质序列和人类语言并非没有差异,但几十年来,它们的类比激发了应用 NLP 方法解决蛋白质研究问题。有监督的 NLP 方法,其中输入序列与其标签联合训练以产生预测模型,已应用于各种任务,例如检测结构相似性或预测稳定性。BioSeq-BLM 平台提供了大量应用于生物分子的监督语言模型。然而,自从 Transformer 诞生以来,在未标记数据上进行训练的无监督学习已经成为一种通用的语言建模工具。一些基于 Transformer 的模型,例如 TCR-BERT、epiBERTope、ESM、ProtTrans 或 ProteinBERT,已经证明与其他方法相比非常具有竞争力。这些模型中的大多数使用类似 BERT 的架构和去噪自动编码训练目标,即,它们通过以某种方式破坏输入标记并尝试重建原始句子来进行预训练。尽管这些模型可以针对生成进行调整,但它们最直接的应用是序列嵌入。语言模型的另一个重要分支受益于自回归训练,即模型被训练来预测给定上下文的后续单词。这些模型,其中最著名的可能是 GPT-x 系列,擅长生成长而连贯的文本——有时甚至引发了很多关于它们潜在滥用的争论。蛋白质自回归语言模型,如 ProGen、RITA 和 DARK 也已被研究,并显示了自回归 Transformer 用于蛋白质设计的潜力。受到这些工作和 GPT-x 系列等英语模型不断增强的能力的启发,研究人员想知道是否可以训练生成模型来(i)有效地学习蛋白质语言,(ii)生成合适、稳定的蛋白质 ,以及 (iii) 了解这些序列与自然序列的关系,包括它们是否对蛋白质空间中看不见的区域进行采样。拜罗伊特大学的研究人员提出了 ProtGPT2,这是一种自回归 Transformer 模型,具有 7.38 亿个参数,能够以高通量方式生成从头蛋白质序列。ProtGPT2 在对跨越整个蛋白质空间的大约 50 个未注释的百万序列进行训练后,有效地学习了蛋白质语言。图示:在上下文输入后 GPT2-large 具有不同采样参数的示例。(来源:论文)ProtGPT2 生成的蛋白质序列具有与天然序列相当的氨基酸和紊乱倾向,同时与当前的蛋白质空间「进化」相距甚远。二级结构预测计算出 88% 的序列是球状的,与天然蛋白质一致。使用相似性网络表示蛋白质空间表明,ProtGPT2 序列通过扩展自然超家族来探索蛋白质空间的「黑暗」区域。图示:三个数据集之间的 Rosetta 和分子动力学计算的比较。(来源:论文)ProtGPT2 可以生成与自然序列关系较远的序列,其结构类似于已知的结构空间,具有非理想化的复杂结构。由于 ProtGPT2 已经在整个序列空间上进行了训练,因此该模型产生的序列可以对任何区域进行采样,包括暗蛋白质组和传统上被认为在蛋白质设计领域非常具有挑战性的区域,例如全β结构和膜蛋白。ProtGPT2 蛋白与远相关的天然蛋白结构的视觉叠加表明,ProtGPT2 还捕获了功能决定因素,保留了配体结合相互作用。由于人工蛋白质的设计可以解决许多生物医学和环境问题,研究人员认为蛋白质语言模型将有非凡的潜力。图示:ProtGPT2 生成的蛋白质空间和蛋白质示例的概述。(来源:论文)ProtGPT2 设计可在几秒钟内拟合球状蛋白质,无需在标准工作站上进行进一步培训。ProtGPT2 可以通过在用户选择的一组序列上微调模型来适应特定的家族、功能或折叠。在这种情况下,ProtGPT2 将能够筛选与天然蛋白质相似的蛋白质,以改善、微调或改变天然蛋白质的特定生化功能。
图示:序列 357 和 475 的预测结构以及 FoldSeek 中各自得分最高的蛋白质的叠加。(来源:论文)
对 ProtGPT2 设计的蛋白质库进行大规模筛选可能会识别出结构数据库中未捕获的折叠蛋白质和在自然空间中没有相关对应物的功能。ProtGPT2 朝着高效的蛋白质设计和生成迈出了一大步,并为未来探索设计蛋白质的结构和功能参数及其后续实际应用的实验研究奠定了基础。未来的努力包括包含条件标签,这将使特定功能的受控生成成为可能。模型和数据集:https://huggingface.co/nferruz/ProtGPT2论文链接:https://www.nature.com/articles/s41467-022-32007-7相关报道:https://phys.org/news/2022-08-proteins-natural-language-artificial-intelligence.html