蛋白质和自然语言:人工智能使设计新型蛋白质成为可能

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 蛋白质和自然语言:人工智能使设计新型蛋白质成为可能

蛋白质设计旨在构建针对特定目的定制的新型蛋白质,从而具有解决许多环境和生物医学问题的潜力。基于 Transformer 的体系结构的最新进展已经实现了能够生成具有类人能力的文本的语言模型。受这一思想启发,拜罗伊特大学的研究人员描述了 ProtGPT2,这是一种在蛋白质空间上训练的语言模型,它按照自然的原则生成从头蛋白质序列。生成的蛋白质显示出天然氨基酸倾向,而无序预测表明 ProtGPT2 生成的蛋白质中有 88% 是球状的,与天然序列一致。蛋白质数据库中的敏感序列搜索表明 ProtGPT2 序列与自然序列关系较远,相似性网络则进一步表明 ProtGPT2 是在对蛋白质空间的未探索区域进行采样。ProtGPT2 序列经 AlphaFold 预测,可产生具有实施例和大循环的良好折叠的非理想化结构,这也揭示了当前结构数据库中未捕获的拓扑。ProtGPT2 可在几秒钟内生成序列并且免费。该研究以「ProtGPT2 is a deep unsupervised language model for protein design」为题,于 2022 年 7 月 27 日发布在《Nature Communications》。近年来,自然语言处理(NLP)取得了非凡的进步。大型预训练语言模型已经彻底改变了 NLP 领域,随之而来的是人们日常生活中使用的许多工具,例如聊天机器人、智能助手或翻译机。领域内研究人员早就注意到蛋白质序列和人类语言之间的类比。蛋白质序列可以描述为来自化学定义字母表的字母、天然氨基酸的串联,并且像人类语言一样,这些字母排列形成二级结构元素(单词),这些元素组合形成域(句子) 承担某种功能(意义)。最吸引人的相似之处之一是蛋白质序列,就像自然语言一样,是信息完整的:它们以极高的效率完全按照氨基酸顺序存储结构和功能。随着 NLP 领域在理解和生成具有接近人类能力的语言方面的非凡进步,假设这些方法为仅从序列解决蛋白质相关问题(例如蛋白质设计)打开了一扇新的大门。尽管蛋白质序列和人类语言并非没有差异,但几十年来,它们的类比激发了应用 NLP 方法解决蛋白质研究问题。有监督的 NLP 方法,其中输入序列与其标签联合训练以产生预测模型,已应用于各种任务,例如检测结构相似性或预测稳定性。BioSeq-BLM 平台提供了大量应用于生物分子的监督语言模型。然而,自从 Transformer 诞生以来,在未标记数据上进行训练的无监督学习已经成为一种通用的语言建模工具。一些基于 Transformer 的模型,例如 TCR-BERT、epiBERTope、ESM、ProtTrans 或 ProteinBERT,已经证明与其他方法相比非常具有竞争力。这些模型中的大多数使用类似 BERT 的架构和去噪自动编码训练目标,即,它们通过以某种方式破坏输入标记并尝试重建原始句子来进行预训练。尽管这些模型可以针对生成进行调整,但它们最直接的应用是序列嵌入。语言模型的另一个重要分支受益于自回归训练,即模型被训练来预测给定上下文的后续单词。这些模型,其中最著名的可能是 GPT-x 系列,擅长生成长而连贯的文本——有时甚至引发了很多关于它们潜在滥用的争论。蛋白质自回归语言模型,如 ProGen、RITA 和 DARK 也已被研究,并显示了自回归 Transformer 用于蛋白质设计的潜力。受到这些工作和 GPT-x 系列等英语模型不断增强的能力的启发,研究人员想知道是否可以训练生成模型来(i)有效地学习蛋白质语言,(ii)生成合适、稳定的蛋白质 ,以及 (iii) 了解这些序列与自然序列的关系,包括它们是否对蛋白质空间中看不见的区域进行采样。拜罗伊特大学的研究人员提出了 ProtGPT2,这是一种自回归 Transformer 模型,具有 7.38 亿个参数,能够以高通量方式生成从头蛋白质序列。ProtGPT2 在对跨越整个蛋白质空间的大约 50 个未注释的百万序列进行训练后,有效地学习了蛋白质语言。图示:在上下文输入后 GPT2-large 具有不同采样参数的示例。(来源:论文)ProtGPT2 生成的蛋白质序列具有与天然序列相当的氨基酸和紊乱倾向,同时与当前的蛋白质空间「进化」相距甚远。二级结构预测计算出 88% 的序列是球状的,与天然蛋白质一致。使用相似性网络表示蛋白质空间表明,ProtGPT2 序列通过扩展自然超家族来探索蛋白质空间的「黑暗」区域。图示:三个数据集之间的 Rosetta 和分子动力学计算的比较。(来源:论文)ProtGPT2 可以生成与自然序列关系较远的序列,其结构类似于已知的结构空间,具有非理想化的复杂结构。由于 ProtGPT2 已经在整个序列空间上进行了训练,因此该模型产生的序列可以对任何区域进行采样,包括暗蛋白质组和传统上被认为在蛋白质设计领域非常具有挑战性的区域,例如全β结构和膜蛋白。ProtGPT2 蛋白与远相关的天然蛋白结构的视觉叠加表明,ProtGPT2 还捕获了功能决定因素,保留了配体结合相互作用。由于人工蛋白质的设计可以解决许多生物医学和环境问题,研究人员认为蛋白质语言模型将有非凡的潜力。图示:ProtGPT2 生成的蛋白质空间和蛋白质示例的概述。(来源:论文)ProtGPT2 设计可在几秒钟内拟合球状蛋白质,无需在标准工作站上进行进一步培训。ProtGPT2 可以通过在用户选择的一组序列上微调模型来适应特定的家族、功能或折叠。在这种情况下,ProtGPT2 将能够筛选与天然蛋白质相似的蛋白质,以改善、微调或改变天然蛋白质的特定生化功能。

图示:序列 357 和 475 的预测结构以及 FoldSeek 中各自得分最高的蛋白质的叠加。(来源:论文)

对 ProtGPT2 设计的蛋白质库进行大规模筛选可能会识别出结构数据库中未捕获的折叠蛋白质和在自然空间中没有相关对应物的功能。ProtGPT2 朝着高效的蛋白质设计和生成迈出了一大步,并为未来探索设计蛋白质的结构和功能参数及其后续实际应用的实验研究奠定了基础。未来的努力包括包含条件标签,这将使特定功能的受控生成成为可能。模型和数据集:https://huggingface.co/nferruz/ProtGPT2论文链接:https://www.nature.com/articles/s41467-022-32007-7相关报道:https://phys.org/news/2022-08-proteins-natural-language-artificial-intelligence.html

相关文章
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的深度学习与自然语言处理前沿
【10月更文挑战第10天】探索人工智能的深度学习与自然语言处理前沿
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
15 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】TF-IDF算法在人工智能方面的应用,附带代码
TF-IDF算法在人工智能领域,特别是自然语言处理(NLP)和信息检索中,被广泛用于特征提取和文本表示。以下是一个使用Python的scikit-learn库实现TF-IDF算法的简单示例,并展示如何将其应用于文本数据。
255 65
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能在自然语言处理中的应用
本文将深入探讨人工智能在自然语言处理领域的应用,包括语音识别、文本挖掘和情感分析等方面。通过实例演示,我们将展示如何利用深度学习技术来提高自然语言处理的准确性和效率。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能前沿:自然语言处理的最新进展
探索人工智能前沿:自然语言处理的最新进展
92 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能:深度学习在自然语言处理中的应用
探索人工智能:深度学习在自然语言处理中的应用
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能:深度学习与自然语言处理
探索人工智能:深度学习与自然语言处理
38 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】python之人工智能应用篇——文本生成技术
文本生成是指使用自然语言处理技术,基于给定的上下文或主题自动生成人类可读的文本。这种技术可以应用于各种领域,如自动写作、聊天机器人、新闻生成、广告文案创作等。
88 8
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】自然语言处理(NLP)的突破,关注NLP在机器翻译、情感分析、聊天机器人等方面的最新研究成果和应用案例。
自然语言处理(NLP)作为人工智能的一个重要分支,近年来取得了显著的突破,特别在机器翻译、情感分析、聊天机器人等领域取得了显著的研究成果和广泛的应用。以下是对这些领域最新研究成果和应用案例的概述,并附带相应的代码实例。
97 1
|
2天前
|
机器学习/深度学习 人工智能 搜索推荐
深度探索人工智能在医疗影像诊断中的应用与挑战####
本文深入剖析了人工智能(AI)技术,特别是深度学习算法在医疗影像诊断领域的创新应用,探讨其如何重塑传统诊断流程,提升诊断效率与准确性。同时,文章也客观分析了当前AI医疗影像面临的主要挑战,包括数据隐私、模型解释性及临床整合难题,并展望了未来发展趋势。 ####
下一篇
无影云桌面