强大的自然语言模型的发展提高了学习蛋白质序列有意义表示的能力。此外,高通量诱变、定向进化和下一代测序的进步已经允许积累大量标记的适应度数据。
利用这两个趋势,耶鲁大学的研究人员引入了正则化潜在空间优化(ReLSO),这是一种基于深度 Transformer 的自动编码器,具有高度结构化的潜在空间,经过训练可以联合生成序列并预测适应度。通过正则化的预测头,ReLSO 引入了一个强大的蛋白质序列编码器和一种高效的适应性景观遍历的新方法。
使用 ReLSO,研究人员对大型标记数据集的序列函数景观进行建模,并通过使用基于梯度的方法在潜在空间内进行优化来生成新分子。
该团队在几个公开可用的蛋白质数据集上评估这种方法,包括抗雷珠单抗和绿色荧光蛋白的变体集。与其他方法相比,研究人员观察到使用 ReLSO 的序列优化效率更高(每个优化步骤的适应度增加),其中 ReLSO 更稳健地生成高适应度序列。此外,联合训练的 ReLSO 模型学习的基于注意力的关系为序列级适应度归因信息提供了潜在途径。
该研究以「Transformer-based protein generation with regularized latent space optimization」为题,于 2022 年 9 月 26 日发布在《Nature Machine Intelligence》。
基于序列的蛋白质设计的主要挑战是可能序列的巨大空间。一个 30 个残基的小蛋白质(真核生物的平均长度 ≈ 472)转化为 10^38 的总搜索空间——远远超出现代高通量筛选技术的范围。
上位性(序列中远处残基上的氨基酸之间的高阶相互作用)进一步加剧了这一障碍,这使得难以预测序列中的微小变化对其特性的影响。总之,这激发了对能够更好地利用序列-功能关系(通常使用适应度景观进行描述)的方法的需求,以更有效地生成具有所需特性的蛋白质序列。
图示:ReLSO 将序列映射到正则化模型适应度环境。(来源:论文)
为了解决这个问题,耶鲁大学的研究团队提出了一种数据驱动的深度生成方法,称为正则化潜在空间优化 (ReLSO)。ReLSO 利用最近库生成和表型筛选技术的改进所产生的更丰富的标记数据来学习联合序列和结构信息的高度结构化的潜在空间。此外,研究人员在 ReLSO 的潜在空间中引入了新的正则化,以便可以使用适应度函数上的梯度上升直接在潜在空间中优化和重新设计分子。
尽管蛋白质的适应度(研究人员通常使用这个术语来指代氨基酸序列拥有的某些可量化水平的功能:例如,结合亲和力、荧光、催化和稳定性)更直接地是其折叠的三维结构而不是严格的氨基酸序列的结果,但通常最好将适应度直接与序列联系起来,因为结构信息可能并不总是可用的。事实上,在为治疗发现或合成生物学生成变体库时,无论是通过设计的组合方法还是通过随机诱变,解决产生的通常 10^3 – 10^9 变体中的每一个变体的结构都是成本高昂的。
在这里,研究人员观察到蛋白质设计基本上是在复杂而广阔的氨基酸序列空间中的搜索问题。对于大多数生物学相关的蛋白质,序列长度可以从几十到几千个残基不等。由于 N 长度序列的每个位置可能包含 20 种可能的氨基酸之一,因此产生的组合空间(≈20^N 序列)通常太大而无法彻底搜索。
值得注意的是,尽管非规范替代品的数量越来越多,但仅考虑规范氨基酸就会出现这个问题。这个搜索空间规模的一个主要后果是,大多数公开可用的数据集,尽管它们的规模很大,但只捕获了一小部分可能的序列空间,因此绝大多数可能的变体都没有被探索。
为了导航序列空间,通常应用称为定向进化的迭代搜索过程,其中生成成批的随机序列并筛选感兴趣的功能或属性。然后将最佳序列转移到下一轮文库生成和选择。实际上,这相当于使用「爬山」方法搜索序列空间,因此容易受到可能掩盖更好序列发现的局部最大值的影响。蛋白质设计的其他方法包括基于结构的设计,其中理想的结构是先验选择的,任务是使序列适合设计。
近期,出现了几种有前途的方法,将深度学习融入蛋白质的设计、搜索和优化中。然而,这些方法通常用于计算机筛选,通过训练模型直接从输入的氨基酸序列预测适应度分数。最近的方法还利用强化学习来优化序列。尽管这些方法对于通过提出有希望的序列来减少实验筛选负担很有价值,但导航序列空间的挑战仍未得到解决。
最近的方法还利用强化学习来优化序列。尽管这些方法对于通过提出有希望的序列来减少实验筛选负担很有价值,但导航序列空间的挑战仍未得到解决。
所以,研究人员提出了 ReLSO,这是一种基于深度 Transformer 的蛋白质设计方法,它将 Transformer 模型的强大编码能力与产生信息丰富、低维潜在表示的瓶颈相结合。
ReLSO 中的潜在空间除了是低维的外,还通过潜在空间的适应度预测被正则化为(1)关于结构和适应度的平滑,(2)训练数据点之间的连续和可插值;(3)基于数据外负采样的伪凸。这种高度设计的潜在空间可以使用适应度的梯度上升直接在潜在空间中进行优化,并收敛到一个最佳值,然后可以将其解码回序列空间。
图示:ReLSO 学习蛋白质序列的平滑表示。(来源:论文)
ReLSO 的主要贡献包括以下内容。
使用具有自动编码器类型瓶颈的基于 Transformer 的编码器的新颖用途,用于对蛋白质序列进行丰富且可解释的编码。
由序列-函数关系组织的潜在空间,可缓解由于组合爆炸而导致的优化困难。
一个凸潜在空间,使用基于范数的负采样进行重塑,以诱导自然边界和基于梯度的优化的停止标准。
一种基于插值的正则化,在遍历潜在空间时强制解码序列空间逐渐变化。这允许对训练数据所在的底层序列流形进行更密集的采样。
用于从潜在空间生成新序列的梯度上升算法。
图示:抗雷珠单抗抗体的蛋白质序列优化。(来源:论文)
找到更好的表示的能力对于从蛋白质生物学领域的嘈杂、高维数据中提取见解至关重要。由它们的生化相互作用、进化选择压力和功能稳定性权衡所定义,蛋白质对于深度学习的应用来说是一个越来越重要的领域。更具体地说,生物治疗开发领域从线性和非线性模型的应用中受益匪浅。该领域中一些非常有影响力的模型在很大程度上受到了监督,但最近的研究证明了利用无监督学习来预训练预测模型以识别具有增强的感兴趣特性的蛋白质序列的有用性。
耶鲁大学团队是采用了一种结合这两种学习目标的替代路径,而是采用了多任务学习方法。通过同时优化蛋白质序列生成和适应度水平预测,他们明确地实施了一个富含序列和适应度信息的潜在空间。重要的是,这种适应度信息可能包含各种不同的属性,例如结合亲和力和荧光,它们平滑地嵌入到训练的模型的潜在空间中。然后,添加反映蛋白质工程原理的正则化,重塑过程中的潜在空间。利用这些正则化和模型架构,研究人员展示了梯度上升优化如何在搜索蛋白质序列空间时改进蛋白质优化。
图示:利用 ReLSO 中的注意力关系进行适应性归因。(来源:论文)
这种方法与其他方法的不同,证明了一种新的、有前途的途径,这可以提高设计和优化蛋白质的能力。此外,这种方法仅依赖与适应度值配对的序列信息表明,类似 ReLSO 的架构可以应用于其他生物分子,例如 DNA 和 RNA。特别是,核酸的一种应用是优化基因编辑工具,例如 CRISPR-Cas9,以减少脱靶效应。
具体来说,这是一个有趣的途径,通过调整结合亲和力以增加对某个目标或同种型的选择性,但针对其他目标或异构体以减轻脱靶毒性。随着生物疗法的日益突出,这一研究方向有可能在改进疗法的开发中提供改进。