基于Transformer的蛋白质生成,具有正则化潜伏空间优化

简介: 基于Transformer的蛋白质生成,具有正则化潜伏空间优化

强大的自然语言模型的发展提高了学习蛋白质序列有意义表示的能力。此外,高通量诱变、定向进化和下一代测序的进步已经允许积累大量标记的适应度数据。

利用这两个趋势,耶鲁大学的研究人员引入了正则化潜在空间优化(ReLSO),这是一种基于深度 Transformer 的自动编码器,具有高度结构化的潜在空间,经过训练可以联合生成序列并预测适应度。通过正则化的预测头,ReLSO 引入了一个强大的蛋白质序列编码器和一种高效的适应性景观遍历的新方法。

使用 ReLSO,研究人员对大型标记数据集的序列函数景观进行建模,并通过使用基于梯度的方法在潜在空间内进行优化来生成新分子。

该团队在几个公开可用的蛋白质数据集上评估这种方法,包括抗雷珠单抗和绿色荧光蛋白的变体集。与其他方法相比,研究人员观察到使用 ReLSO 的序列优化效率更高(每个优化步骤的适应度增加),其中 ReLSO 更稳健地生成高适应度序列。此外,联合训练的 ReLSO 模型学习的基于注意力的关系为序列级适应度归因信息提供了潜在途径。

该研究以「Transformer-based protein generation with regularized latent space optimization」为题,于 2022 年 9 月 26 日发布在《Nature Machine Intelligence》。

基于序列的蛋白质设计的主要挑战是可能序列的巨大空间。一个 30 个残基的小蛋白质(真核生物的平均长度 ≈ 472)转化为 10^38 的总搜索空间——远远超出现代高通量筛选技术的范围。

上位性(序列中远处残基上的氨基酸之间的高阶相互作用)进一步加剧了这一障碍,这使得难以预测序列中的微小变化对其特性的影响。总之,这激发了对能够更好地利用序列-功能关系(通常使用适应度景观进行描述)的方法的需求,以更有效地生成具有所需特性的蛋白质序列。

图示:ReLSO 将序列映射到正则化模型适应度环境。(来源:论文)

为了解决这个问题,耶鲁大学的研究团队提出了一种数据驱动的深度生成方法,称为正则化潜在空间优化 (ReLSO)。ReLSO 利用最近库生成和表型筛选技术的改进所产生的更丰富的标记数据来学习联合序列和结构信息的高度结构化的潜在空间。此外,研究人员在 ReLSO 的潜在空间中引入了新的正则化,以便可以使用适应度函数上的梯度上升直接在潜在空间中优化和重新设计分子。

尽管蛋白质的适应度(研究人员通常使用这个术语来指代氨基酸序列拥有的某些可量化水平的功能:例如,结合亲和力、荧光、催化和稳定性)更直接地是其折叠的三维结构而不是严格的氨基酸序列的结果,但通常最好将适应度直接与序列联系起来,因为结构信息可能并不总是可用的。事实上,在为治疗发现或合成生物学生成变体库时,无论是通过设计的组合方法还是通过随机诱变,解决产生的通常 10^3 – 10^9 变体中的每一个变体的结构都是成本高昂的。

在这里,研究人员观察到蛋白质设计基本上是在复杂而广阔的氨基酸序列空间中的搜索问题。对于大多数生物学相关的蛋白质,序列长度可以从几十到几千个残基不等。由于 N 长度序列的每个位置可能包含 20 种可能的氨基酸之一,因此产生的组合空间(≈20^N 序列)通常太大而无法彻底搜索。

值得注意的是,尽管非规范替代品的数量越来越多,但仅考虑规范氨基酸就会出现这个问题。这个搜索空间规模的一个主要后果是,大多数公开可用的数据集,尽管它们的规模很大,但只捕获了一小部分可能的序列空间,因此绝大多数可能的变体都没有被探索。

为了导航序列空间,通常应用称为定向进化的迭代搜索过程,其中生成成批的随机序列并筛选感兴趣的功能或属性。然后将最佳序列转移到下一轮文库生成和选择。实际上,这相当于使用「爬山」方法搜索序列空间,因此容易受到可能掩盖更好序列发现的局部最大值的影响。蛋白质设计的其他方法包括基于结构的设计,其中理想的结构是先验选择的,任务是使序列适合设计。

近期,出现了几种有前途的方法,将深度学习融入蛋白质的设计、搜索和优化中。然而,这些方法通常用于计算机筛选,通过训练模型直接从输入的氨基酸序列预测适应度分数。最近的方法还利用强化学习来优化序列。尽管这些方法对于通过提出有希望的序列来减少实验筛选负担很有价值,但导航序列空间的挑战仍未得到解决。

最近的方法还利用强化学习来优化序列。尽管这些方法对于通过提出有希望的序列来减少实验筛选负担很有价值,但导航序列空间的挑战仍未得到解决。

所以,研究人员提出了 ReLSO,这是一种基于深度 Transformer 的蛋白质设计方法,它将 Transformer 模型的强大编码能力与产生信息丰富、低维潜在表示的瓶颈相结合。

ReLSO 中的潜在空间除了是低维的外,还通过潜在空间的适应度预测被正则化为(1)关于结构和适应度的平滑,(2)训练数据点之间的连续和可插值;(3)基于数据外负采样的伪凸。这种高度设计的潜在空间可以使用适应度的梯度上升直接在潜在空间中进行优化,并收敛到一个最佳值,然后可以将其解码回序列空间。

图示:ReLSO 学习蛋白质序列的平滑表示。(来源:论文)

ReLSO 的主要贡献包括以下内容。

使用具有自动编码器类型瓶颈的基于 Transformer 的编码器的新颖用途,用于对蛋白质序列进行丰富且可解释的编码。

由序列-函数关系组织的潜在空间,可缓解由于组合爆炸而导致的优化困难。

一个凸潜在空间,使用基于范数的负采样进行重塑,以诱导自然边界和基于梯度的优化的停止标准。

一种基于插值的正则化,在遍历潜在空间时强制解码序列空间逐渐变化。这允许对训练数据所在的底层序列流形进行更密集的采样。

用于从潜在空间生成新序列的梯度上升算法。

图示:抗雷珠单抗抗体的蛋白质序列优化。(来源:论文)

找到更好的表示的能力对于从蛋白质生物学领域的嘈杂、高维数据中提取见解至关重要。由它们的生化相互作用、进化选择压力和功能稳定性权衡所定义,蛋白质对于深度学习的应用来说是一个越来越重要的领域。更具体地说,生物治疗开发领域从线性和非线性模型的应用中受益匪浅。该领域中一些非常有影响力的模型在很大程度上受到了监督,但最近的研究证明了利用无监督学习来预训练预测模型以识别具有增强的感兴趣特性的蛋白质序列的有用性。

耶鲁大学团队是采用了一种结合这两种学习目标的替代路径,而是采用了多任务学习方法。通过同时优化蛋白质序列生成和适应度水平预测,他们明确地实施了一个富含序列和适应度信息的潜在空间。重要的是,这种适应度信息可能包含各种不同的属性,例如结合亲和力和荧光,它们平滑地嵌入到训练的模型的潜在空间中。然后,添加反映蛋白质工程原理的正则化,重塑过程中的潜在空间。利用这些正则化和模型架构,研究人员展示了梯度上升优化如何在搜索蛋白质序列空间时改进蛋白质优化。

图示:利用 ReLSO 中的注意力关系进行适应性归因。(来源:论文)

这种方法与其他方法的不同,证明了一种新的、有前途的途径,这可以提高设计和优化蛋白质的能力。此外,这种方法仅依赖与适应度值配对的序列信息表明,类似 ReLSO 的架构可以应用于其他生物分子,例如 DNA 和 RNA。特别是,核酸的一种应用是优化基因编辑工具,例如 CRISPR-Cas9,以减少脱靶效应。

具体来说,这是一个有趣的途径,通过调整结合亲和力以增加对某个目标或同种型的选择性,但针对其他目标或异构体以减轻脱靶毒性。随着生物疗法的日益突出,这一研究方向有可能在改进疗法的开发中提供改进。

论文链接:https://www.nature.com/articles/s42256-022-00532-1

相关文章
|
5月前
|
人工智能 计算机视觉
论文介绍:MDTv2——提升图像合成能力的掩码扩散变换器
【5月更文挑战第18天】MDTv2是掩码扩散变换器的升级版,旨在增强图像合成模型DPMs处理语义关系的能力。通过掩码操作和不对称扩散变换,MDTv2能学习图像的完整语义信息,提升学习效率和图像质量。MDTv2采用优化的网络结构和训练策略,如长快捷方式、密集输入和时间步适应损失权重,实现SOTA性能,FID分数达到1.58,训练速度比DiT快10倍。尽管计算成本高和泛化能力待验证,MDTv2为图像合成领域开辟了新方向。[链接: https://arxiv.org/abs/2303.14389]
117 1
|
5月前
|
人工智能 算法 网络架构
谷歌新论文:潜在扩散模型并非越大越好
【4月更文挑战第9天】谷歌研究团队发现,潜在扩散模型(LDMs)的性能并非完全由其大小决定。通过对比不同规模的LDMs,他们在有限推理预算下发现小模型能生成与大模型相当甚至更好的结果。研究强调了在采样效率和模型规模间的平衡,为优化生成模型在有限资源下的效能提供了新思路。然而,小模型的建模能力限制和对特定模型系列的适用性仍需进一步研究。
36 1
谷歌新论文:潜在扩散模型并非越大越好
|
5月前
|
机器学习/深度学习 开发框架 算法
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
|
5月前
|
机器学习/深度学习 开发者
论文介绍:基于扩散神经网络生成的时空少样本学习
【2月更文挑战第28天】论文介绍:基于扩散神经网络生成的时空少样本学习
53 1
论文介绍:基于扩散神经网络生成的时空少样本学习
|
5月前
|
机器学习/深度学习 开发框架 算法
非线性混合效应 NLME模型对抗哮喘药物茶碱动力学研究
非线性混合效应 NLME模型对抗哮喘药物茶碱动力学研究
|
机器学习/深度学习 传感器 编解码
2023最新 | 单目深度估计网络结构的通用性研究
单目深度估计已经被广泛研究,最近已经报道了许多在性能上显著改进的方法。然而,大多数先前的工作都是在一些基准数据集(如KITTI数据集)上进行评估的,并且没有一项工作对单目深度估计的泛化性能进行深入分析。本文深入研究了各种骨干网络(例如CNN和Transformer模型),以推广单目深度估计。首先,评估了分布内和分布外数据集上的SOTA模型,这在网络训练期间从未见过。然后,使用合成纹理移位数据集研究了基于CNN和Transformer的模型中间层表示的内部属性。通过大量实验,观察到transformer呈现出强烈的形状偏差,而CNN具有强烈纹理偏差。
2023最新 | 单目深度估计网络结构的通用性研究
|
机器学习/深度学习 算法
基于模糊小波神经网络的空中目标威胁评估(Matlab代码实现)
基于模糊小波神经网络的空中目标威胁评估(Matlab代码实现)
113 0
|
自然语言处理 算法 计算机视觉
陈丹琦组掩蔽语言模型研究引争议:15%掩蔽率不是最佳,但40%站得住脚吗?
陈丹琦组掩蔽语言模型研究引争议:15%掩蔽率不是最佳,但40%站得住脚吗?
108 0
|
机器学习/深度学习 人工智能 监控
【Pytorch神经网络理论篇】 35 GaitSet模型:步态识别思路+水平金字塔池化+三元损失
步态特征的距离匹配,对人在多拍摄角度、多行走条件下进行特征提取,得到基于个体的步态特征,再用该特征与其他个体进行比较,从而识别出该个体的具体身份。
423 0
|
机器学习/深度学习 传感器 算法
基于贝叶斯优化卷积神经网络结合长短记忆CNN-LSTM混合神经网络实现数据回归预测附Matlab代码
基于贝叶斯优化卷积神经网络结合长短记忆CNN-LSTM混合神经网络实现数据回归预测附Matlab代码
下一篇
无影云桌面