本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
本文将分 3 期进行连载,共介绍 19 个在生物制药任务上曾取得 SOTA 的经典模型。
第 1 期:RaptorX、AlphaFold、AlphaFold2、RoseTTAFold、DeepAccNet、ESMFold
第 2 期:OmegaFold、EquBind、RELATION、BIMODAL、GF-VAE、MCMG
第 3 期:MGM、MolGPT、Iterative Refinement LSTM、PAR、Uni-Mol、K-Bert、MolCLR
您正在阅读的是其中的第 2 期。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
第 1 期回顾:RaptorX、AlphaFold、DeepAccNet、ESMFold…你都掌握了吗?一文总结生物制药必备经典模型(一)
本期收录模型速览
模型 | SOTA!模型资源站收录情况 | 模型来源论文 |
OmegaFold | https://sota.jiqizhixin.com/project/omegafold | High-resolution de novo structure prediction from primary sequence |
EquBind | https://sota.jiqizhixin.com/project/equbind | EquiBind: Geometric Deep Learning for Drug Binding Structure Prediction |
RELATION | https://sota.jiqizhixin.com/project/relation | RELATION: A Deep Generative Model for Structure-based De Novo Drug Design |
BIMODAL | https://sota.jiqizhixin.com/project/bimodal | Bidirectional Molecule Generation with Recurrent Neural Networks |
GF-VAE | https://sota.jiqizhixin.com/project/gf-vae | GF-VAE:A Flow-based Variational Autoencoder for Molecule Generation |
MCMG | https://sota.jiqizhixin.com/project/mcmg | Multi-constraint molecular generation based conditional transformer, knowledge distillation and reinforcement learning |
1990年代后期,计算生物学开始成为生物学中非常重要的一部分。在大热的AlphaFold掀起浪潮之前,就有科学家断言:所有生物学都是计算生物学。AI或者深度学习的出现,给计算生物学带来了新的巨大的发展空间。
对于生物学本身,传统的实验和分析手段已难以充分开发海量生物数据,确实需要计算生物学这种跨学科同时兼顾多个细分领域的综合性工具来解决问题。在具体实验方法上,当前绝大多数采用的都是基于已有数据库和资源、利用成熟工具来解决特定问题或自行设计统计分析、数值计算的方法,而计算生物学的出现让干湿实验结合的新方法开始走向主流(在生物上讲,干实验就是通过计算机模拟以及生物信息学方法来进行研究。湿实验就是通过在实验室里采用分子、细胞、生理学试验方法进行研究)。引入AI,实现了对在传统的湿实验环境中的假设的验证,干湿实验共同迭代加速,AI和传统科研结合带来的巨大潜能,有望带来一场全新的科学革命。
在计算生物学中,AI的应用主要有三类:一是,计算推演生物性质及原理,包括:蛋白质结构预测、致病机理研究、蛋白质相互作用预测(PPI)、抗体和抗原的表位预测、基于基因组学寻找疾病成因或寻找新型的生物标志物等。(生物标志物是指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标,可用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。)这些研究的成果后续可用于得到新的药物靶点等,为疾病治疗提供基本思路。二是搭建预测及判断模型,包括:AI制药中基于靶点的化合物性质预测(主要涉及小分子药物开发),疾病诊断/监控/治疗建模,涵盖细胞/器官/人体的生物模拟器等。其中,生物模拟器的本质功能是用于验证特定疗法有效性的生物模拟器,可以简单理解为生物医药领域的数字孪生。三是对生物体进行控制改造,包括:新疗法/药物开发、精准医疗和生物制造(以合成生物学为代表)。其中新疗法/药物开发是目前落地最成熟的场景。再往细来说,对癌症的个性化治疗和基因组学也将成为精准医疗中最先落地的场景。AI应用于新药开发,可以实现药物靶点发现、药物筛选和结构优化、合成路线等。
本文聚焦于生物制药中必备的TOP模型,具体来说就是第三类AI应用中的主要模型,可以运用到整个药物从研发、中试到生产的所有关键技术环节。上面提及的第二类AI应用主要是生物医药领域的数字孪生,不包含在本文的讨论范围内。
本文回顾的必备TOP模型主要包括蛋白质结构预测和蛋白设计、分子生成、分子表征和性质预测这三类应用,而化学合成/逆合成及其它大数据分析应用等,暂不包含在本文讨论的模型范围中。AI的各种模型和算法应用在生物制药领域,需要与对应的生物学、医学知识高度结合,因此,本报告中对必备TOP模型的介绍主要是从AI建模的角度对模型总体架构和整体设计思路进行介绍,各个模型设计的技术细节、模型调参等思路和技术创新点,需结合原文和所应用的医学场景深入理解。
一、蛋白质结构预测和蛋白设计
1、 OmegaFold
AI预测蛋白质3D结构,仅通过单条蛋白序列就能搞定。也就是说,AI预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过AI预测3D结构,确定其对人体的功能,实现这一功能的模型就是OmegaFold。OmegaFold的整体模型在概念上受到自然语言处理的语言模型以及AlphaFold2中使用的深度神经网络的最新进展的启发。
图1 OmegaFold的模型结构。主要的蛋白质序列首先被送入一个预训练的蛋白质语言模型(Omega protein language model,OmegaPLM),以获得残基级节点嵌入和残基-残基配对嵌入。然后,一堆Geoformer层迭代更新这些嵌入,以提高其几何一致性。最后,一个结构模块从最终的嵌入中预测出三维蛋白质结构。预测的结构和嵌入可以通过循环程序再次输入到另一个循环中,以预测更精细的结构
这项工作专注于设计一个内存高效的自注意力架构,通过改进以前的PLM的不同组件,如位置编码功能、非线性转换和归一化功能,使PLM更加深入。OmegaPLM的整体架构是一个自注意力模型,其中,每个token是一个氨基酸。OmegaFold模型用一堆GAU层来处理一个蛋白质序列,而不是用自注意力层和多层感知器。该模型包含66个层,大约有6.7亿个参数,没有共享参数。令n_i∈R^d作为位置i的token的d维向量表示,Algorithm 1中给出了OmegaPLM的详细过程。
Pre-LayerNorm。如算法1所示,引入pre-LayerNorm操作,将层归一化放在残差块之间。正如最近的研究表明,预层规范化能够产生更稳定的梯度,特别是在初始化时。目前在不同的深度学习包中普遍存在的归一化层的实现,通常包含element-wise的仿射变换,其参数可学习,紧随其后的是许多 pre-layernorm Transformers的线性操作。然而,这种配置在数学上并没有意义,只会在训练期间选择优化器造成的微小差异。因此,删除了pre-LayerNorm中的所有element-wise仿射变换。
Gated Attention Unit。没有使用多头自注意力(multi-headed self-attention,MHSA),而是采用了门控注意单元(GAU)(算法1中的第8行),它作为多头自注意力的替代品,具有较小的内存消耗和较快的收敛率,显示出巨大的前景。在注意力聚集后应用门控操作,用relu2(-)取代传统的softmax(-)函数来聚集成对的对数。特别是,使用一个额外的门控向量gi∈R^dv,其中dv是价值向量的维度,后来以元素方式与价值vj的加权和相乘(第8行)。
Relative Positional Encoding (RoPE)。注意力机制本质上是变异的,所以它在应用于序列数据时需要位置信息。这里我们应用旋转位置嵌入(rotary positional embedding,RoPE)(算法1中的第5行和第6行)来编码一对氨基酸的位置信息,其定义见算法2。利用复数的特性解决了这个问题,并将这种机制应用到查询和密钥中。为了进一步强调相对位置信息的影响,引入一个偏置项b_i-j,它是针对位置i和j的。注意b_i-j和b_j-i的值是不同的。没有随着绝对相对位置的增加而减少嵌入值,而是对相对位置进行剪辑以允许extrapolation。
项目 | SOTA!平台项目详情页 |
OmegaFold | 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/omegafold |
2、 EquBind
EquBind的工作发表在ICML 2022中。之前典型的‘配体-蛋白质’方法,就像试图让模型将钥匙插入一个有许多锁孔的锁中,需要花大量时间对钥匙和每个锁孔的配合度打分,然后选择最合适的那个。而EquBind可以跳过最耗时的步骤,遇到新分子时可提前预测最合适的‘锁眼’,这就是所谓的‘盲对接’。其内置的几何推理算法,可帮助模型学习分子的基本结构。该算法允许EquBind在遇到新分子时直接预测最合适的位置,而不是花费大量时间尝试不同的位置并对其进行评分。即,EquBind依靠SE(3)等价图神经网络来预测结合的蛋白质配体构象,只需一次就能完成。EquBind将配体分子图与随机关联的非结合三维构象体以及受体结合结构作为输入,详细结构如图2所示。
图2 EquBind结构
K-NN图的表示。将两个输入分子表示为空间k-近邻(k-NN)图。配体图G = (V, E)使用原子作为节点,其各自的三维坐标来自未结合的构象体,表示为X∈R^3×n,以及初始特征F∈R^d×n(例如原子类型)。边缘包括距离在4˚A以内的所有原子对。受体图 G‘ = (V’, E‘) 将残基作为节点,其三维坐标X0∈R……3×m由α-碳的位置给出。每个节点在图中都与最近的10个其他节点相连,距离小于30˚A。
Independent E(3)-equivariant transformations。使用独立E(3)-变量图匹配网络(IEGMN),它结合了图匹配网络和E(3)-变量图神经网络。这种架构共同转换特征和三维坐标,以进行神经图内部的信息传递。
IEGMN(X, F, X’ , F’ ) = Z ∈ R ^3×n, H ∈ R^ d×n, Z’ ∈ R^ 3×m, H’ ∈ R^ d×m。IEGMNs的核心属性是,堆叠任何数量的此类层都能保证原始输入结构的任何独立旋转和平移都将准确地反映在输出中。在实践中,图11所示的Z、H、Z'、H'输出是通过堆叠几个IEGMN层得到的。我们对单个第l层的选择是:
Z的作用。表示为Z和Z'的坐标E(3)等价变换的输出将被用于不同的作用:识别刚体变换和结合点,以及通过训练Z来表示变形的原子点云来模拟配体的灵活性。
项目 | SOTA!平台项目详情页 |
EquBind | 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/equbind |
3、RELATION
基于深度学习的从头分子设计最近获得了相当大的关注。许多基于深度学习的生成模型已被成功开发出来并应用于设计新的分子,但其中大多数是以配体为中心的,target binding pockets的三维几何形状在分子生成中的作用还没有得到很好的利用。为此,提出了一个新的基于三维的生成模型,称为RELATION。在RELATION模型中,BiTL算法被专门设计用来提取蛋白质-配体复合物的所需几何特征并将其迁移到一个潜在的空间进行生成,在引入双向迁移学习后,隐藏层的采样能够同时兼顾生成分子的骨架片段的新颖性以及对靶标蛋白的亲和性。应用药效团约束生成( pharmacophore conditioning)和贝叶斯优化(BO)采样,能够有效地浏览巨大的化学空间,可供用户定制化生成药效团匹配度更高以及对靶标的对接打分表现更好的分子。
RELATION框架由两个部分组成:(1)3D编码器,使用了3D-CNN的结构,包括私有编码器和共享编码器。附带SMILES标签的训练源域数据以及目标域数据转换成4D张量后,分别作为私有编码器和共享编码器的输入。所有的编码器具有相同的架构,均具有8层,第一层包含64个过滤器,然后在奇数层上加倍,最后一层学习512个过滤器。每一个偶数层后面都有一个额外的池化层,核数、步长和填充为2,用于执行下采样。利用ReLU激活函数对3D-CNN模型进行训练,并使用两个输出为512维的全连接层得到μ和σ,对其重参数化后,生成一个的1024维嵌入向量;(2)解码器,解码器的结构是caption-LSTM,可以将隐藏层内的高维向量转化为SMILE分子式,caption-LSTM由三层组成,其词汇量输入大小为39,隐藏大小为1024。
图3 RELATION架构
为了实现双向迁移,定义损失函数如下:
在迁移学习中引入L_sim和βL_diff,使得隐藏层在生成过程中不仅考虑了源域数据集和目标域数据集的相似性,也保留了源域数据集(结构多样性)和目标域数据集(蛋白-配体亲和力)各自的特征。L_sim项能够保证共享隐藏层中小分子与复合物的相似性。L_latent表示编码器由均值和单位方差均为零的多元高斯分布先验进行正则化,表示为:
最后,L_caption用来测量原始输入和通过字幕网络产生的输出之间的重建损失。
项目 | SOTA!平台项目详情页 |
RELATION |
前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/relation |