本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
本文将分 3 期进行连载,共介绍 19 个在生物制药任务上曾取得 SOTA 的经典模型。
- 第 1 期:RaptorX、AlphaFold、AlphaFold2、RoseTTAFold、DeepAccNet、ESMFold
- 第 2 期:OmegaFold、EquBind、RELATION、BIMODAL、GF-VAE、MCMG
- 第 3 期:MGM、MolGPT、Iterative Refinement LSTM、PAR、Uni-Mol、K-Bert、MolCLR
您正在阅读的是其中的第 1 期。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
本期收录模型速览
模型 | SOTA!模型资源站收录情况 | 模型来源论文 |
RaptorX | https://sota.jiqizhixin.com/project/raptorx 收录实现数量:1 |
Accurate De Novo Prediction of Protein Contact Map by Ultra-Deep Learning Model |
AlphaFold | https://sota.jiqizhixin.com/project/alphafold 收录实现数量:1 支持框架:TensorFlow |
Improved protein structure prediction using potentials from deep learning |
AlphaFold2 | https://sota.jiqizhixin.com/project/alphafold2 收录实现数量:1 支持框架:TensorFlow |
Highly accurate protein structure prediction with AlphaFold |
RoseTTAFold | https://sota.jiqizhixin.com/project/rosettafold | Accurate prediction of protein structures and interactions using a three-track neural network |
DeepAccNet | https://sota.jiqizhixin.com/project/deepaccnet | Improved protein structure refinement guided by deep learning based accuracy estimation |
ESMFold | https://sota.jiqizhixin.com/project/esmfold-2 | Language models of protein sequences at the scale of evolution enable accurate structure prediction |
1990年代后期,计算生物学开始成为生物学中非常重要的一部分。在大热的AlphaFold掀起浪潮之前,就有科学家断言:所有生物学都是计算生物学。AI或者深度学习的出现,给计算生物学带来了新的巨大的发展空间。
对于生物学本身,传统的实验和分析手段已难以充分开发海量生物数据,确实需要计算生物学这种跨学科同时兼顾多个细分领域的综合性工具来解决问题。在具体实验方法上,当前绝大多数采用的都是基于已有数据库和资源、利用成熟工具来解决特定问题或自行设计统计分析、数值计算的方法,而计算生物学的出现让干湿实验结合的新方法开始走向主流(在生物上讲,干实验就是通过计算机模拟以及生物信息学方法来进行研究。湿实验就是通过在实验室里采用分子、细胞、生理学试验方法进行研究)。引入AI,实现了对在传统的湿实验环境中的假设的验证,干湿实验共同迭代加速,AI和传统科研结合带来的巨大潜能,有望带来一场全新的科学革命。
在计算生物学中,AI的应用主要有三类:一是,计算推演生物性质及原理,包括:蛋白质结构预测、致病机理研究、蛋白质相互作用预测(PPI)、抗体和抗原的表位预测、基于基因组学寻找疾病成因或寻找新型的生物标志物等。(生物标志物是指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标,可用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。)这些研究的成果后续可用于得到新的药物靶点等,为疾病治疗提供基本思路。二是搭建预测及判断模型,包括:AI制药中基于靶点的化合物性质预测(主要涉及小分子药物开发),疾病诊断/监控/治疗建模,涵盖细胞/器官/人体的生物模拟器等。其中,生物模拟器的本质功能是用于验证特定疗法有效性的生物模拟器,可以简单理解为生物医药领域的数字孪生。三是对生物体进行控制改造,包括:新疗法/药物开发、精准医疗和生物制造(以合成生物学为代表)。其中新疗法/药物开发是目前落地最成熟的场景。再往细来说,对癌症的个性化治疗和基因组学也将成为精准医疗中最先落地的场景。AI应用于新药开发,可以实现药物靶点发现、药物筛选和结构优化、合成路线等。
本文聚焦于生物制药中必备的TOP模型,具体来说就是第三类AI应用中的主要模型,可以运用到整个药物从研发、中试到生产的所有关键技术环节。上面提及的第二类AI应用主要是生物医药领域的数字孪生,不包含在本文的讨论范围内。
本文回顾的必备TOP模型主要包括蛋白质结构预测和蛋白设计、分子生成、分子表征和性质预测这三类应用,而化学合成/逆合成及其它大数据分析应用等,暂不包含在本文讨论的模型范围中。AI的各种模型和算法应用在生物制药领域,需要与对应的生物学、医学知识高度结合,因此,本报告中对必备TOP模型的介绍主要是从AI建模的角度对模型总体架构和整体设计思路进行介绍,各个模型设计的技术细节、模型调参等思路和技术创新点,需结合原文和所应用的医学场景深入理解。
一、蛋白质结构预测和蛋白设计
1、 RaptorX
该方法通过两个深度残差神经网络形成的超深神经网络,整合进化耦合和序列守恒信息来预测接触。其中,第一个残差网络对序列特征进行一系列的一维卷积变换;第二个残差网络对第一个残差网络的输出、 进化耦合(evolutionary coupling,EC)信息和成对电位进行一系列二维卷积变换。通过使用非常深的残差网络,可以精确地模拟接触发生模式和复杂的序列结构关系,从而获得更高质量的接触预测,而不管所讨论的蛋白质有多少序列同源物。
图1 用于接触预测的深度学习模型示意图,其中,L是被预测的蛋白质的序列长度
图1展示了用于接触预测的深度神经网络模型。与以往接触预测的监督学习方法不同,该深度神经网络使用了几十个隐藏层。通过使用一个非常深层的结构,模型可以自动地学习序列信息和接触之间的复杂关系,并对联系人之间的相互依赖性进行建模,从而提高接触的预测能力。
模型由两个主要模块组成,每个模块都是一个残差神经网络。第一个模块对序列特征(序列 profile、预测的二级结构和溶剂可及性)进行一系列一维卷积变换。该一维卷积网络的输出通过外级联(类似于外积的操作)转换为二维矩阵,然后连同成对特征(协同进化信息、成对接触和距离势)输入第二模块。第二个模块是一个二维残差网络,对其输入进行一系列二维卷积变换。最后,将二维卷积网络的输出输入logistic回归,该回归预测任意两个残基形成接触的概率。此外,每一个卷积层之前也有一个简单的非线性变换称为整流线性单元(rectified linear unit)。从数学上讲,一维残差网络的输出只是一个维数为L×m的二维矩阵,其中,m是网络最后一个卷积层产生的新特征(或隐藏神经元)的数目。从生物学角度讲,这个1维残差网络学习的是残基顺序的上下文。通过叠加多个卷积层,该网络可以在非常大的连续上下文中学习信息。二维卷积层的输出具有L×L×n的维数,其中,n是该层为一个残基对生成的新特征(或隐藏神经元)的数目。2维残差网络主要学习接触发生模式或高阶残基相关性(即残基对的2D上下文)。每一层的隐藏神经元的数量可能有所不同。
网络由两个残差神经网络组成,每个残差神经网络又由一些连接在一起的残差块组成。图2示出了由2个卷积层和2个激活层组成的残差块的示例。在这个图中,X_l和X_l+1分别是块的输入和输出。激活层在不使用任何参数的情况下对其输入进行简单的非线性变换,使用ReLU激活函数来进行这种转换。为了加快训练速度,还在每个激活层之前添加了一个批处理规范化层,它将其输入标准化为平均值为0,标准偏差为1。1D卷积层使用的滤波器尺寸(即窗口尺寸)为17,而2D卷积层使用的滤波器尺寸为3×3或5×5。通过将许多残差块叠加在一起,即使在每个卷积层使用了一个小窗口大小,该网络可以模拟输入特征和接触之间的非常长的相互依赖关系,以及两个不同残差数对之间的长程互依关系。将一维残差网络的深度(即卷积层数)固定为6,但改变二维残差网络的深度。
图2 残差网络的构建模块,X_l和X_l+1分别是输入和输出。每个模块由两个卷积层和两个激活层组成
项目 | SOTA!平台项目详情页 |
RaptorX | 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/raptorx |
2、 AlphaFold
2018年12月,DeepMind的AlphaFold成功预测了43种蛋白质中25种蛋白质的最准确结构,赢得了第13届蛋白质结构预测技术关键评估(CASP)。AlphaFold 构建的模型依赖于深度神经网络,这些经过训练的深度神经网络可以从基因序列中预测蛋白质的属性。DeepMind 的研究人员表示,神经网络预测的蛋白质属性主要有:(a)氨基酸对之间的距离;(b)连接这些氨基酸的化学键及它们之间的角度。DeepMind以跨学科的方式开展工作,汇集了结构生物学、物理学和机器学习领域的专家,应用尖端技术,完全基于蛋白质的基因序列来预测蛋白质的3D结构。
AlphaFold解决的问题是蛋白质折叠问题。输入是一个氨基酸序列,每一个位置代表一个元素,输出是一个拓扑结构,如图3所示,训练了一个生成式神经网络来创建新的片段,这些片段被用来不断改进所提出的蛋白质结构的得分:
图3 AlphaFold工作过程
图4 AlphaFold算法组成
如图4所示,AlphaFold算法大致分为以下几个部分:
- 特征工程:序列和MSA特征抽取,结合专家经验数据库,把氨基酸链的输入转换到特征空间;
- 深度神经网络结构预测:依据特征工程中的特征预测氨基酸链的一些性质,比如氨基酸之间两两的距离分布,氨基酸链的夹角分布;
- Potential Construction:结合专家经验构造一个评估函数,来评估步骤2中神经网络输出解的合理程度;
- 结构生成:对于2中预测的距离分布、夹角分布,使用3中的评估函数评估Loss,然后使用梯度下降法优化,直到收敛。
项目 | SOTA!平台项目详情页 |
AlphaFold | 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/alphafold |
3、AlphaFold2
2020 年 12 月的国际蛋白质结构预测竞赛 CASP ,一项重磅成果引发了科技界所有人的关注:由 DeepMind 开发的 AlphaFold 2 击败一众选手,在准确性方面达到比肩人类实验的结果,被认为是蛋白质折叠问题的解决方案。2021年7 月 15 日,Demis Hassabis、John Jumper 等人在 Nature 杂志上发表了文章《Highly accurate protein structure prediction with AlphaFold》,描述并开源了 AlphaFold2,它预测的蛋白质结构能达到原子水平的准确度。
AlphaFold2是基于氨基酸序列的蛋白质结构预测的深度学习算法,其模型构建依赖于深度神经网络,可以从基因序列中预测蛋白质的属性。简单来说就是通过训练神经网络来对回归目标进行逐步迭代精化。原理从随机生成含有大量冗余的数据开始,通过机器学习训练出一个模型,然后用这个模型做预测会得到一个更有代表性的数据,再用这个数据集再次训练模型,不停进行迭代。
AlphaFold2网络直接预测给定蛋白质的所有重原子的三维坐标,使用基本氨基酸序列和同源序列的对齐序列作为输入 (如图 5e)。
AlphaFold2 网络由两个主要部分组成。首先,网络的主干通过一个称为 Evoformer 的新神经网络块的重复层来处理输入,产生一个 Nseq × Nres 阵列 (Nseq: 序列数,Nres: 残差数) ,它表示一个处理过的 MSA 和一个表示残差对的 Nres × Nres 阵列。Evoformer 块包含许多基于注意力和非基于注意力的成分,它的关键创新是与 MSA 交换信息的新机制,并能直接推理空间和进化关系的配对表征。
图5 a, AlphaFold2在CASP14数据集上的表现(n = 87个蛋白域)相对于前15名的条目(在146个条目中),组号对应于CASP分配给参赛者的号码。数据是中位数和中位数的95%置信区间,由10,000个自举样本估计。b, 对CASP14目标T1049(PDB 6Y4F,蓝色)的预测与真实(实验)结构(绿色)的比较。晶体结构中C端的四个残基是B因子异常值,没有被描述出来。c,CASP14目标T1056(PDB 6YJ1)。一个很好预测的锌结合点的例子(AlphaFold2虽然没有明确预测锌离子,但有准确的侧链)。d,CASP目标T1044(PDB 6VR4)—一个2180个残基的单链—被预测为具有正确的结构域包装(预测是在CASP之后使用AlphaFold进行的,没有干预)。e,模型结构。箭头显示了本文所描述的各种组件之间的信息流。阵列形状在括号中显示,s,序列的数量(正文中为Nseq);r,残基的数量(正文中为Nres);c,通道的数量
网络的主干之后是结构模块(Structure Module),该模块以蛋白质的每个残基的旋转和平移的形式引入了显式的 3-D 结构。这些表征在微不足道的状态下初始化,所有旋转设置为同一性(identity),所有位置设置为原点,能够快速开发和完善具有精确原子细节的高度准确的蛋白质结构。这部分网络的关键创新包括打破链原子结构,允许同时局部细化结构的所有部分,一个新的「equivariant transformer」允许网络隐式地推理未表示的侧链原子,以及损失项可对残基方向的正确性赋予重要权重。在结构模块和整个网络中,通过对输出重复应用最终的损失,然后将输出递归到相同的模块中,加强了迭代完善的概念。使用整个网络的迭代改进(称之为 "循环",与计算机视觉中的方法有关)明显地提高了准确性,但所需的额外的训练时间并不多。AlphaFold2的详细结构如图6所示。
图6 a, Evoformer块。箭头表示信息流。阵列的形状在括号中显示。b, 对表示解释为图中的有向边。c, 三角形的乘法更新和三角形的自注意力。圆圈代表residues。对表示中的条目被说明为有向边,在每个图中,被更新的边是ij。d,结构模块包括不变点注意力(Invariant point attention,IPA)模块。e, 残基气体:将每个残基表示为骨干的一个自由浮动刚体(蓝色三角形)和侧链的χ角(绿色圆圈)。相应的原子结构显示如下。f,框架对齐点误差(FAPE)。绿色,预测结构;灰色,真实结构;(Rk,tk),框架;xi,原子位置
项目 | SOTA!平台项目详情页 |
AlphaFold2 |
前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/alphafold2 |