三、 Uni-Mol概览
近年来,预训练在药物设计中获得了巨大的关注。早期的MRL模型直接使用NLP模型,如BERT,从SMILES等一维序列中学习。最近的MRL模型使用图模型,从二维分子图中学习。
如果科研人员需要提高分子的特性和药物的效果,主要由三维结构决定。为了扩大应用范围,许多任务需要3D位置输出,如构象生成、结合姿势预测等。
近期的一些MRL模型试图利用三维模型,将其作为辅助信息。比如ChemRL-GEM将键长/角度添加到边缘特征中,GraphMVP/3D-InfoMax将三维信息提炼成二维图形。
与现有大多数分子表征学习模型的不同之处在于,Uni-Mol跳出大多模型所采用的一维序列或二维图结构,而是直接利用分子三维结构作为模型输入和输出,利用分子的三维信息训练模型。
三维MRL框架Uni-Mol由三个部分组成,基于Transformer的骨干处理3D数据、学习分子表征和口袋表征的预训练模型、以及面向各类下游任务的微调策略。
目前,Uni-Mol可以做任务有三类。分别是小分子,蛋白口袋,以及蛋白跟小分子结合的复合物。
如上图所示,蛋白质与配体结合的预测,是基于结构的药物设计中最重要的任务之一。Uni-Mol结合了分子和口袋预训练模型来学习基于距离矩阵的打分函数,后对复杂的构象进行采样和优化,并在基准数据集上确保了结果的可泛化性。
通过结合分子模型和口袋预训练模型,Uni-Mol在蛋白质与配体结合任务中显著超过了普遍使用的对接工具。
在预训练任务方面,主要对三维空间进行去噪。假设有一个碳原子,在真实坐标随机添加一些扰动,然后屏蔽原子预测,如同遮蔽的语言建模。模型将原子进行还原之后,它还是原来的原子类型。
如上图所示,Uni-Mol在docking power和binding pose两项评估结合最关键的指标上,Uni-Mol均表现非常出色,在打分函数docking power测评上超越了一系列主流的docking工具以及AI based打分函数模型。
除此之外,Uni-Mol在binding pose预测能力上面,对于CASF-2016基准数据集的预测,通过准确结合构象的比例,目前已超过主流的docking工具约35%。
Uni-Mol是第一个可以直接用于蛋白质-配体对接的MRL,生成三维结合位置,与传统对接工具相比,速度提高100倍。
目前,Uni-Mol已全面开源,其代码、模型、数据、论文均在网上公开。
除此之外,Uni-Mol所有资料均已在ModelScope社区开放,欢迎大家使用。