前言
近期,结合机器学习技术的相关研究在生物技术领域取得了巨大的成功。抗菌肽作为一个对抗细菌耐药性的潜在有效材料,其发掘与临床测试成为了研究的热点。其中,具有序列多样性的多肽分子构成了一个超大规模的潜在治疗药物的候选库。通过噬菌体、核糖体展示等高通量技术,可以实现 条序列的功能识别。但是在最先进的实验技术的加持下,为发现新药而识别整个肽库空间仍然是一项艰巨的任务。
针对抗菌肽筛选任务,目前主流的方案有以下几种:
1. 在收集的数据集上进行模型训练,并在独立的测试集上进行测试以验证模型性能,固定参数并上线服务器,对用户上传的多肽序列进行抗菌性识别。2. 收集特定的类型的抗菌肽数据,训练模型。使用领域先验知识在小范围内生成候选多肽搜索库(例如从特定的基因序列中生成或是针对已知抗菌序列片段进行截取或者扩增),将训练好的模型在上面进行验证,选出其中最好的进行实际的湿实验。3. 基于大规模蛋白质预训练模型,利用抗菌肽数据进行微调,针对不同下游任务训练不同的模型。
可以看到过往工作多基于已有功能肽,通过已知肽链上的增删的小幅度修改,实现小规模的区域性搜索。
因此,为什么不能从数据驱动的角度出发,将收集的有标签数据乃至整个搜索任务的数据集看作是一个整体,设计一整套实验框架呢?我们可以将不同模型完成的不同任务的特性,结合数据集本身的特点,组合成不同模块来实现筛选的过程。核心创新点不在于使用最先进的模型,也不在单点算法的改进,重点在于Data-centric的人工智能方法和多模型组合性的系统级工程来解决实际问题。
最终,我们实现了全球首个,对于功能肽(千亿量级)的巨大全库全局搜索解决方案。在长度为6-9的多肽上进行全局搜索 ,通过湿实验和活体实验,结果显示,筛选出的多肽的抗菌性能至少可以达到目前发现的,针对特定菌种的最好的抗菌肽的水平。
论文标题:Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences
本文由浙江大学数据智能实验室、M3实验室与浙江大学高分子系MOE实验室合作完成。
发表于Nature BME上(2023 IF:29.2)
论文链接:https://www.nature.com/articles/s41551-022-00991-2
第一作者:黄俊杰、徐彦超
通讯作者:张鹏、赵俊博、计剑
第一单位:浙江大学
主要贡献点:
1. 基于数据驱动的思想,提出了结合经验判断、分类、排序和回归的任务组合形成的 pipeline(SMEP),各任务对多肽进行多尺度的抗菌功能的识别,同时使用当前实验环境的数据对模型进行finetune,提高了模型对抗菌肽的预测能力。
2. 在长度为 6-9 的多肽全库上进行了测试,湿实验结果表明筛选出的抗菌肽的有效率达到了 98.2%,证明了整套模型的泛化性能。
3. 与之前的工作相比,本文提出的 pipeline 执行效率有了很大的提升,只需要约 19 天即可完成对 5000 亿级别的样本库的全扫描,并筛选出最佳的抗菌肽。
4. 弱人工干预,整体过程可以完全自动化完成,不需要领域专家的额外介入。
框架
提出了一个基于领域经验判断规则,使用分类、排序以及回归三大任务组成的一个全新的,基于机器学习的 pipeline (SMEP),如图 1.a 所示,并在长度为 6-9 之间的多肽全库上(约 5000 亿样本)挖掘强效抗菌肽。
图 1
数据集的选择部分,我们融合了当前广泛使用的 APD,DADP,DBAASP 和 UniProt 等数据集,按照菌种收集了约 7660 条数据(同一条多肽的多条抗菌性记录使用均值处理,对不具有抗菌性的多肽统一赋一个极大值以示区分)。考虑到潜在的数据噪声问题,我们利用湿实验收集了额外的 67 条数据用于模型的微调。
针对整个流程框架,首先,我们需要借助领域专家的提供的一些基本条件,例如多肽序列整体的电荷性质以及氨基酸残基的排列规律(两亲性),进行第一步的筛选。这一步可以筛选掉约90%数据。
然后是第一步的分类模型阶段,我们目的是实现粗筛的一个过程。候选多肽库中存在的大量的非抗菌肽,我们希望通过训练一个分类器能够有效地过滤掉大量的非抗菌性肽,降低接下来的模块筛选的压力。这一步可以再筛选掉约 85% 的数据。
考虑到数据中存在的误差,直接使用一个回归模型来拟合抗菌性指标可能会引入额外的误差,但是使用多肽间相对的抗菌性能力高低进行的筛选则可以缓解这样的问题。因此我们在第二步引入了一个排序模型的模块,来筛选出最具有抗菌潜力的前 500 条抗菌肽。
最后,我们训练一个回归模型来精细预测 Top-500 抗菌肽具体的MIC指标的值,并从中选出最好的 Top-10 多肽进行湿实验验证。
实验解读
对于多肽序列的输入,我们使用了两种处理方式应对不同的模型。针对传统的机器学习模型,使用相关工具包,计算出多肽对应的物化性质的 676 维结构化特征。针对深度学习模型,我们使用了可训练的 128 维动态词向量作为序列的隐藏特征输入到模型中。
分类模型&排序模型
图 2
分类模型部分选用了传统的 XGBoost,随机森林模型以及 LSTM 和 CNN 两种深度学习模型进行比较,可以看到 XGBoost 在除了 Recall 指标上针对其他模型都有一定优势。并且考虑到设立这一模块的初衷,即筛选出具有抗菌性的多肽,因此筛选出样例的真阳性比例,即 precision 指标是我们更关心的,因此我们最终选用了 XGBoost 模型作为分类任务的模型。考虑到一致性的因素,我们在排序模块也使用了 XGBoost 模型。从图 2.d 中可以看出,排序模型对排名较靠前的抗菌肽有明显的聚集作用。
回归模型
图 3
回归模型部分,这里额外增加了梯度提升树,岭回归和集成模型作为候选的模型。指标部分,考虑到该任务的目的是准确预测抗菌性表现最佳的多肽的 MIC 指标,从而藉此准确选择出性能优异的抗菌肽,我们在 MSE 指标的基础上,额外增加了 Top-K MSE 指标来反映模型对目标抗菌肽的敏感程度。图 3.e 表明,LSTM 要显著优于剩下的若干模型,因此我们最终选择 LSTM 模型。
为了在回归模块中缓解之前提到的数据误差问题,我们利用额外的,重新测试的 67 条湿实验数据对 LSTM 回归模型进行了微调,使之预测结果更符合当前的实验条件。
消融实验
图 4
为了验证整个 pipeline 模块设计的合理性,我们分别删去其中的不同模块进行消融实验。其中 C 代表分类模块,R 代表回归和排序模块,I 代表微调的过程。从图 4.b 中可以看到,删除其中的任何模块都会导致预测出的多肽在湿实验上抗菌性结果的下降。
泛化性实验
图 5
在未对整体框架及模型权重进行修改的前提下,在七,八,九肽上执行该抗菌肽识别任务。图 5.a 显示了该框架极高的运算效率,可以在 19 天内完成对 5000 亿级别多肽库的筛选。图 5.c 表明,识别的 54 条多肽(共 55 条)具有抗菌性,识别成功率高达 98.2%。
序列相似性分析
图 6
全库搜索相对于小范围筛选的一个显著优势就是筛选出抗菌肽和已知抗菌肽间较低的相似性,也就是更"与众不同",我们将训练数据和预测出的 55 条抗菌肽序列在不同物化指标的分布上进行了比较,显示出了较低的相似性。
总结
1. 本文是目前研究中第一个尝试在全库的条件下进行抗菌肽筛选的工作,并且湿实验证明了其有效性。2. 整套 pipeline 的筛选架构方式指明了未来的一个潜在的研究方向,即基于数据驱动的思想,通过多层次任务的多步筛选来高效获得目标产物。3. 对多肽或者蛋白质序列的发掘,使用多种层级的序列建模,并融合输入到模型中可能是一条缓解数据噪音,发掘序列潜在规律的一种有效方案。
通讯作者介绍
张鹏,浙江大学高分子系百人计划研究员。研究方向:1.高分子生物材料;2.蛋白质药物修饰;3.免疫工程;4.生物材料表界面。
赵俊博,浙江大学计算机学院百人计划研究员。研究方向:1.深度学习;2. AI+X;3.预训练大模型;4. Diffusion models。
计剑,浙江大学高分子系教授。研究方向:1.心血管医用材料和微创介入医用材料;2.医用材料的组织工程化设计;3.生物治疗用智能纳米微载体;4.新型固相基因传递体系的研究;5.仿生双亲聚合物的溶液和界面组装;6.层层组装构建生物相容性和生物功能性纳米层状超薄膜的研究。