今天给大家介绍美国国立卫生研究院(NIH)和加拿大公共卫生局国家微生物实验室在Nature Biotechnology上联合发表的一篇文章“Biological activity-based modeling identifies antiviral leads against SARS-CoV-2”。该文章提出了一种基于生物活性建模(BABM)的方法,在该方法中,经过多种测定建立的化合物活性谱被用作化合物特征,用来预测化合物对于新靶点或在其他测定中的活性。作者用BABM模型预测了311种对SARS-CoV-2具有潜在活性的化合物,其中32%的化合物在细胞培养活病毒测定中表现出抗病毒活性,有潜力进一步发展为抗SARS-CoV-2药物。
研究背景
高昂的成本和操作瓶颈限制了先导化合物识别,导致传统的高通量筛选(HTS)通常限于1-2百万种化合物。为此,最新的HTS进展实现了虚拟筛选(VS),能够筛选数百万具有潜在生物活性的化合物。然而,现有的虚拟筛选方法在预测生物活性时都严重依赖化合物的结构信息,导致虚拟筛选仅限于在已知配体结构和药物靶点的相近结构中进行查询。针对这一问题,作者提出了基于生物活性建模的方法。由于BABM建立在“具有相似活性模式的化合物很可能具有相似的靶标或作用机理”假设的基础上,BABM方法可利用化合物的生物活性进行预测。作者使用BABM方法构建了SARS-CoV-2的预测模型,识别了300多种抗SARS-CoV-2的化合物。作者进一步在活病毒分析中测定了这些化合物,确认了约100种化合物(>30%)具有抗病毒活性,从而验证了BABM方法的实用性和准确性。
方法
作者使用一个两步评分算法WFS构建模型。首先,使用两尾费舍尔精确检验确定活性化合物中每种特征与非活性化合物中特征相比的富集显著性,并为数据集中存在的所有特征计算P值。对于测定活性数据,每个测定读数均被视为特征,对于活性化合物,特征值设置为1,对于非活性化合物,特征值设置为0。如果某个特征在活性化合物的频率比非活性化合物的频率低,则将其P值设置为1。这些P值形成了“综合”特征指纹,然后基于该指纹,根据公式(1)对每种化合物存在活性的可能性进行评分。
其中Pi是特征i的P值,C是化合物中所有特征的集合,M是在综合特征指纹中编码的一组特征,N是特征数量,α是权重因子,在文中描述的所有模型中均设置为1。WFS得分高表示化合物具有活性的可能性很大。整个模型的训练,测试和验证过程如图1所示。模型性能通过AUC-ROC曲线下的面积进行测量。
图1 模型训练、测试和验证过程
实验
实验数据和基准模型
表1概述了用于建模的三类病毒靶点(SARS-CoV-2,ZIKV和EBOV)。其中,ZIKV NS1表示寨卡病毒非结构蛋白,EBOV表示埃博拉病毒。基准模型如表2所示,包括结构-活动组合模型(CM)、基于活动的模型(BABM)和基于结构的模型(SBM)。BABM-M(或CM-M)、BABM-S(或CM-S)和BABM-G(或CM-G)分别表示基于MLS、Sytravon和Genesis数据集的BABM(或CM)模型。
表1 用于建模的病毒靶点概览和模型识别的活性化合物统计
表2 建立在不同测试数据集上的模型
模型性能和实验验证
实验结果如图2所示,大多数模型在其相应的测试集上表现良好(图2a),平均AUC-ROC值大于0.8。与BABM模型和SBM模型相比,CM模型表现出最佳性能,平均AUC-ROC值大于 0.83。为了进一步验证模型并识别具有抗病毒活性的新化合物,作者为每个病毒靶点选择了模型预测的活性成分子集进行实验验证,计算每个模型的正预测值PPV(TP /(TP + FP)),即通过实验确定的模型预测的活性成分百分比(图2b)。
图2 模型性能和实验验证结果
识别抗SARS-CoV-2化合物
SARS-CoV-2 BABM模型预测的311种化合物的活性在活病毒细胞病变效应(CPE)测定中进行了测试,其中99种被证实具有活性,命中率为32%(图2b)。模型的PPV范围从32%(CM-S)到38%(BABM-S)。图3总结了实验确认的活性物的效力范围,从图3中可以看出,与相应的训练数据集中的活性成分比例相比,所有模型预测的活性集都显著富集了真正的活性化合物。实验证实的SARS-CoV-2-活性化合物在8个浓度下进行了进一步测试,以得到更准确的效力度量。选择的94种化合物中有9种在二级确认测定中表现为无活性,对SARS-CoV-2 CPE分析的确认率为90%。作者在CPE分析中还筛选了一些文献中报道的某些已知的抗SARS-CoV-2化合物,尤其是目前正在进行COVID-19临床试验的那些化合物,其效力各不相同。相比之下,文章中的模型确定的抗SARS-CoV-2化合物的效力属于已知的抗SARS-CoV-2化合物的范围。
图3 对模型预测的活性化合物的二次确认实验结果
抗SARS-CoV-2化合物的抗病毒机制
针对SARS-CoV-2感染的治疗干预有多个靶点,包括病毒进入宿主细胞,3C样蛋白酶对病毒多肽进行蛋白水解以释放非结构蛋白和宿主细胞中的自噬通道。作者使用三种检测方法进一步研究了85种经实验证实的抗SARS-CoV-2化合物的潜在抗病毒机制。实验结果表明,在85种抗SARS-CoV-2化合物中,有53个是通过SARS-CoV-2假型颗粒(PP)进入测定法测定的病毒进入抑制剂,通过GFP-LC3测定识别出35个是自噬调节剂,有52个化合物在至少一个自噬参数中处于活动状态。这些结果表明自噬在模型识别的抗SARS-CoV-2化合物的抗病毒活性中起主要作用,并且这些化合物大多数是病毒进入抑制剂。
总结
文章中提出了BABM方法,该方法将化合物在多种生物测定中的测定结果作为化合物的描述符或特征,用于预测其它化合物的活性。与仅使用化学结构数据构建的传统QSAR模型相比,BABM可以识别出与训练集和SBM所识别的化合物在结构上不同的化合物,这证明了BABM在发现新化合物种类方面的优势。结合传统SBM与BABM,可以最大化最优先导化合物即目标治疗靶点的新候选化合物的机会。此外,SARS-CoV-2 BABM模型识别出约100种抗SARS-CoV-2化合物,这些化合物经过实验验证在活病毒测定中显示出抗病毒活性。