今天给大家介绍2019年12月发表在Nature Machine Intelligence的论文“Prediction of drug combination effects with a minimal set of experiments”,该工作由芬兰分子医学研究所(FIMM)的研究者完成。本研究建立机器学习模型,通过极少量的实验就可以对药物组合效应进行预测,因此能显著降低药物组合的筛选成本。
1、研究背景
药物组合疗法已成为一些复杂疾病的标准治疗方法,与单一药物治疗相比,联合用药可以提高治疗效果同时降低毒副作用。高通量筛选(HTS)使得在临床前的模型系统中分析成千上万种药物组合的表型效应成为可能。但是,由于大量潜在的药物和剂量组合,大规模的多剂量矩阵分析筛选实验成本过于昂贵,这超出了大多数学术实验室的能力。
为了使高通量药物组合筛选在实际项目中更加可行,一种解决剂量或药物组合爆炸问题的方案是仅使用多剂量反应矩阵的一部分数据进行预测。FIMM研究团队提出一种高效的机器学习方法DECREASE(药物组合反应预测),使用最少的实验对药物组合协同效应进行预测。DECREASE的模型输入为剂量矩阵的单行单列或对角线,检测其离群值,然后使用新型复合非负矩阵分解(cNMF)算法和正则化增强回归树(XGBoost)算法预测完全剂量反应矩阵,最后使用选定的参考模型(例如Loewe,Bliss,HAS或ZIP)来计算药物组合的总协同作用评分,通过进一步的实验或临床验证确定最具协同作用的组合。DECREASE的实现示意图如图1所示。
图1 DECREASE实现示意图
2、方法
2.1 内部组合实验
在13个癌细胞系中测试了34种不同的化合物,总共包括210种抗癌组合。用192种抗癌药物组合在10个乳腺癌细胞系中进行了8*8矩阵实验来建立DECREASE模型。另外18种用于验证模型预测的抗癌组合也使用相同的方法在HEK293(胚胎肾)、HeLa(宫颈癌)和Hep G2(肝细胞癌)细胞系中进行8*8的矩阵实验。所有的细胞系都在更大的体积中生长,使用基于PCR的检测试剂盒制备实验用细胞并将其冷冻在安瓿中,并定期检测支原体。
2.2 公布的组合数据集
第一个公布的数据集是在ABC DLBCL系TMD8中做了466个6*6矩阵实验来检测466种抗癌化合物与依鲁替尼的联合作用。第二个公布的数据集包括29种不同化合物中的104种抗疟组合,在恶性疟原虫株HB3的10*10矩阵设计中进行了测试。第三个公布的抗癌数据集来自于奥尼尔和其他科学家的研究,总共包括22,737个实验,583个成对组合,使用4*4剂量方案对从ATCC或Sigma-Aldrich获得的39个不同癌细胞系进行测试。第四个公布的数据集包含78种抗病毒药物组合,在感染了马科纳病毒和埃博拉病毒的Huh7肝细胞中进行了测试。
2.3 DECREASE工作流程
DECREASE预测方法主要由两阶段构成:(1)对有限的测量实验设计(如固定浓度或对角设计)获得的稀疏矩阵进行离群值检测;(2)使用cNMF算法预测完全剂量反应矩阵。最后,通过任意一种协同模型识别最好的协同药物组合。
1
离群值检测
g*12(d1,d2) = g1(d1) + g2(d2) − g1(d1)g2(d2) (1)
计算测量和预期的组合响应之间的偏差的公式如下:
gd(d1,d2) = |g12(d1,d2) − g*12(d1,d2)| (2)
其中g12(d1,d2)是实验测量的组合效应。然后,gd(d1,d2)中的离群点X(d1,d2)被定义为以下观测值:(1)低于Q1 − 4 × IQR或高于Q3 + 4 × IQR,Q1和Q3分别是第一和第三个四分位数,IQR是四分位数之间的范围;(2)偏离测量的抑制水平超过25%。
由于剂量反应矩阵中的药物组合抑制反应通常是浓度水平的非单调函数,在任何浓度范围内都可能发生药物协同或拮抗作用,因此,基于标准分布的方法都不适用于离群值的检测。这也使发现两个位置接近的离群值变得复杂,因为它们可能与协同区或拮抗区混淆。为了检测用于模型训练的组合和单个药物反应测量中的离群值,我们应用了一种基于Bliss近似的新策略。计算单一药剂在d1和d2浓度下的预期组合反应的公式如下:
g*12(d1,d2) = g1(d1) + g2(d2) − g1(d1)g2(d2) (1)
计算测量和预期的组合响应之间的偏差的公式如下:
gd(d1,d2) = |g12(d1,d2) − g*12(d1,d2)| (2)
其中g12(d1,d2)是实验测量的组合效应。然后,gd(d1,d2)中的离群点X(d1,d2)被定义为以下观测值:(1)低于Q1 − 4 × IQR或高于Q3 + 4 × IQR,Q1和Q3分别是第一和第三个四分位数,IQR是四分位数之间的范围;(2)偏离测量的抑制水平超过25%。
2
完全矩阵预测
在去除离群值后,预测稀疏剂量反应矩阵中的缺失反应。由于反应值总是非负的(抑制范围在0%到100%之间),所以使用约束加权非负矩阵因式分解(NMF)来预测药物组合反应矩阵。约束的NMF增加了额外的正则化约束,以减少过度拟合,增强模型估计解的唯一性。
3
协同评分和检测
利用预测的完全剂量反应矩阵,使用选定的协同评分参考模型计算全浓度范围内的组合形势。药物对的总体协同作用评分是通过使用SynergyFinder的剂量效应组合矩阵计算预测和预期协同作用之间的平均得分。正负分数分别表示协同作用和拮抗作用。
4
比较评价
使用192种抗癌组合的内部数据集,比较了cNMF和7种最先进的监督机器学习算法在预测稀疏剂量反应矩阵缺失值方面的预测准确性。对比分析表明,cNMF的性能优于其他所有监督机器学习算法。
2.3 统计分析
使用Bliss、Loewe、HSA或ZIP模型,通过计算预测和预期协同作用得分之间的Pearson相关系数,评估协同作用检测的预测准确性。用r.m.s.e.评估剂量组合模式的预测准确性。
3、结果
3.1 使用DECREASE预测抗癌药物的协同作用
DECREASE基于已批准的药物和正在研究的化合物的192种抗癌药物组合在10个乳腺癌细胞系中进行了8*8剂量反应矩阵的测试。图2展示了使用不同浓度设计预测得到的模型的协同作用分数的皮尔逊相关系数。对比分析表明,采用新型的cNMF方法,结合广泛使用的正则化增强回归树(XGBoost)算法,可以获得最佳的预测精度。
图2 DECREASE通过高通量实验数据筛选设计,准确预测药物组合效应
3.2 预测剂量组合表面的准确性
DECREASE模型的主要目的是预测被测药物对之间的协同效应。此外,还研究了通过DECREASE预测的完全剂量反应矩阵在不同浓度水平(所谓的结合面,combination surface)上捕获组合剂量反应模式的准确性。根据DECREASE模型预测出的Bliss协同面与基于完全剂量响应组合矩阵计算出的Bliss协同面相似,如图3所示。
图3 DECREASE精确预测了固定浓度的药物组合景观
3.3 被测子矩阵对DECREASE精度的影响
通过各种实验设计找出哪些剂量反应矩阵的浓度才能获得最大的预测性能,可以了解它们为协同预测提供了多少信息。当选择剂量反应矩阵的中间行之一进行模型训练时,预测效果最好,如图4a所示。值得注意的是,添加剂量反应矩阵的其他浓度行并没有显著提高协同预测性能,如图4b所示。
图4 选择和使用剂量反应矩阵行预测药物联合效应
3.4 DECREASE应用于非癌症药物组合数据
为了说明DECREASE模型在非癌症组合筛选的广泛适用性和性能,使用已发表的包含104种抗疟药物组合的数据集在恶性疟原虫HB3株中进行了测试。DECREASE在使用固定浓度和对角线设计时可以确定最具协同和拮抗作用的药物组合。在另一个非癌症应用案例中,DECREASE在78种用于埃博拉治疗的药物组合中筛选出最有效的协同抗病毒组合,与DLBCL和疟疾的应用类似,使用DECREASE模型对药物组合效应具有很高的预测准确性。实验结果如图5所示。
图5 DECREASE能准确预测抗疟疾药物和抗病毒药物的组合效应
4、讨论
为了降低高通量药物组合实验所需的成本和时间,本文提出了一种高效的基于机器学习模型的方法--DECREASE,仅用最少的一组测量值来预测最有效的药物协同组合。本文使用53个癌细胞系中测试的23595种成对药物组合,以及在疟疾和埃博拉感染模型中测试的药物组合来证明使用机器学习方法能够获得与完全剂量组合矩阵所提供的几乎相同的信息含量。实验结果还表明,DECREASE有助于加快原发性患者样本中的药物组合试验,并可以广泛适用于各种生物医学问题。
本文目前工作重点为成对药物组合效应预测,在未来的研究中,一旦有足够的高阶剂量反应张量数据可用于预测,将会使用DECREASE模型预测高阶药物组合效应。未来另一个研究方向是评估用于临床应用的药物组合的潜在毒副作用。
Data availability
http://decrease.fimm.fi/data_availability
https://github.com/IanevskiAleksandr/DECREASE/tree/master/210_Novel_Anticancer_combinations
Code availability
http://decrease.fimm.fi/source_code
https://github.com/IanevskiAleksandr/DECREASE