DSN-DDI:双视图表征学习实现药物间相互作用预测性能突破(2)

简介: DSN-DDI:双视图表征学习实现药物间相互作用预测性能突破

2.2 隐形药品诱导设置的性能评价


本文随机选取 20% 的药物作为未知药物,其余药物作为现有药物。训练集上的所有阳性和阴性样本均为 DDI 三联体,其中两种药物均为现有药物,使用两种划分方案对测试集进行划分:


  • S1 分区方案:测试集上的阳性样本和阴性样本均有两种未知药物。该任务是预测训练集中一对没有已知副作用的新药与其他药物组合的 DDI。
  • S2 划分方案:测试集上的阳性样本和阴性样本各有一种未知药物和一种已知药物。这项任务是预测一种新药的 DDI,该新药与另一种现有药物的任何组合都没有作用。


与最先进的算法相比,DSN-DDI 在所有评估指标上都取得了最好的性能,与转导设置的性能相似。值得注意的是,本文的算法在很大程度上优于次优算法,例如,在 S1 和 S2 分区上,AUC 分别相对提高了 9.11% 和 7.27%。这些结果表明,DSN-DDI 不仅考虑单个药物的结构,而且从药物对中学习相互作用,这极大地弥补了未知药物先验知识和交互信息的不足。


2.3 消融研究的有效性模型设计


本文在 DSN-DDI 中设计了两组关于局部水平和全局水平表征学习的消融研究,评估了 DSN-DDI 的三个变体在局部水平表征学习中的关键成分。DSN-DDI 及其五个变体在 Twosides 数据集以及 DrugBank 数据集上的性能评估如下:


DSN-DDI 及其 5 种变体在 Twosides 数据集上用于转导设置的性能评估


DSN-DDI 及其五个变体在 DrugBank 数据集上的性能评估


DSN-DDI 及其五个变体在 DrugBank 数据集上归纳设置的性能评估


双侧数据集上 DSN-DDI 及其五种变体的归纳设置性能评价


完整的 DSN-DDI 架构优于所有变体,这表明所有提议模块的有效性。综上所述,DSN-DDI 中用于两级表示学习的所有组件都有助于 DDI 预测,而局部级表示学习中设计的新操作更有用。


2.4 真实的 DDI 应用


为了验证 DSN-DDI 在真实世界 DDI 应用中的有效性,本研究利用已有的旧药物信息训练模型,对 FDA 新批准的药物进行 DDI 预测。本文收集了 DrugBank 数据集中所有药物的 FDA 药品批准信息,并根据 2017 年之前或之后的药品批准日期将其分为两部分。包含两种旧药物的 DDI 三联体构成训练集,而包含至少一种新药物的其余 DDI 三联体被招募到测试集。


药物库新药申请数据的统计


本文使用相同的超参数训练和评估 DSN-DDI。此外,本文从上述性能评估中选取了三种最先进的 DDI 预测算法 ——SSI-DDI, GMPNNN-CS 和 SA-DDI 进行比较。这三种算法用它们的默认超参数在相同的数据集上重现。DSN-DDI 在 ACC、AUROC、AP 和 F1 这四个指标上都显著优于 SSI-DDI、GMPNN-CS 和 SA-DDI。这些结果巩固了 DSN-DDI 捕获了不同药物之间相互作用的广义信息,因此适用于新批准的药物。


DSN-DDI 的 ROC 曲线下面积和 PR 曲线下面积均显著大于 SSI-DDI、GMPNN-CS 和 SA-DDI,表明 DSN-DDI 可以很好地区分 DDI 的正向效应和负向效应。


2.5 模型对协同药物联合预测的可移植性


本文选择了一个包含 12,415 个独特的药物对 - 细胞组合的平衡基准数据集进行评估。它由 36 种抗癌药物和 31 种人类癌细胞系组成。本文进行了 5 折交叉验证,以评估本文的模型的性能。在模型训练方面,本文采用 DDI 预测中相同的超参数和配置训练 DSN-DDI 用于药物组合预测。本文选择了三种基于机器学习的算法,即随机森林 (RF),梯度提升机器 (GBM) 和 Adaboost,以及四种最先进的基于深度学习的算法,即 TranSynergy,深度张量因子分解 (DTF),DeepSynergy 和 DeepDDS 进行比较。


与其他最先进的算法相比,DSN-DDI 在 AUC 和平衡精度方面的表现最好,表明其具有出色的药物组合预测能力。由于双视图信息传递机制,DSN-DDI 可以充分利用嵌入在单药和药物对中的信息,并与相应的细胞系建立可靠的连接,并在药物组合预测方面仍表现良好。结果证明,本文的模型对以药物对为输入的任务具有良好的可转移性。此外,DSN-DDI 中的见解和新设计的模块可应用于更多的二体相互作用问题,如药物 - 靶点相互作用预测、蛋白质 - 蛋白质相互作用预测等。


2.6  5 个 DDI 案例


本文提取并说明了 5 个 DDI 案例中具有重要原子的有效子结构,通过 SAGpooling 操作获得了每个区组中药物的每个原子的贡献分数。DSN-DDI 学到的这些原子聚集到药物化学结构的某些特定区域,形成稳定的亚结构。因此,DSN-DDI 对所有 5 个病例都做出了几乎完美的预测 (即预测得分超过 0.99)。



为了进一步探索 DSN-DDI 生成的子结构的可解释性,本文提取并说明了双香豆素和其他 5 种药物之间具有重要原子的有效子结构。通过使用相同的可视化方法,本文确定了 5 个 DDI 的重要节点和有效子结构。


值得注意的是,DSN-DDI 在 5 例患者中分别提取了戊巴比妥、氨巴比妥、司可巴比妥、嘧啶酮和甲基苯巴比妥等相似的有效亚结构,即巴比妥酸。前期研究表明,具有巴比妥酸亚结构的药物可以增强人肝微粒体的活性,从而降低双香豆素的疗效。因此,DSN-DDI 获得的这些重要的原子和子结构与实验和药理学结果有很好的一致性。


3. 总结


在这项工作中,本文提出了一个双视角子结构学习框架,用于预测药物对可能的多重副作用。综合实验证实了 DSN-DDI 在转导和感应状态下的 DDI 预测方面的最新性能。DSN-DDI 的双侧正确率为 13.01%,与目前最先进的方法相比有显著的提高。更重要的是,DSN-DDI 在更具挑战性的归纳场景中取得了显著的性能提升,与次优算法相比,在 S1 分区方案上平均提高了 7.07%,在 S2 分区方案上平均提高了 5.40%。通过在每种药物中进行 “intra-view” 消息传递,以及在两种药物之间进行 “inter-view” 消息传递,本文展示了在子结构表示学习中,将联合药物 - 药物信息集成到 DDI 预测中的能力。未来的研究可以进一步提高新药模型在归纳学习环境下的泛化能力,使其接近真实世界中新药存在且之前没有任何相关药物相互作用的情景。

相关文章
|
10月前
|
自然语言处理 测试技术 计算机视觉
ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
150 2
|
4月前
|
机器学习/深度学习 人工智能
大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力
中国人民大学刘勇团队研究了合成数据对大型语言模型泛化能力的影响,提出逆瓶颈视角,通过“通过互信息的泛化增益”(GGMI)概念,揭示了后训练模型的泛化能力主要取决于从生成模型中获得的信息增益。这一发现为优化合成数据生成和后训练过程提供了重要理论依据。
105 1
|
8月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
125 5
|
10月前
|
机器学习/深度学习 数据可视化 算法
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
|
10月前
|
机器学习/深度学习 数据可视化
数据分享|R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据
数据分享|R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据
|
10月前
多水平模型、分层线性模型HLM、混合效应模型研究教师的受欢迎程度
多水平模型、分层线性模型HLM、混合效应模型研究教师的受欢迎程度
|
10月前
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
|
10月前
|
算法 数据挖掘 关系型数据库
有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据
有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据
|
10月前
|
数据可视化
R语言时变面板平滑转换回归模型TV-PSTR分析债务水平对投资的影响
R语言时变面板平滑转换回归模型TV-PSTR分析债务水平对投资的影响
|
10月前
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状