1. 研究背景
预测癌症患者对癌症药物的反应是精准医疗的重要问题。由于花大量的时间与金钱完成大批量癌症患者与药物之间反应的实验验证是不切实际的,业界非常期待一种基于癌细胞株的大规模药物基因组学临床前预测模型的出现,然而,大多数现有研究主要基于癌细胞的基因组相似性,忽略了基因之间的关系,导致不能很好的预测细胞株的药物反应。
中国科学技术大学的李骜研究团队提出一种名为NRL2DRP的新方法,该方法通过细胞株多组学数据构建细胞株-蛋白网络,并整合药物-细胞株网络,蛋白质-蛋白质相互作用(PPI)网络,构建细胞株-药物-蛋白质网络。然后通过网络表示学习方法(LINE)预测药物与细胞株之间的响应。
2. 方法(NRL2DRP)
2.1数据获取与网络融合
研究团队从GDSC数据库中获取药物反应与基因表征数据,从iRefIndex 数据库中获取PPI网络数据,在数据库GDSC中,基于IC50标签,选用了体细胞突变、拷贝数变异(CNV)、超甲基化谱、癌症功能事件(CFEs)四个维度的数据信息。通过将CFEs信息映射到相应的基因上,分别从体细胞突变中获取310个突变基因,CNV中获取211个突变基因,超甲基化状态信息中获取352个突变基因,并将这741突变基因与细胞株整合后再与PPI网络整合构成分子谱网络。然后,抽取出24036对药物与细胞敏感性关系构成药物-细胞株响应网络,最后将分子谱网络与药物-细胞株响应网络融合构成大规模响应相关网络。
2.2 LINE表示学习与SVM二分类
NRL2DRP方法使用LINE二阶相似度表示学习方法将整合的网络映射到低维空间中形成特征向量,特征向量保留了网络拓扑中拥有相似邻居的节点具有空间相似性的属性。并使用SVM基于低维特征进行二分类,实现药物与细胞株敏感性关系预测,图1所示,灰色框代表大规模响应相关网络以及其融合之前的网络,蓝色框代表大规模响应相关网络经过LINE二阶相似度表示学习方法压缩后的低维特征向量空间。黄色框代表SVM分类器。
图1 NRL2DRP方法流程
3. 实验结果
3.1 NRL2DRP假设验证
NRL2DRP方法的核心假设是对于给定的预测药物而言,在表示学习压缩的细胞株响应网络特征向量空间中,敏感型细胞株的特征向量相互之间的距离会更加接近,图2中展示了基于药物TG101348作用细胞株后,敏感型细胞株与排斥型细胞株在6维特征空间中的分布情况,红色代表敏感型细胞株,蓝色代表排斥型细胞株,从图3中可以看出,在特征1与特征4组成的特征空间中(图中绿色框),特征2与特征4组成的特征空间中(图中绿色框),红色敏感型细胞株的特征向量表现出了聚类现象,验证NRL2DRP方法的核心假设。
图2 六维向量空间中细胞株对药物TG101348的响应
3.2 三种方法性能对比
基于GDSC数据集中所有265种药物,分别测试了NRL2DRP、Stanfield、KBML三种方法的性能,其中图3显示NRL2DRP方法的AUC、AURP指标均优于Stanfield、KBML方法,其中基于NRL2DRP方法,一半药物的AUC指标大于0.7908,25%的药物AUC指标大于0.864。
图3 三种方法AUC、AUPR箱型图
3.3 基于特定组织条件下性能比较
为了验证NRL2DRP方法在特定组织下药物与细胞株反应的AUC指标表现,抽取数据集GDSC中三类特定的组织类型数据进行测试,如图4所示,图A显示是测试选定分析的三种特定组织细胞类别,图B显示了NRL2DRP、Stanfield方法基于特定组织细胞类别数据下AUC指标对比 ,图C显示了NRL2DRP方法基于一种特定组织细胞列别数据与全部组织细胞类别数据构建模型的AUC指标对比。
图4 在特定组织中NRL2DRP方法性能
3.4 发现药物与细胞株敏感性新关系
NRL2DRP方法能够发现GDSC数据集中没有标注的药物与细胞株敏感性之间的关系,并通过相关文献确认这种关系的有效性,表1显示了NRL2DRP方法基于两种药物预测出可能存在敏感性的细胞株前十的排序,其中粗体标识的细胞株敏感性与药物之间的关系可以通过相关文献得到验证。
表1 基于两种药物预测的TOP 10敏感细胞株
4. 结论
在本文的研究工作中,研究团队设计了一种称为NRL2DRP的方法,该方法基于数据集GDSC,把细胞株遗传畸变信息、PPI网络信息、药物细胞反应模式信息整合在一起,使用LINE二阶相似度表示学习方法对整个网络拓扑局部结构相似性信息进行压缩获取特征向量,并基于5折交叉验证法训练一个SVM模型进行二分类,实现药物与细胞株敏感性预测。通过与Stanfield、KBML两种方法比较,基于数据集GDSC进行大量实验,通过实验结果确定了该方法的有效性与鲁棒性。
5. 改进
1.NRL2DRP方法使用了细胞株中多个维度的组织学信息,但是仍然有其他有意义的信息没有使用,例如:
药物结构信息,药物—靶标相互作用,基因表达谱等。
2.NRL2DRP方法构建的是各项同性的网络,没有考虑网络内部数据的异质性。
Code availability
https://github.com/USTC-HIlab/NRL2DRP