Bioinformatics|癌症细胞系的用药反应预测

简介: Bioinformatics|癌症细胞系的用药反应预测

image.png

1. 研究背景


预测癌症患者对癌症药物的反应是精准医疗的重要问题。由于花大量的时间与金钱完成大批量癌症患者与药物之间反应的实验验证是不切实际的,业界非常期待一种基于癌细胞株的大规模药物基因组学临床前预测模型的出现,然而,大多数现有研究主要基于癌细胞的基因组相似性,忽略了基因之间的关系,导致不能很好的预测细胞株的药物反应。


中国科学技术大学的李骜研究团队提出一种名为NRL2DRP的新方法,该方法通过细胞株多组学数据构建细胞株-蛋白网络,并整合药物-细胞株网络,蛋白质-蛋白质相互作用(PPI)网络,构建细胞株-药物-蛋白质网络。然后通过网络表示学习方法(LINE)预测药物与细胞株之间的响应。


2. 方法(NRL2DRP)


2.1数据获取与网络融合


研究团队从GDSC数据库中获取药物反应与基因表征数据,从iRefIndex 数据库中获取PPI网络数据,在数据库GDSC中,基于IC50标签,选用了体细胞突变、拷贝数变异(CNV)、超甲基化谱、癌症功能事件(CFEs)四个维度的数据信息。通过将CFEs信息映射到相应的基因上,分别从体细胞突变中获取310个突变基因,CNV中获取211个突变基因,超甲基化状态信息中获取352个突变基因,并将这741突变基因与细胞株整合后再与PPI网络整合构成分子谱网络。然后,抽取出24036对药物与细胞敏感性关系构成药物-细胞株响应网络,最后将分子谱网络与药物-细胞株响应网络融合构成大规模响应相关网络。


2.2 LINE表示学习与SVM二分类


NRL2DRP方法使用LINE二阶相似度表示学习方法将整合的网络映射到低维空间中形成特征向量,特征向量保留了网络拓扑中拥有相似邻居的节点具有空间相似性的属性。并使用SVM基于低维特征进行二分类,实现药物与细胞株敏感性关系预测,图1所示,灰色框代表大规模响应相关网络以及其融合之前的网络,蓝色框代表大规模响应相关网络经过LINE二阶相似度表示学习方法压缩后的低维特征向量空间。黄色框代表SVM分类器。

image.png

图1 NRL2DRP方法流程


3. 实验结果


3.1 NRL2DRP假设验证


NRL2DRP方法的核心假设是对于给定的预测药物而言,在表示学习压缩的细胞株响应网络特征向量空间中,敏感型细胞株的特征向量相互之间的距离会更加接近,图2中展示了基于药物TG101348作用细胞株后,敏感型细胞株与排斥型细胞株在6维特征空间中的分布情况,红色代表敏感型细胞株,蓝色代表排斥型细胞株,从图3中可以看出,在特征1与特征4组成的特征空间中(图中绿色框),特征2与特征4组成的特征空间中(图中绿色框),红色敏感型细胞株的特征向量表现出了聚类现象,验证NRL2DRP方法的核心假设。

image.png

图2 六维向量空间中细胞株对药物TG101348的响应


3.2 三种方法性能对比


基于GDSC数据集中所有265种药物,分别测试了NRL2DRP、Stanfield、KBML三种方法的性能,其中图3显示NRL2DRP方法的AUC、AURP指标均优于Stanfield、KBML方法,其中基于NRL2DRP方法,一半药物的AUC指标大于0.7908,25%的药物AUC指标大于0.864。

image.png

图3 三种方法AUC、AUPR箱型图


3.3 基于特定组织条件下性能比较


为了验证NRL2DRP方法在特定组织下药物与细胞株反应的AUC指标表现,抽取数据集GDSC中三类特定的组织类型数据进行测试,如图4所示,图A显示是测试选定分析的三种特定组织细胞类别,图B显示了NRL2DRP、Stanfield方法基于特定组织细胞类别数据下AUC指标对比 ,图C显示了NRL2DRP方法基于一种特定组织细胞列别数据与全部组织细胞类别数据构建模型的AUC指标对比。

image.png

图4 在特定组织中NRL2DRP方法性能


3.4 发现药物与细胞株敏感性新关系


NRL2DRP方法能够发现GDSC数据集中没有标注的药物与细胞株敏感性之间的关系,并通过相关文献确认这种关系的有效性,表1显示了NRL2DRP方法基于两种药物预测出可能存在敏感性的细胞株前十的排序,其中粗体标识的细胞株敏感性与药物之间的关系可以通过相关文献得到验证。

image.png

表1 基于两种药物预测的TOP 10敏感细胞株


4. 结论


在本文的研究工作中,研究团队设计了一种称为NRL2DRP的方法,该方法基于数据集GDSC,把细胞株遗传畸变信息、PPI网络信息、药物细胞反应模式信息整合在一起,使用LINE二阶相似度表示学习方法对整个网络拓扑局部结构相似性信息进行压缩获取特征向量,并基于5折交叉验证法训练一个SVM模型进行二分类,实现药物与细胞株敏感性预测。通过与Stanfield、KBML两种方法比较,基于数据集GDSC进行大量实验,通过实验结果确定了该方法的有效性与鲁棒性。


5. 改进


1.NRL2DRP方法使用了细胞株中多个维度的组织学信息,但是仍然有其他有意义的信息没有使用,例如:


药物结构信息,药物—靶标相互作用,基因表达谱等。


2.NRL2DRP方法构建的是各项同性的网络,没有考虑网络内部数据的异质性。



Code availability


https://github.com/USTC-HIlab/NRL2DRP


目录
相关文章
|
机器学习/深度学习
乳腺肿瘤预测
本案例使用逻辑回归分类器对乳腺肿瘤进行良性/恶性预测,并对预测模型进行指标测算与评价。
302 0
乳腺肿瘤预测
|
6月前
|
存储 机器学习/深度学习 数据采集
基于LightGBM的肺癌分类模型:从预测到个体化治疗
基于LightGBM的肺癌分类模型:从预测到个体化治疗
252 1
|
机器学习/深度学习 算法 数据挖掘
高血压疾病预测模型构建研究与应用
高血压疾病预测模型构建研究与应用。
199 0
|
存储 运维 搜索推荐
基因检测,如何帮助患者对抗疾病?
云上高性能计算EHPC助力圣庭医疗提升基因检测效率,为患者提供更多精准化医疗方案。
基因检测,如何帮助患者对抗疾病?
|
机器学习/深度学习 Dart API
ML之Xgboost:利用Xgboost模型对数据集(比马印第安人糖尿病)进行二分类预测(5年内是否患糖尿病)
ML之Xgboost:利用Xgboost模型对数据集(比马印第安人糖尿病)进行二分类预测(5年内是否患糖尿病)
ML之Xgboost:利用Xgboost模型对数据集(比马印第安人糖尿病)进行二分类预测(5年内是否患糖尿病)
心脏病预测案例
心脏病是人类健康的头号杀手。全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病。 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用。本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案例。<br />数据源:UCI<br />数据大小:7.49 KB<br />字段数量:15<br />使用组件:归一化,拆分,过滤式特征选择,SQL脚本,读数据表,类型转换<br />
2870 0
癌症免疫系列(1)
用自然杀伤细胞对抗癌症 癌症免疫疗法使患者自身的免疫系统能够攻击和缩小肿瘤,近年来已经走过了漫长的道路,在某些情况下导致了广泛传播的癌症治疗。但是免疫学的新见解仍在被揭示,可能提供更大的治疗潜力。
1254 0
癌症免疫系列(5)
2017年2月2日,美国食品和药物管理局(FDA)批准nivolumab(Opdivo®)加速批准治疗一些尿路上皮癌,这是最常见的膀胱癌患者。这使得nivolumab成为第二种免疫检查点抑制剂,被批准用于治疗膀胱癌。
1203 0
癌症免疫系列(2)
FDA改变批准使用两种检查点抑制剂治疗膀胱癌 Several drugs that target immune checkpoint proteins like PD-1 and PD-L1 are approved to treat bladder cancer.
1090 0