Nat. Commun | 用于全基因组药物重定位的系统网络算法

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun | 用于全基因组药物重定位的系统网络算法

image.png

1. 背景


DNA/RNA测序的最新进展实现了通过“精确”定位个性化疾病模块来快速识别新靶标并重新利用已批准的药物治疗异质性疾病。基因组学时代,药物开发已成为高度集成的系统性问题,互补多组学与计算方法成为新的研究范式,由于基因组学和系统生物学最新技术和计算方式的进步,使得利用导致人类疾病的癌症类型特异性机制来识别新靶向药物与治疗药物成为可能。基于网络的方法通过度量药物靶标与人类蛋白相互作用组中疾病蛋白的接近度,为药物重新定位靶标和联合疗法提供了可能性。


为了利用基因组信息实现个性化药物重定位,凯斯西储大学Cheng课题组开发了一种全基因组定位系统网络(GPSnet)算法,通过针对特定患者的DNA和RNA测序图谱的特异性靶标,获取疾病模块来重新利用药物。Cheng课题组研究了来自癌症基因组图谱的15种癌症类型,约5000名患者的全外显子组测序和转录组谱。研究表明,GPSnet预测出疾病模块可以预测药物反应,并对140种已批准药物的新适应症进行优先排序。Cheng课题组通过实验验证了已批准的心律不齐和心力衰竭药物ouabain特异性靶向HIF1α/LEO1-mediated细胞代谢途径,在肺腺癌中显示出潜在的抗肿瘤活性。


2. 方法


2.1全外显子组测序数据


Cheng课题组从三个来源下载了患者的正常肿瘤成对体细胞突变数据(1).Elledge Lab website at Harvard University  (2).Sanger website  (3).COSMIC: Catalog of Somatic Mutations in Cancer .为了减少冗余并确保本研究中体细胞突变数据的质量,本研究仅关注上述三个数据集中TCGA肿瘤正常匹配样本体细胞突变,并且从GDC网站下载了15种癌症类型的RNA-seq数据。


2.2构建药物-目标网络


Cheng课题组从六个常用数据源中为FDA批准的药物集成了高质量的药物靶标相互作用,并使用报告的亲和力数据定义了药物靶标相互作用,抑制常数/效价、解离常数、中值有效浓度、中值抑制浓度。从DrugBank数据库,治疗目标数据库和PharmGKB数据库获得了药物-靶标相互作用。


2.3建立人类蛋白质相互作用组


为了构建当前可用的全面的人类蛋白质相互作用组,Cheng课题组建立了15个常用数据库,其中包含多个实验证据与内部系统的人类蛋白质相互作用组。


2.4GPSnet模型简介


GPSnet算法包含两个主要部分,癌症类型特异性疾病模块识别与计算药物再利用。疾病模块应该与从RNA-seq序列中衍生出的共表达癌症类型蛋白质相互作用网络高度相关,其中疾病模块中的基因应倾向为高度突变的基因,通过随机搜索方法来识别GPSnet中的疾病模块。


首先对每一种癌症类型中的每一个基因i初始化一个分数,其中,是在相应的癌症类型中基因的突变频率,是基因中cDNA的长度,为了消除稀疏的体细胞突变数据的影响,使用网络平滑方法在整个网络上传输分数。其次,重新启动随机行走过程(RWR)用于计算平滑基因得分,随机游走开始于基因i,随机游走将有的概率随机移动到基因i的邻居基因,或者在每个迭代时间步中有概率回到原来的出发的基因i,其中是随机游走过程中的驱动重启概率。研究中使用来平衡度偏差,t时间步的向量分数与传播过程定义如下:

image.png

(1)

其中是每个基因初始化分数向量,是转移矩阵,如果基因i与基因j有相互作用则,如果没有则,其中是网络中基因j的邻居节点数,传播过程的理论解是:

image.png

(2)


其中向量中第i个元素是基因i中的平滑分数。


识别出的疾病模块定义为特定癌症类型共表达PPI网络中的一个子图,模块M的分数根据式(2)计算,其中m代表模块M中基因的数据量,是对应癌症类型的整个基因集的平均得分。以下步骤用于执行随机搜索过程以生成原始模块。最初,随机选择一个基因作为“种子”基因。


在人类蛋白质相互组中,使用表示模块M中相互作用的基因集。对于每一个属于集合中的基因i,使用式(4)计算其在特定癌症类型PPI网络中的连接度

image.png

(3)

image.png

(4)


对于每一属于集合的基因i,如果其基因i被添加到模块中,通过式(5)计算器扩展模块分数,重复搜索步骤,直到没有更多的基因可以添加到相应的模块中,从而获得一个原始模块。这项研究中,Cheng课题组为每种癌症类型构建了大约60000个原始模块,使用这样的方式,人类蛋白质交互作用网络的每一个基因被随机选择了五次。删除了少于10个基因的原始模块,并收集了得分最高的前1%的模块(约300个)。通过计算每个基因出现在这些模块中的次数来表明基因的可信度。最后,选择了基因置信度值大于0.5%的基因,在特定癌症类型特异性共表达PPI网络中,将这些基因中最大的连接元件组装起来,作为每种癌症类型的最终疾病模块。

image.png

(5)


2.5药物基因组学模型


Cheng课题组从GDSC数据库下载了癌细胞株中基因批量表达谱和药物反应数据.使用默认参数与线性核的LIBSVM R软件包构建回归模型,预测药物的IC 50值。


2.6基因集富集分析(GSEA)


Cheng课题组从Connectivity Map中收集药物基因标签。CMap包含来自于培养的人类细胞株的7000多种基因表达谱,在不同浓度下,这些人类细胞株用不同的生物活性小分子进行了处理,总共涵盖6100个个体。因此,CMap提供了针对给定探测集差异表达程度的度量。幅度(a)定义公式(6)所示,其中t是药物治疗组的标度和阈值平均差值,c是对照组的阈值平均差值,因此,a = 0表示无差异表达,a> 0表示治疗后表达增加,而a <0表示治疗后表达减少。


image.png

(6)

 

2.7网络邻近度

给定疾病蛋白集S与药物靶标集T,,在人类蛋白质相互组中,结点s与最接近疾病蛋白t之间的平均最短路径长度定义为最近的距离 测得的最接近距离d(s,t),表达式(7)式:

image.png

(7)


为了评估药物与特定疾病之间网络距离的重要性,研究人员构建了一个参考距离分布,在网络中,该距离分布与原始疾病蛋白和药物靶标大小和程度分布相同的两组随机选择的蛋白之间的预期距离相对应。


2.8途径富集分析


Cheng课题组使用ClueGO对经典KEGG途径中基因进行了富集分析。


2.9.细胞培养


所有细胞均在37°C热氧化碳浓度在5%的潮湿培养箱中培养。NSCLC细胞株A549,H522,H596,H1975,HCC827和PC9从American Type Culture Collection 获得,并在Roswell Park Memorial Institute (RPMI) 1640 Medium培养基中培养,培养基中添加了10%胎牛血清(FBS, Gibco)和青霉素链霉素。肺正常细胞株MRC5和WI38获自the Shanghai Cell Bank of the Chinese  Academy of Sciences ,并维持在Eagle最低基本培养基中,该培养基补充了10%胎牛血清(FBS,Gibco)和青霉素- 链霉素。对细胞系株进行支原体检测测试,并通过短串联重复序列(STR)进行鉴定。


2.10细胞活力测定


以3000–5000个细胞每孔的接种方式,将细胞接种到96孔板中12 小时,然后与所示化合物培育48 小时。根据相关协议,使用Promega的CellTiter 96 AQueous One Solution检测细胞活力。使用Graphpad Prism 7从剂量反应曲线计算的值。


2.11菌落形成


将A549或H522细胞以每孔1500个细胞的密度接种到6孔板中,加入2 ml的1640培养基中,其中添加了10%FBS和青霉素链霉素。细胞粘附后,将不同浓度的ouabain与细胞结合。每2天更换一次培养基,7天后,将菌落固定在4%多聚甲醛中,并用0.2%结晶紫染色。


2.12免疫印迹和抗体


用含有100 mM Tris-HCl、150 mM NaCl、1 mM EDTA、0.1%SDS、1%脱氧胆酸钠、1%Triton X-100蛋白酶抑制剂与磷酸酶抑制剂的混合溶液溶解细胞。使用BCA测定蛋白质浓度。将等量的蛋白质样品在SDS聚丙烯酰胺凝胶电泳上电泳,并转移到硝酸纤维素膜上。将膜在含5%BSA的TBST中密封,并用一抗和相应的荧光偶联二抗探测。


2.13实时定量PCR(RT-qPCR)


根据相关协议,使用Trizol试剂分离总RNA。cDNA的合成使用ReverTra Ace qPCR RT Master Mix进行。使用SYBR Green Real-Time PCR Master Mixs在CFX-96TM上进行qPCR反应。检测每个基因的量并通过GAPDH量进行归一化。


2.14转录因子网络分析


Cheng课题组从之前的两项研究中收集719个据报道的HIF1A转录因子靶标。为检查HIF1A转录因子在LUAD中的潜在功能,研究人员利用LUAD患者肿瘤样品中RNA-seq读数计数数据与DESeq2数据中TCGA匹配正常样品进行比较,计算719个基因的差异表达。研究人员使用调整后的P-value<0.05来定义差异表达基因。


2.15代谢物丰度与基因表达的相关性


Cheng课题组从先前的研究中收集了在约70个NSCLC细胞株中测试的丝氨酸或甘氨酸的丰度。接下来,研究人员从CCLE数据库中收集了NSCLC细胞株的全基因组基因表达谱。代谢物丰度与基因表达水平之间相关性通过Pearson相关系数计算,P-value用R平台F-statistics计算(v3.01, http://www.r-project.org/)


2.16组织特定子网分析


Cheng课题组从GTEx V6(https://gtexportal.org/home/)下载了32个组织的RNA-seq数据(RPKM值)。对于每个组织(例如,肺),研究人员将超过80%样本中RPKM≥1的基因视为组织表达基因,其余基因视为组织未表达的基因。为了量化组织表达基因i在组织t中的表达意义,研究人员计算了在所有考虑的组织中,该基因的平均表达和标准差,基因表达在组织t中的重要性定义为。对于LUAD,研究人员通过将肺与GTEx中其他31种不同组织全基因组表达谱进行比较,建立了肺特异性蛋白质相互作用网络。


2.17生存分析


Cheng课题组下载了226种人类原发性I–II期肺腺癌的微阵列数据和生存概况。根据归一化表达水平,将患者分为前50%低表达(蓝色)组和前50%高表达(红色)组。使用GraphPad Prism 7软件中log-rank test确定Kaplan–Meier生存分析的P-value。


2.18统计分析


研究中的数据是从至少三个独立的实验中获得,不同实验组中所有数据均表示平均值±平均值的标准误差。使用Student’s t-test和P-values分析了两组之间的差异。当P<0.05时,认为具有统计学意义,本研究使用GraphPad Prism 7软件进行统计分析。


3. 结果


3.1  基于GPSnet识别癌症类型特异性疾病模块


Cheng课题组通过将患者全外显子组测序和RNA-seq数据反复整合到人类蛋白相互作用组中,计算确定所有15种癌症类型的最终癌症类型特异性疾病模块,如图1所示。

image.png

图1.基于GPSnet网络发现硅基药物再利用流程


3.2  基于GPSet识别新药物基因组学生物标志


为了研究GPSnet网络潜在药物基因组学应用,Cheng课题组从癌症药物敏感性基因组学(GDSC)数据库17下载了1065个细胞株的健壮多阵列(RMA)基因表达谱和药物反应数据。Cheng课题组根据GPSnet网络识别的疾病模块的RMA基因表达谱为特征,构建回归模型,对三种特定的癌症(BRCA, LUAD,SKCM),进行药物反应预测。基于多种因素的专业知识,集中研究了这三种癌症类型的7种药物,其AUC性能指标如图2所示。


image.png

图2.基于gpsnet网络预测的疾病模块药物基因组学验


3.3  基于GPSnet疾病模块的药物高可吸收性


相较于传统的统计学方法SMG,基于GPSnet网络预测模基因产物更有可能被批准的药物或临床试验药物的靶向目标,图3.在两种特殊的癌症中基GPSnet识别的疾病模块药物目标富集分析。


image.png

图3.在两种特殊的癌症中基于GPSnet识别的疾病模块药物目标富集分

 

3.4  基于GPSnet发现已批准药物的新适应症状

研究使用了网络距离法与基因集合富集分析法验证在已批准药物中识别的新的适应症,结果如4所示

image.png

图4.基于网络的有机硅药物再利用与实验验

 

3.5  Ouabain在NSCLC细胞中抑制HIF1α/LEO1路径

Cheng课题组通过在肺特异性人类蛋白质相互作用组的网络分析,研究了药物ouabain在NSCLC中的作用机制。结果如图5所示

image.png

图5.网络的实验验证药物ouabain在NSCLC的作用机制


4. 结论


本研究提供了一种基于网络的药物再使用方法,并通过实验验证了ouabain与 niclosamide作为治疗NSCLC的潜在药物是有效的,并且Cheng课题组通过实验发现药物ouabain的作用目标是NSCLC细胞中蛋白质HIF1α/LEO1-mediated 细胞代谢路径,GPSnet是一种基于网络的方法,集成了大规模患者DNA/RNA-seq数据与人类蛋白质相互组数据,在癌症和其他疾病领域有望能够加速药物靶向识别与药物开发的过程。

Data availability

http://ccsb.dana-farber.org/interactome-data.html.

 

Code availability

thttps://github.com/ChengF-Lab/GPSnet.

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
130 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
2月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
348 55
|
2天前
|
算法
基于电导增量MPPT控制算法的光伏发电系统simulink建模与仿真
本课题基于电导增量MPPT控制算法,使用MATLAB2022a的Simulink进行光伏发电系统的建模与仿真,输出系统电流、电压及功率。电导增量调制(IC)算法通过检测电压和电流变化率,实时调整光伏阵列工作点,确保其在不同光照和温度条件下始终处于最大功率输出状态。仿真结果展示了该算法的有效性,并结合PWM技术调节逆变流器占空比,提高系统效率和稳定性。
|
2月前
|
存储 缓存 监控
局域网屏幕监控系统中的Python数据结构与算法实现
局域网屏幕监控系统用于实时捕获和监控局域网内多台设备的屏幕内容。本文介绍了一种基于Python双端队列(Deque)实现的滑动窗口数据缓存机制,以处理连续的屏幕帧数据流。通过固定长度的窗口,高效增删数据,确保低延迟显示和存储。该算法适用于数据压缩、异常检测等场景,保证系统在高负载下稳定运行。 本文转载自:https://www.vipshare.com
132 66
|
24天前
|
存储 监控 算法
内网监控系统之 Go 语言布隆过滤器算法深度剖析
在数字化时代,内网监控系统对企业和组织的信息安全至关重要。布隆过滤器(Bloom Filter)作为一种高效的数据结构,能够快速判断元素是否存在于集合中,适用于内网监控中的恶意IP和违规域名筛选。本文介绍其原理、优势及Go语言实现,提升系统性能与响应速度,保障信息安全。
28 5
|
1月前
|
算法
基于爬山法MPPT最大功率跟踪算法的光伏发电系统simulink建模与仿真
本课题基于爬山法MPPT算法,对光伏发电系统进行Simulink建模与仿真。使用MATLAB2022a版本,通过调整光伏电池的工作状态以实现最大功率输出。爬山法通过逐步优化工作点,确保光伏系统在不同条件下均能接近最大功率点。仿真结果显示该方法的有效性,验证了模型的正确性和可行性。
|
2月前
|
监控 算法 JavaScript
基于 Node.js Socket 算法搭建局域网屏幕监控系统
在数字化办公环境中,局域网屏幕监控系统至关重要。基于Node.js的Socket算法实现高效、稳定的实时屏幕数据传输,助力企业保障信息安全、监督工作状态和远程技术支持。通过Socket建立监控端与被监控端的数据桥梁,确保实时画面呈现。实际部署需合理分配带宽并加密传输,确保信息安全。企业在使用时应权衡利弊,遵循法规,保障员工权益。
51 7
|
2月前
|
存储 算法 Python
文件管理系统中基于 Python 语言的二叉树查找算法探秘
在数字化时代,文件管理系统至关重要。本文探讨了二叉树查找算法在文件管理中的应用,并通过Python代码展示了其实现过程。二叉树是一种非线性数据结构,每个节点最多有两个子节点。通过文件名的字典序构建和查找二叉树,能高效地管理和检索文件。相较于顺序查找,二叉树查找每次比较可排除一半子树,极大提升了查找效率,尤其适用于海量文件管理。Python代码示例包括定义节点类、插入和查找函数,展示了如何快速定位目标文件。二叉树查找算法为文件管理系统的优化提供了有效途径。
64 5
|
2月前
|
存储 监控 算法
企业内网监控系统中基于哈希表的 C# 算法解析
在企业内网监控系统中,哈希表作为一种高效的数据结构,能够快速处理大量网络连接和用户操作记录,确保网络安全与效率。通过C#代码示例展示了如何使用哈希表存储和管理用户的登录时间、访问IP及操作行为等信息,实现快速的查找、插入和删除操作。哈希表的应用显著提升了系统的实时性和准确性,尽管存在哈希冲突等问题,但通过合理设计哈希函数和冲突解决策略,可以确保系统稳定运行,为企业提供有力的安全保障。
|
2月前
|
机器学习/深度学习 前端开发 算法
婚恋交友系统平台 相亲交友平台系统 婚恋交友系统APP 婚恋系统源码 婚恋交友平台开发流程 婚恋交友系统架构设计 婚恋交友系统前端/后端开发 婚恋交友系统匹配推荐算法优化
婚恋交友系统平台通过线上互动帮助单身男女找到合适伴侣,提供用户注册、个人资料填写、匹配推荐、实时聊天、社区互动等功能。开发流程包括需求分析、技术选型、系统架构设计、功能实现、测试优化和上线运维。匹配推荐算法优化是核心,通过用户行为数据分析和机器学习提高匹配准确性。
170 3

热门文章

最新文章