23年9月发表,工作量叠满:线粒体+PCD+多组学+机器学习+泛癌

简介: **摘要:**一项发表在《Journal of Translational Medicine》(IF=7.4)的研究聚焦于低级别胶质瘤(LGG),通过集成机器学习分析线粒体功能与18种细胞死亡模式的交互,开发了一种名为mtPCDI的预后指数。该模型基于1467例全球多中心LGG患者的基因表达数据,揭示了线粒体功能与预后及免疫代谢特征的关联。mtPCDI高分组表现出代谢途径增强和免疫活性,且在调整混杂因素后,其预后价值超过传统临床模型。研究结果强调mtPCDI在个性化风险评估和治疗策略制定中的潜力,并为线粒体介导的细胞死亡研究提供了新视角。

今天给大家分享一篇IF=7.4的非肿瘤线粒体思路的文章,2023年9月发表在Journal of Translational Medicine:Integrated machine learning survival framework develops a prognostic model based on inter-crosstalk definition of mitochondrial function and cell death patterns in a large multicenter cohort for lower-grade glioma,基于线粒体功能与细胞死亡模式之间交互作用定义的集成机器学习生存框架为低级胶质瘤在大型多中心队列中开发了一个预后模型

image.png

摘要

  • 背景:
    低级胶质瘤(LGG)是一种高度异质性的疾病,准确预测患者的预后存在挑战。线粒体在真核细胞的能量代谢中起到中心作用,并可以影响细胞死亡机制,这些机制在肿瘤发生和进展中至关重要。然而,LGG中线粒体功能与细胞死亡之间的相互作用的预后意义还需要进一步研究。
  • 方法:
    我们采用了一个稳健的计算框架,研究了线粒体功能与来自全球六个多中心队列的1467名LGG患者中的18种细胞死亡模式之间的关系。共收集了10种常用的机器学习算法,并随后组合成101个独特的组合。最终,我们使用展现出最佳性能的机器学习模型设计了与线粒体相关的程序性细胞死亡指数(mtPCDI)。
  • 结果:
    由结合了18个高度影响力的基因产生的mtPCDI,对LGG患者的预后具有强烈的预测性能。从生物学上看,mtPCDI与免疫和代谢特征呈现显著的相关性。mtPCDI高的组表现出丰富的代谢途径和增强的免疫活性特征。特别重要的是,即使在调整可能的混杂因素后,我们的mtPCDI仍然保持其作为最有力的预后指标的地位,超过了已建立的临床模型的预测强度。
  • 结论:
    我们利用稳健的机器学习框架强调了mtPCDI在为LGG诊断的个体提供个性化风险评估和针对代谢和免疫治疗的定制建议中的重要潜力。特别重要的是,该特征展示了高度影响力的基因,为未来进一步研究PCD在线粒体功能中的作用提供了进一步的前景。

整体框架

image.png

结果

image.png

图 2. mtPCDI的预后意义

  • A 包含18种PCD模式的关键调节基因的收集。
  • B 识别大脑皮层和LGG组织之间差异表达基因的火山图。
  • C 与正常组织相比,LGG肿瘤组织中有134个与线粒体相关的基因和333个与程序性细胞死亡相关的基因表现出差异表达。
  • D mtPCDI使用的机器学习算法是101种不同的组合。随后,为每个数据集计算了每个模型的c指数(E) TCGA-LGG、CGGA-325、CGGA-693、Rembrandt、GSE16011和E-MTAB-3892按mtPCDI的生存曲线。
  • F 每个数据集中1年、3年和5年OS的ROC曲线。

image.png

图 3. mtPCDI签名基因的特征注释

  • A 热图展示了mtPCDI组与临床特征的关系,以及LGG患者中18个最重要基因的表达。
  • B 热图显示了LGG中某基因对途径产生显著影响(FDR≤0.05)的癌症比例,每个单元格代表相应的百分比值。
  • C 泡沫图展示了18个mtPCDI签名基因表达与LGG中24种免疫细胞类型浸润之间的相关性概要。
  • D 热图显示了18个mtPCDI签名基因涉及的基因-途径。
  • E 热图展示了重要途径的富集分数。

image.png

图 4. 多组学特征描述

  • 在(A) mtPCDI-高和(B) mtPCDI-低中的拷贝数放大和删除的重复区域。观察到mtPCDI高和低的LGG患者之间的拷贝数变异不同的轮廓。
  • C-D,高和低mtPCDI子集中1p/19q并发删除的景观。
  • E Oncoprint展示了受常见拷贝数变异影响的基因,每组中的变异对应比例在右侧的条形图中表示。
  • F Oncoprint显示了常见的体细胞基因突变,每组中的突变对应比例在右侧的条形图中表示。
  • G TCGA-LGG数据集中高和低mtPCDI患者的整倍性得分、变化部分、同源重组缺陷、非沉默突变率和片段数的比较。
  • H TMB的高和低mtPCDI亚组的比较。
  • I 突变负荷和mtPCDI的相关分析。
  • J 根据mtPCDI分类的患者的OS Kaplan-Meier曲线。
  • K mtPCDI和TMB分类的OS Kaplan-Meier曲线。

image.png

图 5. mtPCDI组的功能富集分析

  • A mtPCDI组的KEGG和B GO富集分析。
  • 在C, E低mtPCDI D, F和高mtPCDI组中,GSEA富集的前5个途径。

image.png

图 6. mtPCDI签名的功能注解

  • A 已知的临床和分子特征(年龄、性别、分级、化疗状态、放疗状态、IDH1状态、MGMT启动子甲基化状态、1p/19q并发缺失、TERT启动子甲基化状态、TERT表达状态和ATRT状态)与LGG中的mRNAsi之间的关联。
  • B 已知的临床和分子特征(年龄、性别、分级、化疗状态、放疗状态、IDH1状态、MGMT启动子甲基化状态、1p/19q并发缺失、TERT启动子甲基化状态、TERT表达状态和ATRT状态)与LGG中的mDNAsi之间的关联。
  • C mRNAsi与mtPCDI之间的关联,以及两个mtPCDI组之间的mRNAsi差异。
  • D mDNAsi与mtPCDI之间的关联,以及两个mtPCDI组之间的mDNAsi差异。E TIS与mtPCDI之间的关联,以及高和低mtPCDI组之间的TIS差异。
  • F 盒形图描绘了两个mtPCDI组之间的癌症免疫周期的差异。
  • G 雷达图显示了两个mtPCDI组之间的肿瘤浸润免疫细胞。
  • H 条形图显示了肿瘤浸润免疫细胞的相对比例。
  • I 热图展示了与抗癌免疫相关的178个步骤特异性签名基因在七步癌症-免疫周期中所有样本的表达水平。

image.png

图 7. 肿瘤免疫微环境的探索

  • A 通过使用多种算法估算两个mtPCDI亚组之间的免疫浸润细胞。
  • B 估计两个mtPCDI亚组之间的免疫调节分子。
  • C 相关性分析估算免疫浸润细胞的数量。
  • D 相关性分析估算免疫调节化学物质的存在。
  • E 两个mtPCDI组之间浸润免疫细胞的评分差异和F 免疫相关功能。
  • G 两个mtPCDI组的估计得分、免疫得分、基质得分和肿瘤纯度。
  • H 蝴蝶图展示了mtPCDI与浸润免疫细胞以及免疫相关功能之间的相关性。

image.png

图 8. 构建和验证标度图

  • A 单变量和B 多因素分析。
  • C 标度图预测1年、3年和5年的生存率。
  • D 1年、3年和5年OS的标度图校准曲线。
  • E 标度图模型中包含的变量的AUC分析。
  • F 对LGG患者的1年、3年和5年期间的DCA曲线进行了比较。

image.png

图 9. 通过共识聚类描绘了两个不同的LGG簇

  • A, B 对k=2到9的共识聚类CDF。
  • C k=2的共识聚类。
  • D LGG患者在两个亚组中的OS的Kaplan-Meier生存曲线。
  • E 两个不同亚组之间的tSNE分析和PCA分析。
  • F 热图显示了两个不同亚组与LGG患者的临床特征和18个最有价值基因的表达之间的关系。
  • G 两个不同亚组中mtPCDI签名基因表达差异的分析。
  • H 基于ssGSEA算法,两个不同亚组之间的途径活动。

image.png

图 10. 两个不同亚组之间肿瘤的免疫状态

  • A C1和C2亚组中的估计得分、免疫得分、基质得分和肿瘤纯度。
  • B C1和C2亚组中浸润免疫细胞的得分和C 免疫相关功能的得分。
  • D 使用多种算法估算两个不同亚组之间的免疫浸润细胞。
  • E 两个不同亚组之间的免疫调节分子比较。

image.png
图 11. mtPCDI签名基因在泛癌分析中的景观

  • A 展示了选定的癌症类型和基因组符号的风险比和Cox P值。行代表基因组符号,而列代表癌症类型。气泡的颜色和大小分别表示风险比和Cox P值的显著性。使用蓝到红的颜色渐变表示从低到高的风险比,而较大的气泡对应于Cox P值的更大统计显著性。黑色轮廓边框突出显示Cox P值≤0.05的阈值。
  • 在B中,图表展示了每种癌症类型的签名基因的logFC和FDR。红色和蓝色分别表示明显上调和下调的基因。此外,C显示了一个热图,展示了恶性肿瘤中签名基因的不同甲基化模式。使用Wilcoxon秩和测试评估统计显著性的程度,超甲基化和低甲基化的基因分别用红色和蓝色表示。
  • D是一个条形图,展示了每个签名基因和癌症类型的拷贝数变异变化的频率。
  • 最后,E和F分别展示了给定的恶性肿瘤的签名基因突变频率和单核苷酸变异oncoplot。

image.png

图 12. 18个mtPCDI签名基因的基因表达和免疫组化分析

  • A-R显示了ACAA2、CTSL、MRPS16、ACACB、ECHDC2、MSH6、ANGPTL2、ERCC4、MTPAP、ANXA5、GNS、NCOA4、BRCA1、IFI16、PABPC5、BRCA2、MCUB和PDE2A的结果。

小总结

  • 似乎告别了传统的生信套路,但其实是集结了所有主流建模方法,有点像方法学的“meta”,流程图已经把思路展现的很透彻了:线粒体基因差异分析、18种程序性死亡综合打分、预后模型、多组学、通路富集、临床表征、免疫浸润、构建指标变量模型、一致性聚类、组间免疫浸润、泛癌分析、表达表征和免疫组化
  • 虽说其实换个疾病闷头复现一遍又是篇文章,但笔者认为还是要打开格局,LGG作为原发性脑肿瘤不论是肿瘤研究还是药物开发,都很难、其多变性、易误诊性、靶向药物的复杂性,因此分型分期分类分组,指向于基础研究和临床医学检验衍生出这套算法模型。
  • 不过这种多变量多指标结合评估模型也不算“新菜”了,在精准医疗和肿瘤靶向药物开发算常见了,只是在生信发文上确实是万花丛中一点绿,感觉不错的小伙伴们学起来~



这个分段的文章前面也有总结了几篇大家可以看一下

欢迎大家添加为星标推荐👇

目录
相关文章
|
5月前
|
机器学习/深度学习 定位技术
ICLR 2024 Spotlight:连续数值分布式表征加持,浙大UIUC让语言模型擅长表格预测
【6月更文挑战第23天】在ICLR 2024会议上,浙大和UIUC的研究团队推出TP-BERTa,一种改进的BERT模型,专为表格预测。通过将连续数值特征转为文本并利用自注意力机制,TP-BERTa能有效处理高维、异构表格数据,提高预测性能。预训练和微调策略使其在XGBoost等传统方法及FT-Transformer等深度学习模型中脱颖而出。论文链接:[anzIzGZuLi](https://openreview.net/pdf?id=anzIzGZuLi)
106 5
|
机器学习/深度学习 算法 知识图谱
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
210 0
|
机器学习/深度学习 存储 人工智能
ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
184 0
|
人工智能 算法 数据可视化
AI K-means算法对数据进行聚类分析-实验报告
AI K-means算法对数据进行聚类分析-实验报告
242 0
AI K-means算法对数据进行聚类分析-实验报告
|
机器学习/深度学习 算法 数据可视化
机器学习测试笔记(10)——K邻近算法(上)
机器学习测试笔记(10)——K邻近算法(上)
169 0
机器学习测试笔记(10)——K邻近算法(上)
|
机器学习/深度学习 存储 移动开发
【吴恩达课后编程作业】第二周作业 (附答案、代码) Logistic回归 神经网络、深度学习、机器学习
【吴恩达课后编程作业】第二周作业 (附答案、代码) Logistic回归 神经网络、深度学习、机器学习
382 0
【吴恩达课后编程作业】第二周作业 (附答案、代码) Logistic回归 神经网络、深度学习、机器学习
|
机器学习/深度学习 存储 关系型数据库
【吴恩达课后编程作业】第三周作业 (附答案、代码)隐藏层神经网络 神经网络、深度学习、机器学习
【吴恩达课后编程作业】第三周作业 (附答案、代码)隐藏层神经网络 神经网络、深度学习、机器学习
437 0
【吴恩达课后编程作业】第三周作业 (附答案、代码)隐藏层神经网络 神经网络、深度学习、机器学习
|
机器学习/深度学习 人工智能 监控
机器学习测试笔记(10)——K邻近算法(下)
机器学习测试笔记(10)——K邻近算法(下)
147 0
|
机器学习/深度学习 SQL 存储
现代数据团队的特征工程(Continual)(上)
特征工程是任何 ML 工作流程的关键部分。 在 Continual 中,我们认为它实际上是 ML 流程中最具影响力的部分,并且应该对其应用最多的人工干预。 然而,在 ML 文献中,该术语经常在几个不同的主题中被过度使用,我们希望为 Continual 的用户提供一些引导以了解该概念。 在本文中,我们将把特征工程分解为几个不同的概念,并为每个概念提供引导。
|
机器学习/深度学习 存储 SQL
现代数据团队的特征工程(Continual)(下)
特征工程是任何 ML 工作流程的关键部分。 在 Continual 中,我们认为它实际上是 ML 流程中最具影响力的部分,并且应该对其应用最多的人工干预。 然而,在 ML 文献中,该术语经常在几个不同的主题中被过度使用,我们希望为 Continual 的用户提供一些引导以了解该概念。 在本文中,我们将把特征工程分解为几个不同的概念,并为每个概念提供引导。