今天给大家分享一篇IF=5.4
的非肿瘤机器学习的文章,2023年9月发表在Journal of Endocrinological Investigation:Identification of novel characteristic biomarkers and immune infiltration profile for the anaplastic thyroid cancer via machine learning algorithms,通过机器学习算法识别再生障碍性甲状腺癌的新特征生物标志物和免疫浸润
摘要
- 目的:间变性甲状腺癌(
ATC
)是一种罕见且致命的恶性癌症。近年来,分子驱动的靶向治疗和免疫疗法的应用显著改善了ATC的预后。本研究旨在识别ATC诊断的特征基因,并揭示ATC特征基因在药物敏感性和免疫细胞浸润中的作用。 - 方法:我们从GEO数据库下载了ATC的RNA测序数据。在合并和标准化数据集后,我们首先将合并的数据集分为训练队列和验证队列。我们通过在训练队列中进行差异表达分析来识别ATC的差异表达基因(DEGs)。我们使用两种机器学习算法,最小绝对收缩和选择算子(
LASSO
)以及支持向量机递归特征消除(SVM-RFE
)来识别ATC的特征基因。我们使用CIBERSORT算法来计算ATC中各种免疫细胞的丰度。最后,我们通过定量逆转录聚合酶链反应(RT-qPCR
)验证了ATC特征基因在ATC细胞系和免疫组织化学(IHC
)中的表达。 - 结果:在训练队列中共鉴定出425个DEGs,包括240个上调基因和185个下调基因。我们识别出了4个ATC特征基因(ADM、PXDN、MMP1和TFF3),并在验证队列中验证了它们的诊断价值(ROC分析中的AUC>0.75)。我们建立了一个基于基因表达的实用性判分模型,可以准确预测ATC的发病概率。我们还发现,ATC特征生物标志物与肿瘤免疫微环境和药物敏感性有关。
- 结论:
ADM、PXDN、MMP1
和TFF3
可能作为潜在的ATC诊断生物标志物,并可能有助于ATC的分子靶向治疗和免疫疗法。
分析流程
结果
图2 数据处理和差异基因(DEGs)鉴定。
- A 去除批次效应前的主成分分析(PCA)。
- B 去除批次效应后的主成分分析(PCA)。
- C 差异基因的热图。
- D 差异基因的火山图,红色点表示上调基因,绿色点表示下调基因。
图3 基于差异基因(DEGs)的综合功能富集分析。
- A 上调DEGs的GO富集分析。
- B 下调DEGs的GO富集分析。
- C 上调DEGs的KEGG通路富集分析。
- D 下调DEGs的KEGG通路富集分析。
- E ATC和非恶性之间的GSVA分析。上调基因集中的虚线表示GSVA富集分数=1,下调基因集中的虚线表示GSVA富集分数= -1。
图4 对训练队列中的ATC患者进行一致性聚类分析
- A 两个ATC亚型的一致性聚类矩阵。
- B ATC亚型的PCA分布图。
- C 差异通路的火山图。
- D 差异通路的热图。
图5 在ATC训练队列中识别特征生物标志物
- A 使用LASSO回归算法筛选ATC的特征生物标志物。
- B 使用基于SVM-RFE的机器学习算法识别ATC的特征生物标志物。
- C LASSO回归算法和SVM-RFE算法之间的交集基因。
- D-G 箱线图验证训练队列中特征基因的表达水平。“Con”指的是非恶性样本。
- H-K ROC曲线评估训练队列中特征基因的诊断准确性。
图6 在ATC验证队列中验证特征生物标志物
- A-D 箱线图验证验证队列中特征基因的表达水平。“Con”指的是非恶性样本。
- E-H ROC曲线评估验证队列中特征基因的诊断准确性。
图7 预测模型和药物敏感性分析
- A 用于预测ATC患病概率的预测模型。
- B 预测模型的校准曲线。
- C-K 具有特征基因的化疗和靶向治疗药物的估计IC50值。
图8 ATC患者的免疫细胞比例及其与特征生物标志物表达的相关性。
- A 非恶性甲状腺和ATC样本中免疫细胞浸润的景观。
- B ADM表达水平与浸润的免疫细胞之间的关系。
- C MMP1表达水平与浸润的免疫细胞之间的相关性。
- D PXDN表达水平与浸润的免疫细胞之间的相关性。
- E TFF3表达水平与浸润的免疫细胞之间的关系。
图9 特征基因的RT-qPCR和免疫组织化学(IHC)分析
- A ADM B PXDN C MMP1;(ns:不显著, p<0.05, p<0.01, p<0.001)。
- D TFF3、PXDN、MMP1的IHC分析。
小总结
- 这个应该不用过多介绍了,非常典型的干湿结合:合并数据集,差异分析,通路富集,一致性聚类,组间通路富集,LASSO和SVM-RFE筛选靶点,表达表征,列线图,药物敏感性分析,免疫浸润,qPCR和免疫组化。
- 这个分析路线不算难,适合
入门生信想做非肿瘤
的小伙伴,提供一个有条有序的研究思路,然后再深入挖掘,“难度不大,预算不高
”的标准作~