JCR一区5.4分|经典~非肿瘤机器学习筛选生物标志物+qPCR

简介: 本文介绍了一项使用机器学习算法识别间变性甲状腺癌(ATC)新型生物标志物和免疫浸润特征的研究。该研究发表在2023年9月的《Journal of Endocrinological Investigation》上,IF为5.4。通过对GEO数据库中的RNA测序数据进行分析,研究人员鉴定出425个差异表达基因,并利用LASSO和SVM-RFE算法确定了4个ATC特征基因(ADM、PXDN、MMP1和TFF3)。这些基因在诊断、药物敏感性和免疫微环境中具有潜在价值,可能成为ATC诊断和治疗的生物标志物。

今天给大家分享一篇IF=5.4的非肿瘤机器学习的文章,2023年9月发表在Journal of Endocrinological Investigation:Identification of novel characteristic biomarkers and immune infiltration profile for the anaplastic thyroid cancer via machine learning algorithms,通过机器学习算法识别再生障碍性甲状腺癌的新特征生物标志物和免疫浸润

image.png

摘要

  • 目的:间变性甲状腺癌(ATC)是一种罕见且致命的恶性癌症。近年来,分子驱动的靶向治疗和免疫疗法的应用显著改善了ATC的预后。本研究旨在识别ATC诊断的特征基因,并揭示ATC特征基因在药物敏感性和免疫细胞浸润中的作用。
  • 方法:我们从GEO数据库下载了ATC的RNA测序数据。在合并和标准化数据集后,我们首先将合并的数据集分为训练队列和验证队列。我们通过在训练队列中进行差异表达分析来识别ATC的差异表达基因(DEGs)。我们使用两种机器学习算法,最小绝对收缩和选择算子(LASSO)以及支持向量机递归特征消除(SVM-RFE)来识别ATC的特征基因。我们使用CIBERSORT算法来计算ATC中各种免疫细胞的丰度。最后,我们通过定量逆转录聚合酶链反应(RT-qPCR)验证了ATC特征基因在ATC细胞系和免疫组织化学(IHC)中的表达。
  • 结果:在训练队列中共鉴定出425个DEGs,包括240个上调基因和185个下调基因。我们识别出了4个ATC特征基因(ADM、PXDN、MMP1和TFF3),并在验证队列中验证了它们的诊断价值(ROC分析中的AUC>0.75)。我们建立了一个基于基因表达的实用性判分模型,可以准确预测ATC的发病概率。我们还发现,ATC特征生物标志物与肿瘤免疫微环境和药物敏感性有关。
  • 结论:ADM、PXDN、MMP1TFF3可能作为潜在的ATC诊断生物标志物,并可能有助于ATC的分子靶向治疗和免疫疗法。

分析流程

image.png

结果

image.png

图2 数据处理和差异基因(DEGs)鉴定。

  • A 去除批次效应前的主成分分析(PCA)。
  • B 去除批次效应后的主成分分析(PCA)。
  • C 差异基因的热图。
  • D 差异基因的火山图,红色点表示上调基因,绿色点表示下调基因。

image.png


图3 基于差异基因(DEGs)的综合功能富集分析。

  • A 上调DEGs的GO富集分析。
  • B 下调DEGs的GO富集分析。
  • C 上调DEGs的KEGG通路富集分析。
  • D 下调DEGs的KEGG通路富集分析。
  • E ATC和非恶性之间的GSVA分析。上调基因集中的虚线表示GSVA富集分数=1,下调基因集中的虚线表示GSVA富集分数= -1。

image.png

图4 对训练队列中的ATC患者进行一致性聚类分析

  • A 两个ATC亚型的一致性聚类矩阵。
  • B ATC亚型的PCA分布图。
  • C 差异通路的火山图。
  • D 差异通路的热图。

image.png

图5 在ATC训练队列中识别特征生物标志物

  • A 使用LASSO回归算法筛选ATC的特征生物标志物。
  • B 使用基于SVM-RFE的机器学习算法识别ATC的特征生物标志物。
  • C LASSO回归算法和SVM-RFE算法之间的交集基因。
  • D-G 箱线图验证训练队列中特征基因的表达水平。“Con”指的是非恶性样本。
  • H-K ROC曲线评估训练队列中特征基因的诊断准确性。


图6 在ATC验证队列中验证特征生物标志物

  • A-D 箱线图验证验证队列中特征基因的表达水平。“Con”指的是非恶性样本。
  • E-H ROC曲线评估验证队列中特征基因的诊断准确性。


图7 预测模型和药物敏感性分析

  • A 用于预测ATC患病概率的预测模型。
  • B 预测模型的校准曲线。
  • C-K 具有特征基因的化疗和靶向治疗药物的估计IC50值。


图8 ATC患者的免疫细胞比例及其与特征生物标志物表达的相关性。

  • A 非恶性甲状腺和ATC样本中免疫细胞浸润的景观。
  • B ADM表达水平与浸润的免疫细胞之间的关系。
  • C MMP1表达水平与浸润的免疫细胞之间的相关性。
  • D PXDN表达水平与浸润的免疫细胞之间的相关性。
  • E TFF3表达水平与浸润的免疫细胞之间的关系。

image.png

图9 特征基因的RT-qPCR和免疫组织化学(IHC)分析

  • A ADM B PXDN C MMP1;(ns:不显著, p<0.05, p<0.01, p<0.001)。
  • D TFF3、PXDN、MMP1的IHC分析。

小总结

  • 这个应该不用过多介绍了,非常典型的干湿结合:合并数据集,差异分析,通路富集,一致性聚类,组间通路富集,LASSO和SVM-RFE筛选靶点,表达表征,列线图,药物敏感性分析,免疫浸润,qPCR和免疫组化。
  • 这个分析路线不算难,适合入门生信想做非肿瘤的小伙伴,提供一个有条有序的研究思路,然后再深入挖掘,“难度不大,预算不高”的标准作~


目录
相关文章
|
2天前
|
机器学习/深度学习 弹性计算 数据可视化
玩ST、肿瘤研究的来学习一下!16分Nature子刊的单细胞空间转录组+机器学习
Nature Communications 发表了一项关于空间转录组和机器学习在肿瘤研究中的应用。研究聚焦于HPV阴性口腔鳞状细胞癌,通过整合单细胞和空间转录组分析,揭示了肿瘤核心(TC)和前沿边缘(LE)的独特转录特征。TC和LE的基因表达模式与多种癌症的预后相关,其中LE基因标志关联不良预后,而TC则与较好预后相关。利用机器学习,研究人员建立了预测模型,识别出跨癌症类型的保守TC和LE特征。此外,他们还分析了RNA剪接动态,发现了潜在的治疗脆弱性。这项工作为肿瘤生物学和靶向治疗提供了新见解,并为药物开发提供了依据。
32 0
|
机器学习/深度学习 数据库
RNA和机器学习:多维生物标志物的合理设计
RNA和机器学习:多维生物标志物的合理设计
139 0
RNA和机器学习:多维生物标志物的合理设计
|
23小时前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】K-means算法与PCA算法之间有什么联系?
【5月更文挑战第15天】【机器学习】K-means算法与PCA算法之间有什么联系?
|
23小时前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】维度灾难问题会如何影响K-means算法?
【5月更文挑战第15天】【机器学习】维度灾难问题会如何影响K-means算法?
|
1天前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】聚类算法中,如何判断数据是否被“充分”地聚类,以便算法产生有意义的结果?
【5月更文挑战第14天】【机器学习】聚类算法中,如何判断数据是否被“充分”地聚类,以便算法产生有意义的结果?
|
1天前
|
机器学习/深度学习 运维 算法
【机器学习】可以利用K-means算法找到数据中的离群值吗?
【5月更文挑战第14天】【机器学习】可以利用K-means算法找到数据中的离群值吗?
|
2天前
|
机器学习/深度学习 数据采集 自然语言处理
理解并应用机器学习算法:神经网络深度解析
【5月更文挑战第15天】本文深入解析了神经网络的基本原理和关键组成,包括神经元、层、权重、偏置及损失函数。介绍了神经网络在图像识别、NLP等领域的应用,并涵盖了从数据预处理、选择网络结构到训练与评估的实践流程。理解并掌握这些知识,有助于更好地运用神经网络解决实际问题。随着技术发展,神经网络未来潜力无限。
|
2天前
|
机器学习/深度学习 分布式计算 并行计算
【机器学习】怎样在非常大的数据集上执行K-means算法?
【5月更文挑战第13天】【机器学习】怎样在非常大的数据集上执行K-means算法?
|
2天前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】列举几种情况,在这些情况下K-means算法难以取得较好效果
【5月更文挑战第13天】【机器学习】列举几种情况,在这些情况下K-means算法难以取得较好效果
|
2天前
|
机器学习/深度学习 传感器 算法
【机器学习】在聚类算法中,使用曼哈顿距离和使用欧式距离有什么区别?
【5月更文挑战第12天】【机器学习】在聚类算法中,使用曼哈顿距离和使用欧式距离有什么区别?

热门文章

最新文章